55 resultados para Terminologie computationnelle
em Université de Montréal, Canada
Resumo:
Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction.
Resumo:
Thèse diffusée initialement dans le cadre d'un projet pilote des Presses de l'Université de Montréal/Centre d'édition numérique UdeM (1997-2008) avec l'autorisation de l'auteur.
Resumo:
Les facteurs de transcription sont des protéines spécialisées qui jouent un rôle important dans différents processus biologiques tel que la différenciation, le cycle cellulaire et la tumorigenèse. Ils régulent la transcription des gènes en se fixant sur des séquences d’ADN spécifiques (éléments cis-régulateurs). L’identification de ces éléments est une étape cruciale dans la compréhension des réseaux de régulation des gènes. Avec l’avènement des technologies de séquençage à haut débit, l’identification de tout les éléments fonctionnels dans les génomes, incluant gènes et éléments cis-régulateurs a connu une avancée considérable. Alors qu’on est arrivé à estimer le nombre de gènes chez différentes espèces, l’information sur les éléments qui contrôlent et orchestrent la régulation de ces gènes est encore mal définie. Grace aux techniques de ChIP-chip et de ChIP-séquençage il est possible d’identifier toutes les régions du génome qui sont liées par un facteur de transcription d’intérêt. Plusieurs approches computationnelles ont été développées pour prédire les sites fixés par les facteurs de transcription. Ces approches sont classées en deux catégories principales: les algorithmes énumératifs et probabilistes. Toutefois, plusieurs études ont montré que ces approches génèrent des taux élevés de faux négatifs et de faux positifs ce qui rend difficile l’interprétation des résultats et par conséquent leur validation expérimentale. Dans cette thèse, nous avons ciblé deux objectifs. Le premier objectif a été de développer une nouvelle approche pour la découverte des sites de fixation des facteurs de transcription à l’ADN (SAMD-ChIP) adaptée aux données de ChIP-chip et de ChIP-séquençage. Notre approche implémente un algorithme hybride qui combine les deux stratégies énumérative et probabiliste, afin d’exploiter les performances de chacune d’entre elles. Notre approche a montré ses performances, comparée aux outils de découvertes de motifs existants sur des jeux de données simulées et des jeux de données de ChIP-chip et de ChIP-séquençage. SAMD-ChIP présente aussi l’avantage d’exploiter les propriétés de distributions des sites liés par les facteurs de transcription autour du centre des régions liées afin de limiter la prédiction aux motifs qui sont enrichis dans une fenêtre de longueur fixe autour du centre de ces régions. Les facteurs de transcription agissent rarement seuls. Ils forment souvent des complexes pour interagir avec l’ADN pour réguler leurs gènes cibles. Ces interactions impliquent des facteurs de transcription dont les sites de fixation à l’ADN sont localisés proches les uns des autres ou bien médier par des boucles de chromatine. Notre deuxième objectif a été d’exploiter la proximité spatiale des sites liés par les facteurs de transcription dans les régions de ChIP-chip et de ChIP-séquençage pour développer une approche pour la prédiction des motifs composites (motifs composés par deux sites et séparés par un espacement de taille fixe). Nous avons testé ce module pour prédire la co-localisation entre les deux demi-sites ERE qui forment le site ERE, lié par le récepteur des œstrogènes ERα. Ce module a été incorporé à notre outil de découverte de motifs SAMD-ChIP.
Resumo:
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
La terminologie, telle quelle se pratique au Québec depuis une cinquantaine d'années, s'inscrit dans un projet d'aménagement linguistique qui vise à faire du français la langue d'utilisation commune sur le territoire québécois. La mise en œuvre de ce projet a été confiée à l'Office québécois de la langue française. Dans le cadre de la présente thèse, nous évaluons l'influence de l'aménagement linguistique sur l'orientation des travaux de terminologie à l'Office québécois de la langue française de 1961 à 2004. Notre objectif principal est de montrer que le projet d'aménagement linguistique a engendré une intense activité terminologique à la suite de l'adoption de diverses lois linguistiques au cours des cinquante dernières années. Plus précisément, nous analysons l'impact de ces lois sur le développement de la pratique de la terminologie. Pour ce faire, nous avons proposé six périodes qui caractérisent les travaux de terminologie de l'Office québécois de la langue française de 1961 à 2004. À l'intérieur de ces six périodes, nous analysons les mandats que les lois linguistiques ont confiés à l'Office et leurs répercussions sur l'orientation de ses travaux terminologiques. À l'instar de la problématique que nous avons esquissée au début de cette thèse, les résultats de notre recherche révèlent que la pratique de la terminologie est liée au projet de société que le Québec s'est donné pour assurer la défense du français sur son territoire. En outre, l'adoption des lois linguistiques a favorisé le développement de la pratique de la terminologie. Cette pratique a évolué en fonction des différents mandats confiés à l'Office québécois de la langue française qui a mis au point une méthodologie de travail en terminologie. C'est dans le cadre de l'aménagement linguistique que la terminologie s'est développée au Québec et qu'elle est devenue l'instrument clé de la mise en œuvre du projet d'aménagement linguistique québécois.
Resumo:
Le présent travail consiste à proposer un modèle de représentation des notions théoriques et pratiques de la terminologie et de leurs relations sous forme de thésaurus. Selon la norme ISO 25964-1, 2011, « un thésaurus est un vocabulaire contrôlé et structuré dans lequel les concepts sont représentés par des termes, ayant été organisés afin de rendre explicites les relations entre les concepts (…) ». Notre objectif est de créer un outil pédagogique à la suite d’une réflexion théorique englobant différentes perspectives notionnelles au sein de cette discipline. Les enjeux soulevés par la classification des concepts de certains champs de savoir (notamment ceux donnant lieu à différentes perspectives) n’ont pas été approfondis suffisamment dans la littérature de la terminologie, ni dans celle portant sur les thésaurus. Comment décrire des concepts qui sont sujets à des dissensions théoriques entre les différentes écoles de pensée? Comment classer les différentes relations entretenues par les concepts théoriques et les applications pratiques d’une discipline? À ces questions s’ajoute celle de la prise en compte de ces difficultés dans un thésaurus. Nous commençons par délimiter et organiser les concepts saillants du domaine. Ensuite, à l’aide d’un corpus comprenant des publications associées à différentes approches de la terminologie, nous étudions les réalisations linguistiques de ces concepts et leurs relations en contexte, dans le but de les décrire, de les classer et de les définir. Puis, nous faisons l’encodage de ces données à l’aide d’un logiciel de gestion de thésaurus, en respectant les normes ISO applicables. La dernière étape consiste à définir la visualisation de ces données afin de la rendre conviviale et compréhensible. Enfin, nous présentons les caractéristiques fondamentales du Thésaurus de la terminologie. Nous avons analysé et représenté un échantillon de 45 concepts et leurs termes reliés. Les différents phénomènes associés à ces descripteurs comme la multidimensionalité, la variation conceptuelle et la variation dénominative sont aussi représentés dans notre thésaurus.
Resumo:
La traduction du nouveau Code civil néerlandais en anglais et en français représentait un grand défi en raison du caractère systématique et fondateur d’un code, du recours à une terminologie et à une organisation nouvelles et de la longueur des articles. Dans un premier temps, le Code a été traduit selon une terminologie juridique anglaise strictement civiliste, tant en anglais qu’en français, et a été publié sous un format trilingue. Toutefois, sous la pression des praticiens, lesquels recherchaient une traduction correspondant mieux aux attentes de lecteurs anglophones habitués à la terminologie de la common law, une formule a été élaborée pour produire une version anglaise compréhensible pour les deux familles juridiques, au besoin hors de tout contexte et sans recourir à des notes. Une telle formule mérite considération lorsqu’il s’agira de produire d’autres traductions de textes civilistes en anglais.
Resumo:
Rapport de stage (maîtrise en finance mathématique et computationnelle)
Resumo:
Rapport de stage (maîtrise en finance mathématique et computationnelle)
Resumo:
Rapport de stage (maîtrise en finance mathématique et computationnelle)
Resumo:
Rapport de stage (maîtrise en finance mathématique et computationnelle)
Resumo:
Rapport de stage (maîtrise en finance mathématique et computationnelle)
Resumo:
Département de linguistique et de traduction
Resumo:
Département de linguistique et de traduction