601 resultados para Langues vernaculaires
Criteria for the validation of specialized verb equivalents : application in bilingual terminography
Resumo:
Multilingual terminological resources do not always include valid equivalents of legal terms for two main reasons. Firstly, legal systems can differ from one language community to another and even from one country to another because each has its own history and traditions. As a result, the non-isomorphism between legal and linguistic systems may render the identification of equivalents a particularly challenging task. Secondly, by focusing primarily on the definition of equivalence, a notion widely discussed in translation but not in terminology, the literature does not offer solid and systematic methodologies for assigning terminological equivalents. As a result, there is a lack of criteria to guide both terminologists and translators in the search and validation of equivalent terms. This problem is even more evident in the case of predicative units, such as verbs. Although some terminologists (L‘Homme 1998; Lerat 2002; Lorente 2007) have worked on specialized verbs, terminological equivalence between units that belong to this part of speech would benefit from a thorough study. By proposing a novel methodology to assign the equivalents of specialized verbs, this research aims at defining validation criteria for this kind of predicative units, so as to contribute to a better understanding of the phenomenon of terminological equivalence as well as to the development of multilingual terminography in general, and to the development of legal terminography, in particular. The study uses a Portuguese-English comparable corpus that consists of a single genre of texts, i.e. Supreme Court judgments, from which 100 Portuguese and 100 English specialized verbs were selected. The description of the verbs is based on the theory of Frame Semantics (Fillmore 1976, 1977, 1982, 1985; Fillmore and Atkins 1992), on the FrameNet methodology (Ruppenhofer et al. 2010), as well as on the methodology for compiling specialized lexical resources, such as DiCoInfo (L‘Homme 2008), developed in the Observatoire de linguistique Sens-Texte at the Université de Montréal. The research reviews contributions that have adopted the same theoretical and methodological framework to the compilation of lexical resources and proposes adaptations to the specific objectives of the project. In contrast to the top-down approach adopted by FrameNet lexicographers, the approach described here is bottom-up, i.e. verbs are first analyzed and then grouped into frames for each language separately. Specialized verbs are said to evoke a semantic frame, a sort of conceptual scenario in which a number of mandatory elements (core Frame Elements) play specific roles (e.g. ARGUER, JUDGE, LAW), but specialized verbs are often accompanied by other optional information (non-core Frame Elements), such as the criteria and reasons used by the judge to reach a decision (statutes, codes, previous decisions). The information concerning the semantic frame that each verb evokes was encoded in an xml editor and about twenty contexts illustrating the specific way each specialized verb evokes a given frame were semantically and syntactically annotated. The labels attributed to each semantic frame (e.g. [Compliance], [Verdict]) were used to group together certain synonyms, antonyms as well as equivalent terms. The research identified 165 pairs of candidate equivalents among the 200 Portuguese and English terms that were grouped together into 76 frames. 71% of the pairs of equivalents were considered full equivalents because not only do the verbs evoke the same conceptual scenario but their actantial structures, the linguistic realizations of the actants and their syntactic patterns were similar. 29% of the pairs of equivalents did not entirely meet these criteria and were considered partial equivalents. Reasons for partial equivalence are provided along with illustrative examples. Finally, the study describes the semasiological and onomasiological entry points that JuriDiCo, the bilingual lexical resource compiled during the project, offers to future users.
Resumo:
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
réalisé en cotutelle à l'Université de Franche-Comté (France)
Resumo:
Cet essai a pour objet le rôle de la notion de fiction dans les domaines de l’art et de la science. Essentiellement, je soutiens que « fiction » dans ce contexte est « a category mistake » (concept versus genre) et je crois que cet essai peut réussir à « cuire du pain philosophique » en dévoilant une dispute verbale. Je suggère donc de clore un débat philosophique dans son intégralité. Je présente un exposé du style de fictionnalisme abordé par Catherine Z. Elgin et Nelson Goodman (que ce soit dans le contexte des arts ou des sciences, nous parvenons à la compréhension grâce à des fictions sous formes de « vérités non littérales ») et j’explore le concept de la fiction. Je soutiens que les représentations (textes descriptifs de toutes sortes, incluant les modèles) sont constituées d’éléments fictionnels et d’éléments facettés (à l’exception de la version idéale possible ou impossible, c’est-à-dire dans l’esprit de Dieu, qui n’inclurait que les facettes.) La compréhension ne peut provenir de la fiction, mais plutôt d’éléments facettés ordonnés de manière à créer une compréhension qui conduit généralement à des prédictions, des explications et des manipulations. Je définis les facettes comme ayant des caractéristiques organisées, alors que les fictions ont des caractéristiques désorganisées. La fiction dans son intégralité est donc, par définition, l’expression du néant (of nothing), ou en matière de langues idéales (mathématiques), l’expression de contradiction. Les fictions et les facettes relèvent des représentations qui sont elles-mêmes primitives. Les textes descriptifs sont donc fictionnels par degré. Les récits qui sont très fictionnels ont une certaine valeur (souvent ludique) mais contiennent toujours au moins une facette. En fin de compte, toutes les activités représentationnelles devraient être considérées irréelles, incomplètes, bien que parfois connectées à la réalité, c’est-à-dire, prises entre une description réaliste facettée et une fiction dans son intégralité.
Resumo:
La plupart des travaux portant sur l’usage du français en milieu de travail tendent à adopter une perspective métrologique qui vise à cerner les déterminants de l’utilisation du français en milieu de travail. Dans ce mémoire, nous cherchons à changer d’optique en envisageant non pas d’expliquer les déterminants de l’usage principal du français en milieu de travail, mais à connaitre les principaux contextes auxquels les personnes se réfèrent pour déclarer le français comme langue principale de travail. Nous faisons en effet l’hypothèse que le fait de déclarer le français comme langue principale de travail est le résultat d’une synthèse de pratiques linguistiques contextuelles distinctes. Pour répondre à cet objectif de recherche, nous mobilisons les données d’une enquête de l’Office québécois de la langue française réalisée en 2007. Au sein de l’ensemble des contextes de travail pris en compte dans cette enquête, nous avons choisi cinq contextes : la réunion de travail, la lecture de documents produits par l’entreprise, le fait de communiquer avec l’extérieur, le fait de communiquer avec le ou les supérieurs immédiats et l’utilisation des technologies de l’information. Ainsi, nous nous sommes limités d’abord à l’étude d’un certain nombre de contextes qui touchent presqu’à l’ensemble des travailleurs particulièrement ceux qui ont à communiquer avec des supérieurs, à lire des documents produits par leur entreprise, à participer régulièrement à des réunions de travail, puis nous abordons des contextes plus spécifiques et qui touchent à un nombre plus faible de travailleurs tels : ceux qui ont à utiliser des logiciels et enfin à communiquer avec l’extérieur. Notre analyse révèle que, au-delà des caractéristiques individuelles et du contexte général du milieu de travail, ces usages contextuels des langues en milieu de travail prédisent mieux la déclaration de la langue de travail des travailleurs. Quand il s’agit de déclarer la langue principale de travail, les travailleurs semblent principalement faire référence à la langue qu’ils utilisent dans les réunions de travail, dans la langue de lecture des documents produits par l’entreprise, dans les communications avec les supérieurs immédiats ainsi qu’aux versions linguistiques des logiciels utilisés et des communications avec des clients et fournisseurs de l’extérieur du Québec.
Resumo:
Le ministère de l’Éducation, du Loisir et du Sport (MELS) publie tous les ans des indicateurs (MELS, 2007) qui traitent de plusieurs aspects du système scolaire québécois. Quoique le MELS insiste sur l’obligation pour les écoles primaires et secondaires d’obtenir des résultats probants en termes d’« efficacité », les indicateurs utilisés pour apprécier la performance des écoles ne sont pas nécessairement conçus à cette fin. Une étude du MELS rapporte que les élèves de 5e secondaire éprouvent de la difficulté à obtenir de bons résultats à deux critères de correction (syntaxe et ponctuation, orthographe), parmi les six de l’épreuve unique de français écrit (MELS, 2008). Ce fait nous amène à nous intéresser à l’étude de la modélisation des liens entre des facteurs associés à l’environnement scolaire et les résultats des élèves de la région métropolitaine de Montréal, en ce qui a trait à ces deux critères pour les cohortes des années 2006, 2007 et 2008. Nous procédons d’abord à des analyses descriptives des variables pour chacune des trois populations. Nous poursuivons l’analyse en effectuant plusieurs modélisations multiniveaux multivariées des deux critères en fonction de variables indépendantes, caractéristiques de l’élève et de l’école. Les résultats de la présente recherche indiquent une relative stabilité dans la performance des élèves pour les trois années, avec une légère amélioration de la performance pour la cohorte de 2007, et qui se maintient pour la cohorte de 2008. Les élèves du secteur privé obtiennent de meilleurs résultats que ceux du public. Le résultat des filles est supérieur à celui des garçons et les élèves de langue maternelle française obtiennent de meilleurs résultats que ceux de langues maternelles différentes du français. Il importe cependant d’apporter quelques nuances dans l’interprétation de ces résultats. En outre, la part de variance dans la performance des élèves attribuable à l’élève est de l’ordre de 75,0 % et de l’ordre de 25,0 % à l’école. On note un effet différentiel des facteurs d’élève et d’école selon le critère considéré. Les variables caractéristiques de l’élève comptent pour 13,9 % de la variance totale de la performance des élèves en syntaxe et ponctuation et pour 9,8 % en orthographe. Les variables caractéristiques de l’école comptent pour 3,7 % de la variance totale de la performance des élèves en syntaxe et ponctuation et pour 6,4 % en orthographe. Certains facteurs d’école, comme la taille, la mixité ne semblent pas présenter un lien significatif avec la performance des élèves.
Resumo:
Cette étude quasi-expérimentale a pour but de 1) comparer la prise en compte et les effets de trois conditions rétroactives, à savoir la reformulation, l’incitation et un mélange des deux techniques, 2) déterminer le lien entre la prise en compte et l’apprentissage, et 3) identifier l’effet des perceptions des apprenants quant à la rétroaction corrective sur la prise en compte et l’apprentissage. Quatre groupes d’apprenants d’anglais langue seconde ainsi que leurs enseignants provenant d’un CEGEP francophone de l’île de Montréal ont participé à cette étude. Chaque enseignant a été assigné à une condition rétroactive expérimentale qui correspondait le plus à ses pratiques rétroactives habituelles. La chercheure a assuré l’intervention auprès du groupe contrôle. L’utilisation du passé et de la phrase interrogative était ciblée durant l’intervention expérimentale. Des protocoles de pensée à haute voie ainsi qu’un questionnaire ont été utilisés pour mesurer la prise en compte de la rétroaction corrective. Des tâches de description d’images et d’identification des différences entre les images ont été administrées avant l’intervention (pré-test), immédiatement après l’intervention (post-test immédiat) et 8 semaines plus tard (post-test différé) afin d’évaluer les effets des différentes conditions rétroactives sur l’apprentissage des formes cibles. Un questionnaire a été administré pour identifier les perceptions des apprenants quant à la rétroaction corrective. En termes de prise en compte, les résultats indiquent que les participants sont en mesure de remarquer la rétroaction dépendamment de la forme cible (les erreurs dans l’utilisation du passé sont détectées plus que les erreurs d’utilisation de la phrase interrogative) et de la technique rétroactive utilisée (l’incitation et le mélange d’incitation et de reformulations sont plus détectés plus que la reformulation). En ce qui a trait à l’apprentissage, l’utilisation du passé en général est marquée par plus de développement que celle de la phrase interrogative, mais il n'y avait aucune différence entre les groupes. Le lien direct entre la prise en compte et l’apprentissage ne pouvait pas être explicitement établi. Pendant que la statistique inférentielle a suggéré une relation minimale entre la prise en compte du passé et son apprentissage, mais aucune relation entre la prise en compte de la phrase interrogative et son apprentissage, les analyses qualitatives ont montrés à une association entre la prise en compte et l’apprentissage (sur les deux cibles) pour certains étudiants et augmentations sans prise en compte pour d'autres. Finalement, l’analyse factorielle du questionnaire indique la présence de quatre facteurs principaux, à savoir l’importance de la rétroaction corrective, la reformulation, l’incitation et les effets affectifs de la rétroaction. Deux de ces facteurs ont un effet modérateur sur la prise en compte de la rétroaction sans, toutefois, avoir d’impact sur l’apprentissage.
Resumo:
Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique.
Resumo:
Cette recherche porte sur l’interface entre la sémantique lexicale et la syntaxe, et elle s’inscrit dans le cadre du projet de base lexicale DiCo (acronyme pour Dictionnaire de combinatoire) à l’Observatoire de Linguistique Sens-Texte [OLST] de l’Université de Montréal. Le projet découle d'une volonté d'inscrire de façon concise et complète, à même le dictionnaire, le comportement syntaxique typique à chaque unité lexicale. Dans cette optique, nous encodons la cooccurrence des lexies nominales du DiCo avec leurs actants à l'intérieur d'un tableau de régime lexical (aussi connu sous le nom de schéma valenciel, structure argumentale, cadre de sous-catégorisation, structure prédicats-arguments, etc.), en notant entre autres les dépendances syntaxiques de surface impliquées. Dans ce mémoire, nous présentons les propriétés syntaxiques d'une dépendance nominale du français, celle que nous avons nommée attributive adnominale, de façon à exposer une méthodologie d'identification et de caractérisation des dépendances syntaxiques de surface. Nous donnons également la liste des dépendances nominales régies identifiées au cours de ce travail. Par la suite, nous exposons la création d'une base de données de régimes généralisés du français nommée CARNAVAL. Finalement, nous discutons des applications possibles de notre travail, particulièrement en ce qui a trait à la création d'une typologie des régimes lexicaux du français.
Resumo:
Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction.
Resumo:
Le but de cette thèse est d'étudier les corrélats comportementaux et neuronaux du transfert inter-linguistique (TIL) dans l'apprentissage d’une langue seconde (L2). Compte tenu de nos connaissances sur l'influence de la distance linguistique sur le TIL (Paradis, 1987, 2004; Odlin, 1989, 2004, 2005; Gollan, 2005; Ringbom, 2007), nous avons examiné l'effet de facilitation de la similarité phonologique à l’aide de la résonance magnétique fonctionnelle entre des langues linguistiquement proches (espagnol-français) et des langues linguistiquement éloignées (persan-français). L'étude I rapporte les résultats obtenus pour des langues linguistiquement proches (espagnol-français), alors que l'étude II porte sur des langues linguistiquement éloignées (persan-français). Puis, les changements de connectivité fonctionnelle dans le réseau langagier (Price, 2010) et dans le réseau de contrôle supplémentaire impliqué dans le traitement d’une langue seconde (Abutalebi & Green, 2007) lors de l’apprentissage d’une langue linguistiquement éloignée (persan-français) sont rapportés dans l’étude III. Les résultats des analyses d’IRMF suivant le modèle linéaire général chez les bilingues de langues linguistiquement proches (français-espagnol) montrent que le traitement des mots phonologiquement similaires dans les deux langues (cognates et clangs) compte sur un réseau neuronal partagé par la langue maternelle (L1) et la L2, tandis que le traitement des mots phonologiquement éloignés (non-clang-non-cognates) active des structures impliquées dans le traitement de la mémoire de travail et d'attention. Toutefois, chez les personnes bilingues de L1-L2 linguistiquement éloignées (français-persan), même les mots phonologiquement similaires à travers les langues (cognates et clangs) activent des régions connues pour être impliquées dans l'attention et le contrôle cognitif. Par ailleurs, les mots phonologiquement éloignés (non-clang-non-cognates) activent des régions usuellement associées à la mémoire de travail et aux fonctions exécutives. Ainsi, le facteur de distance inter-linguistique entre L1 et L2 module la charge cognitive sur la base du degré de similarité phonologiques entres les items en L1 et L2. Des structures soutenant les processus impliqués dans le traitement exécutif sont recrutées afin de compenser pour des demandes cognitives. Lorsque la compétence linguistique en L2 augmente et que les tâches linguistiques exigent ainsi moins d’effort, la demande pour les ressources cognitives diminue. Tel que déjà rapporté (Majerus, et al, 2008; Prat, et al, 2007; Veroude, et al, 2010; Dodel, et al, 2005; Coynel, et al ., 2009), les résultats des analyses de connectivité fonctionnelle montrent qu’après l’entraînement la valeur d'intégration (connectivité fonctionnelle) diminue puisqu’il y a moins de circulation du flux d'information. Les résultats de cette recherche contribuent à une meilleure compréhension des aspects neurocognitifs et de plasticité cérébrale du TIL ainsi que l'impact de la distance linguistique dans l'apprentissage des langues. Ces résultats ont des implications dans les stratégies d'apprentissage d’une L2, les méthodes d’enseignement d’une L2 ainsi que le développement d'approches thérapeutiques chez des patients bilingues qui souffrent de troubles langagiers.
Resumo:
Dans de nombreux comportements qui reposent sur le rappel et la production de séquences, des groupements temporels émergent spontanément, créés par des délais ou des allongements. Ce « chunking » a été observé tant chez les humains que chez certains animaux et plusieurs auteurs l’attribuent à un processus général de chunking perceptif qui est conforme à la capacité de la mémoire à court terme. Cependant, aucune étude n’a établi comment ce chunking perceptif s’applique à la parole. Nous présentons une recension de la littérature qui fait ressortir certains problèmes critiques qui ont nui à la recherche sur cette question. C’est en revoyant ces problèmes qu’on propose une démonstration spécifique du chunking perceptif de la parole et de l’effet de ce processus sur la mémoire immédiate (ou mémoire de travail). Ces deux thèmes de notre thèse sont présentés séparément dans deux articles. Article 1 : The perceptual chunking of speech: a demonstration using ERPs Afin d’observer le chunking de la parole en temps réel, nous avons utilisé un paradigme de potentiels évoqués (PÉ) propice à susciter la Closure Positive Shift (CPS), une composante associée, entre autres, au traitement de marques de groupes prosodiques. Nos stimuli consistaient en des énoncés et des séries de syllabes sans sens comprenant des groupes intonatifs et des marques de groupements temporels qui pouvaient concorder, ou non, avec les marques de groupes intonatifs. Les analyses démontrent que la CPS est suscitée spécifiquement par les allongements marquant la fin des groupes temporels, indépendamment des autres variables. Notons que ces marques d’allongement, qui apparaissent universellement dans la langue parlée, créent le même type de chunking que celui qui émerge lors de l’apprentissage de séquences par des humains et des animaux. Nos résultats appuient donc l’idée que l’auditeur chunk la parole en groupes temporels et que ce chunking perceptif opère de façon similaire avec des comportements verbaux et non verbaux. Par ailleurs, les observations de l’Article 1 remettent en question des études où on associe la CPS au traitement de syntagmes intonatifs sans considérer les effets de marques temporels. Article 2 : Perceptual chunking and its effect on memory in speech processing:ERP and behavioral evidence Nous avons aussi observé comment le chunking perceptif d’énoncés en groupes temporels de différentes tailles influence la mémoire immédiate d’éléments entendus. Afin d’observer ces effets, nous avons utilisé des mesures comportementales et des PÉ, dont la composante N400 qui permettait d’évaluer la qualité de la trace mnésique d’éléments cibles étendus dans des groupes temporels. La modulation de l’amplitude relative de la N400 montre que les cibles présentées dans des groupes de 3 syllabes ont bénéficié d’une meilleure mise en mémoire immédiate que celles présentées dans des groupes plus longs. D’autres mesures comportementales et une analyse de la composante P300 ont aussi permis d’isoler l’effet de la position du groupe temporel (dans l’énoncé) sur les processus de mise en mémoire. Les études ci-dessus sont les premières à démontrer le chunking perceptif de la parole en temps réel et ses effets sur la mémoire immédiate d’éléments entendus. Dans l’ensemble, nos résultats suggèrent qu’un processus général de chunking perceptif favorise la mise en mémoire d’information séquentielle et une interprétation de la parole « chunk par chunk ».
Resumo:
Les travaux entrepris dans le cadre de la présente thèse portent sur l’analyse de l’équivalence terminologique en corpus parallèle et en corpus comparable. Plus spécifiquement, nous nous intéressons aux corpus de textes spécialisés appartenant au domaine du changement climatique. Une des originalités de cette étude réside dans l’analyse des équivalents de termes simples. Les bases théoriques sur lesquelles nous nous appuyons sont la terminologie textuelle (Bourigault et Slodzian 1999) et l’approche lexico-sémantique (L’Homme 2005). Cette étude poursuit deux objectifs. Le premier est d’effectuer une analyse comparative de l’équivalence dans les deux types de corpus afin de vérifier si l’équivalence terminologique observable dans les corpus parallèles se distingue de celle que l’on trouve dans les corpus comparables. Le deuxième consiste à comparer dans le détail les équivalents associés à un même terme anglais, afin de les décrire et de les répertorier pour en dégager une typologie. L’analyse détaillée des équivalents français de 343 termes anglais est menée à bien grâce à l’exploitation d’outils informatiques (extracteur de termes, aligneur de textes, etc.) et à la mise en place d’une méthodologie rigoureuse divisée en trois parties. La première partie qui est commune aux deux objectifs de la recherche concerne l’élaboration des corpus, la validation des termes anglais et le repérage des équivalents français dans les deux corpus. La deuxième partie décrit les critères sur lesquels nous nous appuyons pour comparer les équivalents des deux types de corpus. La troisième partie met en place la typologie des équivalents associés à un même terme anglais. Les résultats pour le premier objectif montrent que sur les 343 termes anglais analysés, les termes présentant des équivalents critiquables dans les deux corpus sont relativement peu élevés (12), tandis que le nombre de termes présentant des similitudes d’équivalence entre les corpus est très élevé (272 équivalents identiques et 55 équivalents non critiquables). L’analyse comparative décrite dans ce chapitre confirme notre hypothèse selon laquelle la terminologie employée dans les corpus parallèles ne se démarque pas de celle des corpus comparables. Les résultats pour le deuxième objectif montrent que de nombreux termes anglais sont rendus par plusieurs équivalents (70 % des termes analysés). Il est aussi constaté que ce ne sont pas les synonymes qui forment le groupe le plus important des équivalents, mais les quasi-synonymes. En outre, les équivalents appartenant à une autre partie du discours constituent une part importante des équivalents. Ainsi, la typologie élaborée dans cette thèse présente des mécanismes de l’équivalence terminologique peu décrits aussi systématiquement dans les travaux antérieurs.
Resumo:
Étude de maîtrise sponsorisée par le Fonds québécois de recherche Société et Culture (gouvernement du Québec), le programme Renforcement du secteur langagier au Canada (gouvernement du Canada), ainsi que par diverses bourses octroyées par l'Université de Montréal.
Resumo:
Les systèmes statistiques de traduction automatique ont pour tâche la traduction d’une langue source vers une langue cible. Dans la plupart des systèmes de traduction de référence, l'unité de base considérée dans l'analyse textuelle est la forme telle qu’observée dans un texte. Une telle conception permet d’obtenir une bonne performance quand il s'agit de traduire entre deux langues morphologiquement pauvres. Toutefois, ceci n'est plus vrai lorsqu’il s’agit de traduire vers une langue morphologiquement riche (ou complexe). Le but de notre travail est de développer un système statistique de traduction automatique comme solution pour relever les défis soulevés par la complexité morphologique. Dans ce mémoire, nous examinons, dans un premier temps, un certain nombre de méthodes considérées comme des extensions aux systèmes de traduction traditionnels et nous évaluons leurs performances. Cette évaluation est faite par rapport aux systèmes à l’état de l’art (système de référence) et ceci dans des tâches de traduction anglais-inuktitut et anglais-finnois. Nous développons ensuite un nouvel algorithme de segmentation qui prend en compte les informations provenant de la paire de langues objet de la traduction. Cet algorithme de segmentation est ensuite intégré dans le modèle de traduction à base d’unités lexicales « Phrase-Based Models » pour former notre système de traduction à base de séquences de segments. Enfin, nous combinons le système obtenu avec des algorithmes de post-traitement pour obtenir un système de traduction complet. Les résultats des expériences réalisées dans ce mémoire montrent que le système de traduction à base de séquences de segments proposé permet d’obtenir des améliorations significatives au niveau de la qualité de la traduction en terme de le métrique d’évaluation BLEU (Papineni et al., 2002) et qui sert à évaluer. Plus particulièrement, notre approche de segmentation réussie à améliorer légèrement la qualité de la traduction par rapport au système de référence et une amélioration significative de la qualité de la traduction est observée par rapport aux techniques de prétraitement de base (baseline).