76 resultados para Traduction statistique
em Université de Montréal, Canada
Resumo:
Les systèmes de traduction statistique à base de segments traduisent les phrases un segment à la fois, en plusieurs étapes. À chaque étape, ces systèmes ne considèrent que très peu d’informations pour choisir la traduction d’un segment. Les scores du dictionnaire de segments bilingues sont calculés sans égard aux contextes dans lesquels ils sont utilisés et les modèles de langue ne considèrent que les quelques mots entourant le segment traduit.Dans cette thèse, nous proposons un nouveau modèle considérant la phrase en entier lors de la sélection de chaque mot cible. Notre modèle d’intégration du contexte se différentie des précédents par l’utilisation d’un ppc (perceptron à plusieurs couches). Une propriété intéressante des ppc est leur couche cachée, qui propose une représentation alternative à celle offerte par les mots pour encoder les phrases à traduire. Une évaluation superficielle de cette représentation alter- native nous a montré qu’elle est capable de regrouper certaines phrases sources similaires même si elles étaient formulées différemment. Nous avons d’abord comparé avantageusement les prédictions de nos ppc à celles d’ibm1, un modèle couramment utilisé en traduction. Nous avons ensuite intégré nos ppc à notre système de traduction statistique de l’anglais vers le français. Nos ppc ont amélioré les traductions de notre système de base et d’un deuxième système de référence auquel était intégré IBM1.
Resumo:
La traduction statistique vise l’automatisation de la traduction par le biais de modèles statistiques. Dans ce travail, nous relevons un des grands défis du domaine : la recherche (Brown et al., 1993). Les systèmes de traduction statistique de référence, tel Moses (Koehn et al., 2007), effectuent généralement la recherche en explorant l’espace des préfixes par programmation dynamique, une solution coûteuse sur le plan computationnel pour ce problème potentiellement NP-complet (Knight, 1999). Nous postulons qu’une approche par recherche locale (Langlais et al., 2007) peut mener à des solutions tout aussi intéressantes en un temps et un espace mémoire beaucoup moins importants (Russell et Norvig, 2010). De plus, ce type de recherche facilite l’incorporation de modèles globaux qui nécessitent des traductions complètes et permet d’effectuer des modifications sur ces dernières de manière non-continue, deux tâches ardues lors de l’exploration de l’espace des préfixes. Nos expériences nous révèlent que la recherche locale en traduction statistique est une approche viable, s’inscrivant dans l’état de l’art.
Resumo:
Les systèmes statistiques de traduction automatique ont pour tâche la traduction d’une langue source vers une langue cible. Dans la plupart des systèmes de traduction de référence, l'unité de base considérée dans l'analyse textuelle est la forme telle qu’observée dans un texte. Une telle conception permet d’obtenir une bonne performance quand il s'agit de traduire entre deux langues morphologiquement pauvres. Toutefois, ceci n'est plus vrai lorsqu’il s’agit de traduire vers une langue morphologiquement riche (ou complexe). Le but de notre travail est de développer un système statistique de traduction automatique comme solution pour relever les défis soulevés par la complexité morphologique. Dans ce mémoire, nous examinons, dans un premier temps, un certain nombre de méthodes considérées comme des extensions aux systèmes de traduction traditionnels et nous évaluons leurs performances. Cette évaluation est faite par rapport aux systèmes à l’état de l’art (système de référence) et ceci dans des tâches de traduction anglais-inuktitut et anglais-finnois. Nous développons ensuite un nouvel algorithme de segmentation qui prend en compte les informations provenant de la paire de langues objet de la traduction. Cet algorithme de segmentation est ensuite intégré dans le modèle de traduction à base d’unités lexicales « Phrase-Based Models » pour former notre système de traduction à base de séquences de segments. Enfin, nous combinons le système obtenu avec des algorithmes de post-traitement pour obtenir un système de traduction complet. Les résultats des expériences réalisées dans ce mémoire montrent que le système de traduction à base de séquences de segments proposé permet d’obtenir des améliorations significatives au niveau de la qualité de la traduction en terme de le métrique d’évaluation BLEU (Papineni et al., 2002) et qui sert à évaluer. Plus particulièrement, notre approche de segmentation réussie à améliorer légèrement la qualité de la traduction par rapport au système de référence et une amélioration significative de la qualité de la traduction est observée par rapport aux techniques de prétraitement de base (baseline).
Resumo:
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
La traduction statistique requiert des corpus parallèles en grande quantité. L’obtention de tels corpus passe par l’alignement automatique au niveau des phrases. L’alignement des corpus parallèles a reçu beaucoup d’attention dans les années quatre vingt et cette étape est considérée comme résolue par la communauté. Nous montrons dans notre mémoire que ce n’est pas le cas et proposons un nouvel aligneur que nous comparons à des algorithmes à l’état de l’art. Notre aligneur est simple, rapide et permet d’aligner une très grande quantité de données. Il produit des résultats souvent meilleurs que ceux produits par les aligneurs les plus élaborés. Nous analysons la robustesse de notre aligneur en fonction du genre des textes à aligner et du bruit qu’ils contiennent. Pour cela, nos expériences se décomposent en deux grandes parties. Dans la première partie, nous travaillons sur le corpus BAF où nous mesurons la qualité d’alignement produit en fonction du bruit qui atteint les 60%. Dans la deuxième partie, nous travaillons sur le corpus EuroParl où nous revisitons la procédure d’alignement avec laquelle le corpus Europarl a été préparé et montrons que de meilleures performances au niveau des systèmes de traduction statistique peuvent être obtenues en utilisant notre aligneur.
Resumo:
Depuis quelques années, les applications intégrant un module de dialogues avancés sont en plein essor. En revanche, le processus d’universalisation de ces systèmes est rapidement décourageant : ceux-ci étant naturellement dépendants de la langue pour laquelle ils ont été conçus, chaque nouveau langage à intégrer requiert son propre temps de développement. Un constat qui ne s’améliore pas en considérant que la qualité est souvent tributaire de la taille de l’ensemble d’entraînement. Ce projet cherche donc à accélérer le processus. Il rend compte de différentes méthodes permettant de générer des versions polyglottes d’un premier système fonctionnel, à l’aide de la traduction statistique. L’information afférente aux données sources est projetée afin de générer des données cibles parentes, qui diminuent d’autant le temps de développement subséquent. En ce sens, plusieurs approches ont été expérimentées et analysées. Notamment, une méthode qui regroupe les données avant de réordonner les différents candidats de traduction permet d’obtenir de bons résultats.
Resumo:
Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique.
Resumo:
La traduction automatique statistique est un domaine très en demande et où les machines sont encore loin de produire des résultats de qualité humaine. La principale méthode utilisée est une traduction linéaire segment par segment d'une phrase, ce qui empêche de changer des parties de la phrase déjà traduites. La recherche pour ce mémoire se base sur l'approche utilisée dans Langlais, Patry et Gotti 2007, qui tente de corriger une traduction complétée en modifiant des segments suivant une fonction à optimiser. Dans un premier temps, l'exploration de nouveaux traits comme un modèle de langue inverse et un modèle de collocation amène une nouvelle dimension à la fonction à optimiser. Dans un second temps, l'utilisation de différentes métaheuristiques, comme les algorithmes gloutons et gloutons randomisés permet l'exploration plus en profondeur de l'espace de recherche et permet une plus grande amélioration de la fonction objectif.
Resumo:
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
La traduction du nouveau Code civil néerlandais en anglais et en français représentait un grand défi en raison du caractère systématique et fondateur d’un code, du recours à une terminologie et à une organisation nouvelles et de la longueur des articles. Dans un premier temps, le Code a été traduit selon une terminologie juridique anglaise strictement civiliste, tant en anglais qu’en français, et a été publié sous un format trilingue. Toutefois, sous la pression des praticiens, lesquels recherchaient une traduction correspondant mieux aux attentes de lecteurs anglophones habitués à la terminologie de la common law, une formule a été élaborée pour produire une version anglaise compréhensible pour les deux familles juridiques, au besoin hors de tout contexte et sans recourir à des notes. Une telle formule mérite considération lorsqu’il s’agira de produire d’autres traductions de textes civilistes en anglais.
Resumo:
Rapport de recherche
Resumo:
La lecture numérique prend de plus en plus de place dans l'espace global de la lecture des étudiants. Bien que les premiers systèmes de lecture numérique, communément appelés livres électroniques, datent déjà de plusieurs années, les opinions quant à leur potentiel divergent encore. Une variété de contenus universitaires numériques s’offre aujourd’hui aux étudiants, entraînant par le fait même une multiplication d'usages ainsi qu'une variété de modes de lecture. Les systèmes de lecture numérique font maintenant partie intégrante de l’environnement électronique auquel les étudiants ont accès et méritent d’être étudiés plus en profondeur. Maintes expérimentations ont été menées dans des bibliothèques publiques et dans des bibliothèques universitaires sur les livres électroniques. Des recherches ont été conduites sur leur utilisabilité et sur le degré de satisfaction des lecteurs dans le but d’en améliorer le design. Cependant, très peu d’études ont porté sur les pratiques de lecture proprement dites des universitaires (notamment les étudiants) et sur leurs perceptions de ces nouveaux systèmes de lecture. Notre recherche s’intéresse à ces aspects en étudiant deux systèmes de lecture numérique, une Tablet PC (dispositif nomade) et un système de livres-Web, NetLibrary (interface de lecture intégrée à un navigateur Web). Notre recherche étudie les pratiques de lecture des étudiants sur ces systèmes de lecture numérique. Elle est guidée par trois questions de recherche qui s’articulent autour (1) des stratégies de lecture employées par des étudiants (avant, pendant et après la lecture), (2) des éléments du système de lecture qui influencent (positivement ou négativement) le processus de lecture et (3) des perceptions des étudiants vis-à-vis la technologie du livre électronique et son apport à leur travail universitaire. Pour mener cette recherche, une approche méthodologique mixte a été retenue, utilisant trois modes de collecte de données : un questionnaire, des entrevues semi-structurées avec les étudiants ayant utilisé l’un ou l’autre des systèmes étudiés, et le prélèvement des traces de lecture laissées par les étudiants dans les systèmes, après usage. Les répondants (n=46) étaient des étudiants de l’Université de Montréal, provenant de trois départements (Bibliothéconomie & sciences de l’information, Communication et Linguistique & traduction). Près de la moitié d’entre eux (n=21) ont été interviewés. Parallèlement, les traces de lecture laissées dans les systèmes de lecture par les étudiants (annotations, surlignages, etc.) ont été prélevées et analysées. Les données des entrevues et des réponses aux questions ouvertes du questionnaire ont fait l'objet d'une analyse de contenu et un traitement statistique a été réservé aux données des questions fermées du questionnaire et des traces de lecture. Les résultats obtenus montrent que, d’une façon générale, l’objectif de lecture, la nouveauté du contenu, les habitudes de lecture de l’étudiant de même que les possibilités du système de lecture sont les éléments qui orientent le choix et l’application des stratégies de lecture. Des aides et des obstacles à la lecture ont été identifiés pour chacun des systèmes de lecture étudiés. Les aides consistent en la présence de certains éléments de la métaphore du livre papier dans le système de lecture numérique (notion de page délimitée, pagination, etc.), le dictionnaire intégré au système, et le fait que les systèmes de lecture étudiés facilitent la lecture en diagonale. Pour les obstacles, l’instrumentation de la lecture a rendu l’appropriation du texte par le lecteur difficile. De plus, la lecture numérique (donc « sur écran ») a entraîné un manque de concentration et une fatigue visuelle notamment avec NetLibrary. La Tablet PC, tout comme NetLibrary, a été perçue comme facile à utiliser mais pas toujours confortable, l’inconfort étant davantage manifeste dans NetLibrary. Les étudiants considèrent les deux systèmes de lecture comme des outils pratiques pour le travail universitaire, mais pour des raisons différentes, spécifiques à chaque système. L’évaluation globale de l’expérience de lecture numérique des répondants s’est avérée, dans l’ensemble, positive pour la Tablet PC et plutôt mitigée pour NetLibrary. Cette recherche contribue à enrichir les connaissances sur (1) la lecture numérique, notamment celle du lectorat universitaire étudiant, et (2) l’impact d’un système de lecture sur l’efficacité de la lecture, sur les lecteurs, sur l’atteinte de l’objectif de lecture, et sur les stratégies de lecture utilisées. Outre les limites de l’étude, des pistes pour des recherches futures sont présentées.
Resumo:
Jean-Claude Gémar, Professeur émérite, Département de linguistique et traduction, Université de Montréal
Resumo:
Département de linguistique et traduction