149 resultados para Systèmes de traduction statistiques
em Université de Montréal, Canada
Resumo:
Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique.
Resumo:
Les systèmes statistiques de traduction automatique ont pour tâche la traduction d’une langue source vers une langue cible. Dans la plupart des systèmes de traduction de référence, l'unité de base considérée dans l'analyse textuelle est la forme telle qu’observée dans un texte. Une telle conception permet d’obtenir une bonne performance quand il s'agit de traduire entre deux langues morphologiquement pauvres. Toutefois, ceci n'est plus vrai lorsqu’il s’agit de traduire vers une langue morphologiquement riche (ou complexe). Le but de notre travail est de développer un système statistique de traduction automatique comme solution pour relever les défis soulevés par la complexité morphologique. Dans ce mémoire, nous examinons, dans un premier temps, un certain nombre de méthodes considérées comme des extensions aux systèmes de traduction traditionnels et nous évaluons leurs performances. Cette évaluation est faite par rapport aux systèmes à l’état de l’art (système de référence) et ceci dans des tâches de traduction anglais-inuktitut et anglais-finnois. Nous développons ensuite un nouvel algorithme de segmentation qui prend en compte les informations provenant de la paire de langues objet de la traduction. Cet algorithme de segmentation est ensuite intégré dans le modèle de traduction à base d’unités lexicales « Phrase-Based Models » pour former notre système de traduction à base de séquences de segments. Enfin, nous combinons le système obtenu avec des algorithmes de post-traitement pour obtenir un système de traduction complet. Les résultats des expériences réalisées dans ce mémoire montrent que le système de traduction à base de séquences de segments proposé permet d’obtenir des améliorations significatives au niveau de la qualité de la traduction en terme de le métrique d’évaluation BLEU (Papineni et al., 2002) et qui sert à évaluer. Plus particulièrement, notre approche de segmentation réussie à améliorer légèrement la qualité de la traduction par rapport au système de référence et une amélioration significative de la qualité de la traduction est observée par rapport aux techniques de prétraitement de base (baseline).
Resumo:
La traduction statistique vise l’automatisation de la traduction par le biais de modèles statistiques. Dans ce travail, nous relevons un des grands défis du domaine : la recherche (Brown et al., 1993). Les systèmes de traduction statistique de référence, tel Moses (Koehn et al., 2007), effectuent généralement la recherche en explorant l’espace des préfixes par programmation dynamique, une solution coûteuse sur le plan computationnel pour ce problème potentiellement NP-complet (Knight, 1999). Nous postulons qu’une approche par recherche locale (Langlais et al., 2007) peut mener à des solutions tout aussi intéressantes en un temps et un espace mémoire beaucoup moins importants (Russell et Norvig, 2010). De plus, ce type de recherche facilite l’incorporation de modèles globaux qui nécessitent des traductions complètes et permet d’effectuer des modifications sur ces dernières de manière non-continue, deux tâches ardues lors de l’exploration de l’espace des préfixes. Nos expériences nous révèlent que la recherche locale en traduction statistique est une approche viable, s’inscrivant dans l’état de l’art.
Resumo:
Les systèmes de traduction statistique à base de segments traduisent les phrases un segment à la fois, en plusieurs étapes. À chaque étape, ces systèmes ne considèrent que très peu d’informations pour choisir la traduction d’un segment. Les scores du dictionnaire de segments bilingues sont calculés sans égard aux contextes dans lesquels ils sont utilisés et les modèles de langue ne considèrent que les quelques mots entourant le segment traduit.Dans cette thèse, nous proposons un nouveau modèle considérant la phrase en entier lors de la sélection de chaque mot cible. Notre modèle d’intégration du contexte se différentie des précédents par l’utilisation d’un ppc (perceptron à plusieurs couches). Une propriété intéressante des ppc est leur couche cachée, qui propose une représentation alternative à celle offerte par les mots pour encoder les phrases à traduire. Une évaluation superficielle de cette représentation alter- native nous a montré qu’elle est capable de regrouper certaines phrases sources similaires même si elles étaient formulées différemment. Nous avons d’abord comparé avantageusement les prédictions de nos ppc à celles d’ibm1, un modèle couramment utilisé en traduction. Nous avons ensuite intégré nos ppc à notre système de traduction statistique de l’anglais vers le français. Nos ppc ont amélioré les traductions de notre système de base et d’un deuxième système de référence auquel était intégré IBM1.
Resumo:
La traduction statistique requiert des corpus parallèles en grande quantité. L’obtention de tels corpus passe par l’alignement automatique au niveau des phrases. L’alignement des corpus parallèles a reçu beaucoup d’attention dans les années quatre vingt et cette étape est considérée comme résolue par la communauté. Nous montrons dans notre mémoire que ce n’est pas le cas et proposons un nouvel aligneur que nous comparons à des algorithmes à l’état de l’art. Notre aligneur est simple, rapide et permet d’aligner une très grande quantité de données. Il produit des résultats souvent meilleurs que ceux produits par les aligneurs les plus élaborés. Nous analysons la robustesse de notre aligneur en fonction du genre des textes à aligner et du bruit qu’ils contiennent. Pour cela, nos expériences se décomposent en deux grandes parties. Dans la première partie, nous travaillons sur le corpus BAF où nous mesurons la qualité d’alignement produit en fonction du bruit qui atteint les 60%. Dans la deuxième partie, nous travaillons sur le corpus EuroParl où nous revisitons la procédure d’alignement avec laquelle le corpus Europarl a été préparé et montrons que de meilleures performances au niveau des systèmes de traduction statistique peuvent être obtenues en utilisant notre aligneur.
Resumo:
Dans ce mémoire, nous examinons certaines propriétés des représentations distribuées de mots et nous proposons une technique pour élargir le vocabulaire des systèmes de traduction automatique neurale. En premier lieu, nous considérons un problème de résolution d'analogies bien connu et examinons l'effet de poids adaptés à la position, le choix de la fonction de combinaison et l'impact de l'apprentissage supervisé. Nous enchaînons en montrant que des représentations distribuées simples basées sur la traduction peuvent atteindre ou dépasser l'état de l'art sur le test de détection de synonymes TOEFL et sur le récent étalon-or SimLex-999. Finalament, motivé par d'impressionnants résultats obtenus avec des représentations distribuées issues de systèmes de traduction neurale à petit vocabulaire (30 000 mots), nous présentons une approche compatible à l'utilisation de cartes graphiques pour augmenter la taille du vocabulaire par plus d'un ordre de magnitude. Bien qu'originalement développée seulement pour obtenir les représentations distribuées, nous montrons que cette technique fonctionne plutôt bien sur des tâches de traduction, en particulier de l'anglais vers le français (WMT'14).
Resumo:
La thèse a pour objectif d’étudier l’influence du financement des soins de santé sur la performance des systèmes de soins compte tenu des caractéristiques organisationnelles sanitaires des systèmes. Elle s’articule autour des trois objectifs suivants : 1) caractériser le financement des soins de santé à travers les différents modèles émergeant des pays à revenu élevé ; 2) apprécier la performance des systèmes de soins en établissant les divers profils apparaissant dans ces mêmes pays ; 3) examiner le lien entre le financement et la performance en tenant compte du pouvoir modérateur du contexte organisationnel des soins. Inspirée du processus de circulation de l’argent dans le système de soins, l’approche a d’abord consisté à classer les pays étudiés – par une analyse configurationnelle opérationnalisée par les analyses de correspondance multiples (ACM) et de classification hiérarchique ascendante (CHA) – dans des modèles types, chacun représentant une configuration particulière de processus de financement des soins de santé (article 1). Appliquée aux données recueillies auprès des 27 pays de l’OCDE à revenu élevé via les rapports Health Care in Transition des systèmes de santé des pays produits par le bureau Européen de l’OMS, la banque de données Eco-Santé OCDE 2007 et les statistiques de l’OMS 2008, les analyses ont révélé cinq modèles de financement. Ils se distinguent selon les fonctions de collecte de l’argent dans le système (prélèvement), de mise en commun de l’argent collecté (stockage), de la répartition de l’argent collecté et stocké (allocation) et du processus de paiement des professionnels et des établissements de santé (paiement). Les modèles ainsi développés, qui vont au-delà du processus unique de collecte de l’argent, donnent un portrait plus complet du processus de financement des soins de santé. Ils permettent ainsi une compréhension de la cohérence interne existant entre les fonctions du financement lors d’un éventuel changement de mode de financement dans un pays. Dans un deuxième temps, nous appuyant sur une conception multidimensionnelle de la performance des systèmes, nous avons classé les pays : premièrement, selon leur niveau en termes de ressources mobilisées, de services produits et de résultats de santé atteints (définissant la performance absolue) ; deuxièmement, selon les efforts qu’ils fournissent pour atteindre un niveau élevé de résultats de santé proportionnellement aux ressources mobilisées et aux services produits en termes d’efficience, d’efficacité et de productivité (définissant ainsi la performance relative) ; et troisièmement, selon les profils types de performance globale émergeant en tenant compte simultanément des niveaux de performance absolue et relative (article 2). Les analyses effectuées sur les données collectées auprès des mêmes 27 pays précédents ont dégagé quatre profils de performance qui se différencient selon leur niveau de performance multidimensionnelle et globale. Les résultats ainsi obtenus permettent d’effectuer une comparaison entre les niveaux globaux de performance des systèmes de soins. Pour terminer, afin de répondre à la question de savoir quel mode – ou quels modes – de financement générerait de meilleurs résultats de performance, et ce, dans quel contexte organisationnel de soins, une analyse plus fine des relations entre le financement et la performance (tous définis comme précédemment) compte tenu des caractéristiques organisationnelles sanitaires a été réalisée (article 3). Les résultats montrent qu’il n’existe presque aucune relation directe entre le financement et la performance. Toutefois, lorsque le financement interagit avec le contexte organisationnel sanitaire pour appréhender le niveau de performance des systèmes, des relations pertinentes et révélatrices apparaissent. Ainsi, certains modes de financement semblent plus attrayants que d’autres en termes de performance dans des contextes organisationnels sanitaires différents. Les résultats permettent ainsi à tous les acteurs du système de comprendre qu’il n’existe qu’une influence indirecte du financement de la santé sur la performance des systèmes de soins due à l’interaction du financement avec le contexte organisationnel sanitaire. L’une des originalités de cette thèse tient au fait que très peu de travaux ont tenté d’opérationnaliser de façon multidimensionnelle les concepts de financement et de performance avant d’analyser les associations susceptibles d’exister entre eux. En outre, alors que la pertinence de la prise en compte des caractéristiques du contexte organisationnel dans la mise en place des réformes des systèmes de soins est au coeur des préoccupations, ce travail est l’un des premiers à analyser l’influence de l’interaction entre le financement et le contexte organisationnel sanitaire sur la performance des systèmes de soins.
Resumo:
La recherche présentée dans le cadre de ce mémoire porte sur le développement de la Théorie linguistique de la traduction telle qu’élaborée par des traducteurs soviétiques à partir des années 1950. Ce mémoire vise à démontrer les particularités de l’évolution des connaissances traductologiques sous la pression politique, idéologique et institutionnelle du régime soviétique (1922-1991). En particulier, le travail cherche à expliquer les raisons qui ont abouti à l’isolement théorique de la traductologie russe. À partir de la théorie du polysystème littéraire d’Even-Zohar et de son analyse de la structure des systèmes littéraires, ce mémoire examine la structure et l’évolution des différents facteurs (producteur, institutions, produit, répertoire, marché) qui ont façonné la configuration spécifique de la Théorie linguistique de la traduction en tant que produit du système soviétique de traduction, tel qu’il se développe dans les conditions particulières du polysystème littéraire soviétique. L’analyse des travaux des auteurs dits « canonisés » de l’approche linguistique russe (Fyodorov, Retsker, Švejtser, Barkhoudarov, Komissarov) permet de montrer comment la Théorie linguistique de la traduction s’est imposée comme la seule théorie capable de survivre au contexte soviétique de pression idéologique et de contrôle total du régime communiste. Ce sont ces facteurs qui expliquent aussi le décalage théorique et institutionnel observé entre les traductologies russe et occidentale.
Resumo:
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
La traduction du nouveau Code civil néerlandais en anglais et en français représentait un grand défi en raison du caractère systématique et fondateur d’un code, du recours à une terminologie et à une organisation nouvelles et de la longueur des articles. Dans un premier temps, le Code a été traduit selon une terminologie juridique anglaise strictement civiliste, tant en anglais qu’en français, et a été publié sous un format trilingue. Toutefois, sous la pression des praticiens, lesquels recherchaient une traduction correspondant mieux aux attentes de lecteurs anglophones habitués à la terminologie de la common law, une formule a été élaborée pour produire une version anglaise compréhensible pour les deux familles juridiques, au besoin hors de tout contexte et sans recourir à des notes. Une telle formule mérite considération lorsqu’il s’agira de produire d’autres traductions de textes civilistes en anglais.
Resumo:
Les professionnels de l'information traversent actuellement une période de redéfinition de leur profession provoquée par la transformation de l'information et des processus informationnels vers un mode de plus en plus électronique. Les systèmes d'information Web (SIW) — c'est-à-dire des systèmes d'information basés sur les technologies Web tels que les sites Web externes, les intranets, les systèmes de commerce électronique et les extranets — font partie des technologies à l'origine de ces changements. Ces systèmes sont de plus en plus adoptés par les organisations et, en particulier, par les gouvernements dans leur volonté de devenir électroniques. Le gouvernement fédéral canadien est reconnu comme un des plus innovateurs en matière de SIW et doit adapter son environnement informationnel, dont font partie les professionnels de l'information, à l'introduction de ces systèmes. Malgré l'innovation que les SIW représentent, peu d'études empiriques ont été menées pour identifier quels sont les intervenants nécessaires à leur mise en place. Aucun consensus n'émerge de la littérature quant à la nature de l'intervention des professionnels de l'information dans ces systèmes. Cette recherche vise à accroître les connaissances sur l'intervention des professionnels de l'information dans les SIW. Pour les besoins de cette recherche, les professionnels de l'information sont définis comme les personnes ayant une maîtrise en bibliothéconomie et sciences de l'information ou toute autre formulation équivalente. Cette recherche étudie quatre questions de recherche qui portent sur : (1) les rôles des professionnels de l'information décrits dans les politiques d'information pan-gouvernementales liées aux SIW ainsi que ceux des autres intervenants mentionnés en lien direct avec les SIW, (2) les types de SIW dans lesquels les professionnels de l'information interviennent, (3) les tâches des professionnels de l'information dans ces SIW, et (4) les autres intervenants qui travaillent dans ces systèmes. Une approche qualitative a été utilisée pour répondre à ces questions et implique quatre modes de collecte des données : (1) des entrevues en profondeur en personne avec des professionnels de l'information impliqués dans des SIW, (2) une analyse des SIW où interviennent ces professionnels de l'information, (3) une analyse des politiques pan-gouvernementales liées aux SIW, et (4) la documentation pertinente. Les professionnels de l'information rencontrés proviennent de sept ministères du gouvernement fédéral canadien, ministères retenus pour leur implication dans les SIW. Les résultats indiquent que les professionnels de l'information rencontrés interviennent dans les SIW aux niveaux micro et macro, c'est-à-dire dans des SIW spécifiques ainsi que globalement au niveau de l'ensemble des SIW d'un ministère ou du gouvernement fédéral. Ces professionnels de l'information sont impliqués dans toutes les dimensions et les phases de développement des SIW. Les tâches liées au contenu sont prédominantes mais les tâches technologiques sont aussi très présentes. Trois variables se dégagent de cette étude qui ont un impact sur l'intervention des professionnels de l'information dans les SIW : les types de SIW, les types de postes occupés par les professionnels de l'information et les types de gouvernance.
Resumo:
La lecture numérique prend de plus en plus de place dans l'espace global de la lecture des étudiants. Bien que les premiers systèmes de lecture numérique, communément appelés livres électroniques, datent déjà de plusieurs années, les opinions quant à leur potentiel divergent encore. Une variété de contenus universitaires numériques s’offre aujourd’hui aux étudiants, entraînant par le fait même une multiplication d'usages ainsi qu'une variété de modes de lecture. Les systèmes de lecture numérique font maintenant partie intégrante de l’environnement électronique auquel les étudiants ont accès et méritent d’être étudiés plus en profondeur. Maintes expérimentations ont été menées dans des bibliothèques publiques et dans des bibliothèques universitaires sur les livres électroniques. Des recherches ont été conduites sur leur utilisabilité et sur le degré de satisfaction des lecteurs dans le but d’en améliorer le design. Cependant, très peu d’études ont porté sur les pratiques de lecture proprement dites des universitaires (notamment les étudiants) et sur leurs perceptions de ces nouveaux systèmes de lecture. Notre recherche s’intéresse à ces aspects en étudiant deux systèmes de lecture numérique, une Tablet PC (dispositif nomade) et un système de livres-Web, NetLibrary (interface de lecture intégrée à un navigateur Web). Notre recherche étudie les pratiques de lecture des étudiants sur ces systèmes de lecture numérique. Elle est guidée par trois questions de recherche qui s’articulent autour (1) des stratégies de lecture employées par des étudiants (avant, pendant et après la lecture), (2) des éléments du système de lecture qui influencent (positivement ou négativement) le processus de lecture et (3) des perceptions des étudiants vis-à-vis la technologie du livre électronique et son apport à leur travail universitaire. Pour mener cette recherche, une approche méthodologique mixte a été retenue, utilisant trois modes de collecte de données : un questionnaire, des entrevues semi-structurées avec les étudiants ayant utilisé l’un ou l’autre des systèmes étudiés, et le prélèvement des traces de lecture laissées par les étudiants dans les systèmes, après usage. Les répondants (n=46) étaient des étudiants de l’Université de Montréal, provenant de trois départements (Bibliothéconomie & sciences de l’information, Communication et Linguistique & traduction). Près de la moitié d’entre eux (n=21) ont été interviewés. Parallèlement, les traces de lecture laissées dans les systèmes de lecture par les étudiants (annotations, surlignages, etc.) ont été prélevées et analysées. Les données des entrevues et des réponses aux questions ouvertes du questionnaire ont fait l'objet d'une analyse de contenu et un traitement statistique a été réservé aux données des questions fermées du questionnaire et des traces de lecture. Les résultats obtenus montrent que, d’une façon générale, l’objectif de lecture, la nouveauté du contenu, les habitudes de lecture de l’étudiant de même que les possibilités du système de lecture sont les éléments qui orientent le choix et l’application des stratégies de lecture. Des aides et des obstacles à la lecture ont été identifiés pour chacun des systèmes de lecture étudiés. Les aides consistent en la présence de certains éléments de la métaphore du livre papier dans le système de lecture numérique (notion de page délimitée, pagination, etc.), le dictionnaire intégré au système, et le fait que les systèmes de lecture étudiés facilitent la lecture en diagonale. Pour les obstacles, l’instrumentation de la lecture a rendu l’appropriation du texte par le lecteur difficile. De plus, la lecture numérique (donc « sur écran ») a entraîné un manque de concentration et une fatigue visuelle notamment avec NetLibrary. La Tablet PC, tout comme NetLibrary, a été perçue comme facile à utiliser mais pas toujours confortable, l’inconfort étant davantage manifeste dans NetLibrary. Les étudiants considèrent les deux systèmes de lecture comme des outils pratiques pour le travail universitaire, mais pour des raisons différentes, spécifiques à chaque système. L’évaluation globale de l’expérience de lecture numérique des répondants s’est avérée, dans l’ensemble, positive pour la Tablet PC et plutôt mitigée pour NetLibrary. Cette recherche contribue à enrichir les connaissances sur (1) la lecture numérique, notamment celle du lectorat universitaire étudiant, et (2) l’impact d’un système de lecture sur l’efficacité de la lecture, sur les lecteurs, sur l’atteinte de l’objectif de lecture, et sur les stratégies de lecture utilisées. Outre les limites de l’étude, des pistes pour des recherches futures sont présentées.
Resumo:
Jean-Claude Gémar, Professeur émérite, Département de linguistique et traduction, Université de Montréal