999 resultados para Systèmes de traduction statistiques
Resumo:
Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique.
Resumo:
Les systèmes statistiques de traduction automatique ont pour tâche la traduction d’une langue source vers une langue cible. Dans la plupart des systèmes de traduction de référence, l'unité de base considérée dans l'analyse textuelle est la forme telle qu’observée dans un texte. Une telle conception permet d’obtenir une bonne performance quand il s'agit de traduire entre deux langues morphologiquement pauvres. Toutefois, ceci n'est plus vrai lorsqu’il s’agit de traduire vers une langue morphologiquement riche (ou complexe). Le but de notre travail est de développer un système statistique de traduction automatique comme solution pour relever les défis soulevés par la complexité morphologique. Dans ce mémoire, nous examinons, dans un premier temps, un certain nombre de méthodes considérées comme des extensions aux systèmes de traduction traditionnels et nous évaluons leurs performances. Cette évaluation est faite par rapport aux systèmes à l’état de l’art (système de référence) et ceci dans des tâches de traduction anglais-inuktitut et anglais-finnois. Nous développons ensuite un nouvel algorithme de segmentation qui prend en compte les informations provenant de la paire de langues objet de la traduction. Cet algorithme de segmentation est ensuite intégré dans le modèle de traduction à base d’unités lexicales « Phrase-Based Models » pour former notre système de traduction à base de séquences de segments. Enfin, nous combinons le système obtenu avec des algorithmes de post-traitement pour obtenir un système de traduction complet. Les résultats des expériences réalisées dans ce mémoire montrent que le système de traduction à base de séquences de segments proposé permet d’obtenir des améliorations significatives au niveau de la qualité de la traduction en terme de le métrique d’évaluation BLEU (Papineni et al., 2002) et qui sert à évaluer. Plus particulièrement, notre approche de segmentation réussie à améliorer légèrement la qualité de la traduction par rapport au système de référence et une amélioration significative de la qualité de la traduction est observée par rapport aux techniques de prétraitement de base (baseline).
Resumo:
La traduction statistique vise l’automatisation de la traduction par le biais de modèles statistiques. Dans ce travail, nous relevons un des grands défis du domaine : la recherche (Brown et al., 1993). Les systèmes de traduction statistique de référence, tel Moses (Koehn et al., 2007), effectuent généralement la recherche en explorant l’espace des préfixes par programmation dynamique, une solution coûteuse sur le plan computationnel pour ce problème potentiellement NP-complet (Knight, 1999). Nous postulons qu’une approche par recherche locale (Langlais et al., 2007) peut mener à des solutions tout aussi intéressantes en un temps et un espace mémoire beaucoup moins importants (Russell et Norvig, 2010). De plus, ce type de recherche facilite l’incorporation de modèles globaux qui nécessitent des traductions complètes et permet d’effectuer des modifications sur ces dernières de manière non-continue, deux tâches ardues lors de l’exploration de l’espace des préfixes. Nos expériences nous révèlent que la recherche locale en traduction statistique est une approche viable, s’inscrivant dans l’état de l’art.
Resumo:
Les systèmes de traduction statistique à base de segments traduisent les phrases un segment à la fois, en plusieurs étapes. À chaque étape, ces systèmes ne considèrent que très peu d’informations pour choisir la traduction d’un segment. Les scores du dictionnaire de segments bilingues sont calculés sans égard aux contextes dans lesquels ils sont utilisés et les modèles de langue ne considèrent que les quelques mots entourant le segment traduit.Dans cette thèse, nous proposons un nouveau modèle considérant la phrase en entier lors de la sélection de chaque mot cible. Notre modèle d’intégration du contexte se différentie des précédents par l’utilisation d’un ppc (perceptron à plusieurs couches). Une propriété intéressante des ppc est leur couche cachée, qui propose une représentation alternative à celle offerte par les mots pour encoder les phrases à traduire. Une évaluation superficielle de cette représentation alter- native nous a montré qu’elle est capable de regrouper certaines phrases sources similaires même si elles étaient formulées différemment. Nous avons d’abord comparé avantageusement les prédictions de nos ppc à celles d’ibm1, un modèle couramment utilisé en traduction. Nous avons ensuite intégré nos ppc à notre système de traduction statistique de l’anglais vers le français. Nos ppc ont amélioré les traductions de notre système de base et d’un deuxième système de référence auquel était intégré IBM1.
Resumo:
La traduction statistique requiert des corpus parallèles en grande quantité. L’obtention de tels corpus passe par l’alignement automatique au niveau des phrases. L’alignement des corpus parallèles a reçu beaucoup d’attention dans les années quatre vingt et cette étape est considérée comme résolue par la communauté. Nous montrons dans notre mémoire que ce n’est pas le cas et proposons un nouvel aligneur que nous comparons à des algorithmes à l’état de l’art. Notre aligneur est simple, rapide et permet d’aligner une très grande quantité de données. Il produit des résultats souvent meilleurs que ceux produits par les aligneurs les plus élaborés. Nous analysons la robustesse de notre aligneur en fonction du genre des textes à aligner et du bruit qu’ils contiennent. Pour cela, nos expériences se décomposent en deux grandes parties. Dans la première partie, nous travaillons sur le corpus BAF où nous mesurons la qualité d’alignement produit en fonction du bruit qui atteint les 60%. Dans la deuxième partie, nous travaillons sur le corpus EuroParl où nous revisitons la procédure d’alignement avec laquelle le corpus Europarl a été préparé et montrons que de meilleures performances au niveau des systèmes de traduction statistique peuvent être obtenues en utilisant notre aligneur.
Resumo:
Dans ce mémoire, nous examinons certaines propriétés des représentations distribuées de mots et nous proposons une technique pour élargir le vocabulaire des systèmes de traduction automatique neurale. En premier lieu, nous considérons un problème de résolution d'analogies bien connu et examinons l'effet de poids adaptés à la position, le choix de la fonction de combinaison et l'impact de l'apprentissage supervisé. Nous enchaînons en montrant que des représentations distribuées simples basées sur la traduction peuvent atteindre ou dépasser l'état de l'art sur le test de détection de synonymes TOEFL et sur le récent étalon-or SimLex-999. Finalament, motivé par d'impressionnants résultats obtenus avec des représentations distribuées issues de systèmes de traduction neurale à petit vocabulaire (30 000 mots), nous présentons une approche compatible à l'utilisation de cartes graphiques pour augmenter la taille du vocabulaire par plus d'un ordre de magnitude. Bien qu'originalement développée seulement pour obtenir les représentations distribuées, nous montrons que cette technique fonctionne plutôt bien sur des tâches de traduction, en particulier de l'anglais vers le français (WMT'14).
Resumo:
La thèse a pour objectif d’étudier l’influence du financement des soins de santé sur la performance des systèmes de soins compte tenu des caractéristiques organisationnelles sanitaires des systèmes. Elle s’articule autour des trois objectifs suivants : 1) caractériser le financement des soins de santé à travers les différents modèles émergeant des pays à revenu élevé ; 2) apprécier la performance des systèmes de soins en établissant les divers profils apparaissant dans ces mêmes pays ; 3) examiner le lien entre le financement et la performance en tenant compte du pouvoir modérateur du contexte organisationnel des soins. Inspirée du processus de circulation de l’argent dans le système de soins, l’approche a d’abord consisté à classer les pays étudiés – par une analyse configurationnelle opérationnalisée par les analyses de correspondance multiples (ACM) et de classification hiérarchique ascendante (CHA) – dans des modèles types, chacun représentant une configuration particulière de processus de financement des soins de santé (article 1). Appliquée aux données recueillies auprès des 27 pays de l’OCDE à revenu élevé via les rapports Health Care in Transition des systèmes de santé des pays produits par le bureau Européen de l’OMS, la banque de données Eco-Santé OCDE 2007 et les statistiques de l’OMS 2008, les analyses ont révélé cinq modèles de financement. Ils se distinguent selon les fonctions de collecte de l’argent dans le système (prélèvement), de mise en commun de l’argent collecté (stockage), de la répartition de l’argent collecté et stocké (allocation) et du processus de paiement des professionnels et des établissements de santé (paiement). Les modèles ainsi développés, qui vont au-delà du processus unique de collecte de l’argent, donnent un portrait plus complet du processus de financement des soins de santé. Ils permettent ainsi une compréhension de la cohérence interne existant entre les fonctions du financement lors d’un éventuel changement de mode de financement dans un pays. Dans un deuxième temps, nous appuyant sur une conception multidimensionnelle de la performance des systèmes, nous avons classé les pays : premièrement, selon leur niveau en termes de ressources mobilisées, de services produits et de résultats de santé atteints (définissant la performance absolue) ; deuxièmement, selon les efforts qu’ils fournissent pour atteindre un niveau élevé de résultats de santé proportionnellement aux ressources mobilisées et aux services produits en termes d’efficience, d’efficacité et de productivité (définissant ainsi la performance relative) ; et troisièmement, selon les profils types de performance globale émergeant en tenant compte simultanément des niveaux de performance absolue et relative (article 2). Les analyses effectuées sur les données collectées auprès des mêmes 27 pays précédents ont dégagé quatre profils de performance qui se différencient selon leur niveau de performance multidimensionnelle et globale. Les résultats ainsi obtenus permettent d’effectuer une comparaison entre les niveaux globaux de performance des systèmes de soins. Pour terminer, afin de répondre à la question de savoir quel mode – ou quels modes – de financement générerait de meilleurs résultats de performance, et ce, dans quel contexte organisationnel de soins, une analyse plus fine des relations entre le financement et la performance (tous définis comme précédemment) compte tenu des caractéristiques organisationnelles sanitaires a été réalisée (article 3). Les résultats montrent qu’il n’existe presque aucune relation directe entre le financement et la performance. Toutefois, lorsque le financement interagit avec le contexte organisationnel sanitaire pour appréhender le niveau de performance des systèmes, des relations pertinentes et révélatrices apparaissent. Ainsi, certains modes de financement semblent plus attrayants que d’autres en termes de performance dans des contextes organisationnels sanitaires différents. Les résultats permettent ainsi à tous les acteurs du système de comprendre qu’il n’existe qu’une influence indirecte du financement de la santé sur la performance des systèmes de soins due à l’interaction du financement avec le contexte organisationnel sanitaire. L’une des originalités de cette thèse tient au fait que très peu de travaux ont tenté d’opérationnaliser de façon multidimensionnelle les concepts de financement et de performance avant d’analyser les associations susceptibles d’exister entre eux. En outre, alors que la pertinence de la prise en compte des caractéristiques du contexte organisationnel dans la mise en place des réformes des systèmes de soins est au coeur des préoccupations, ce travail est l’un des premiers à analyser l’influence de l’interaction entre le financement et le contexte organisationnel sanitaire sur la performance des systèmes de soins.
Resumo:
La recherche présentée dans le cadre de ce mémoire porte sur le développement de la Théorie linguistique de la traduction telle qu’élaborée par des traducteurs soviétiques à partir des années 1950. Ce mémoire vise à démontrer les particularités de l’évolution des connaissances traductologiques sous la pression politique, idéologique et institutionnelle du régime soviétique (1922-1991). En particulier, le travail cherche à expliquer les raisons qui ont abouti à l’isolement théorique de la traductologie russe. À partir de la théorie du polysystème littéraire d’Even-Zohar et de son analyse de la structure des systèmes littéraires, ce mémoire examine la structure et l’évolution des différents facteurs (producteur, institutions, produit, répertoire, marché) qui ont façonné la configuration spécifique de la Théorie linguistique de la traduction en tant que produit du système soviétique de traduction, tel qu’il se développe dans les conditions particulières du polysystème littéraire soviétique. L’analyse des travaux des auteurs dits « canonisés » de l’approche linguistique russe (Fyodorov, Retsker, Švejtser, Barkhoudarov, Komissarov) permet de montrer comment la Théorie linguistique de la traduction s’est imposée comme la seule théorie capable de survivre au contexte soviétique de pression idéologique et de contrôle total du régime communiste. Ce sont ces facteurs qui expliquent aussi le décalage théorique et institutionnel observé entre les traductologies russe et occidentale.
Resumo:
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
RÉSUMÉ. La prise en compte des troubles de la communication dans l’utilisation des systèmes de recherche d’information tels qu’on peut en trouver sur le Web est généralement réalisée par des interfaces utilisant des modalités n’impliquant pas la lecture et l’écriture. Peu d’applications existent pour aider l’utilisateur en difficulté dans la modalité textuelle. Nous proposons la prise en compte de la conscience phonologique pour assister l’utilisateur en difficulté d’écriture de requêtes (dysorthographie) ou de lecture de documents (dyslexie). En premier lieu un système de réécriture et d’interprétation des requêtes entrées au clavier par l’utilisateur est proposé : en s’appuyant sur les causes de la dysorthographie et sur les exemples à notre disposition, il est apparu qu’un système combinant une approche éditoriale (type correcteur orthographique) et une approche orale (système de transcription automatique) était plus approprié. En second lieu une méthode d’apprentissage automatique utilise des critères spécifiques , tels que la cohésion grapho-phonémique, pour estimer la lisibilité d’une phrase, puis d’un texte. ABSTRACT. Most applications intend to help disabled users in the information retrieval process by proposing non-textual modalities. This paper introduces specific parameters linked to phonological awareness in the textual modality. This will enhance the ability of systems to deal with orthographic issues and with the adaptation of results to the reader when for example the reader is dyslexic. We propose a phonology based sentence level rewriting system that combines spelling correction, speech synthesis and automatic speech recognition. This has been evaluated on a corpus of questions we get from dyslexic children. We propose a specific sentence readability measure that involves phonetic parameters such as grapho-phonemic cohesion. This has been learned on a corpus of reading time of sentences read by dyslexic children.
Resumo:
The use of forms of address in French films and their Finnish translations The use of forms of address constitutes an integral part of speakers’ communicative competence. In fact, they are not only used to assign to whom the speech is addressed, but also to construct the relationship between speakers. However, the choice of a suitable form is not necessarily evident in modern, pluralistic society. By the notion form of address, I refer to pronouns of address (tu vs. vous) and different nouns of address like names, titles (Monsieur, Madame, Mademoiselle), kinship terms, occupational terms, terms of endearment and insults. The purpose of the present thesis is, first, to study the semantic and pragmatic values of forms of address in dialogues of modern French films, and, second, their translation in Finnish subtitles. It is evident that film language is not spontaneous, but only a representation of authentic speech, and that subtitles are a written version of the original spoken language. Consequently, this thesis studies spoken fictive dialogues and their written translations. The methods applied in the study are the Interactional and Pragmatic Approach as well as Translatology. The role of forms of address in an interpersonal relationship is studied with dimensions of distance and power (Brown and Gilman 1960, Kerbrat-Orecchioni 1992), whereas the pragmatic dimension permits studying in particular the use of forms of address in speech acts (Kerbrat-Orecchioni 2001). The translation strategies are studied with the help of Venuti’s (1995) notions of foreignizing and domesticating strategies. The results of the thesis suggest that the pronoun use in the studied films is usually reciprocal. However, the relations of power have not disappeared, but are expressed in a more discrete manner with nouns of address (for instance vous + Docteur vs. vous + Anita). The use of the pronoun of address vous seems still to be common, but increased intimacy is expressed by accompanying familiar nouns of address like first names. The nominal forms of address accompany different speech acts, but not in a systematic manner. In a dialogue they appear usually in the first speech act, and more rarely in the response, but not in both. In addition, they have an important role in the mechanics of conversation. The translators here face multiple demands, and their translations seem mostly to be a compromise between foreignizing and domesticating strategies.
Resumo:
Tutkielman aihe on mytologisten nimien kääntäminen Platonin Pitojen kuudessa käännöksessä (ranska, englanti, saksa, suomi, ruotsi, viro). Lähtökohtana oli selvittää, mikä käännösstrategia heijastaa selkeimmin Platonin periaatetta, jonka mukaan etymologia kuvaa nimen tarkoitteen luonnetta. Käännöksiä tarkastellaan kontrastiivisen analyysin keinoin. Käännösten mytologisia nimiä sisältäviä otteita analysoidaan ja vertaillaan sekä keskenään että alkutekstin kanssa. Tarkoituksena on selvittää, miten ja missä nimien merkitys välittyy käännösten lukijoille. Tutkielmassa käsitellään myös nimiin liittyviä käännösongelmia sekä syitä erilaisiin strategiavalintoihin. Tähän pyritään esittelemällä kääntäjien ja asiantuntijoiden näkemyksiä nimien kääntämisestä. Tiedot perustuvat sähköpostitse ja suullisesti tehtyihin haastatteluihin. Aiheen valinta johtuu siitä, että haluttiin osoittaa, miten paljon mytologisten nimien kääntäminen tai kääntämättä jättäminen voi vaikuttaa käännösten ymmärrettävyyteen ja helppolukuisuuteen. Kääntäjät ja asiantuntijat eivät kuitenkaan usein tiedosta tätä ongelmaa vaan lähestyvät nimiä pääasiassa kahdella vastakkaisella tavalla, joko kääntämällä ta transkriboimalla. Heidän näkemyksensä asiasta ovat hyvin erilaisia ja ristiriitaisia, eikä kompromissia ei ole syntynyt. Teoreettinen viitekehys on käännösteoreettinen. Ensin määritellään käännösstrategiat, joita nimien kääntämisessä käytetään - yleensä ja tutkituissa käännöksissä. Käsitteiden jaottelun peruslähtökohtana on se, missä määrin strategia paljastaa käännösyksikön merkityksen. Käännösanalyysin tueksi esittellään antiikin etymologian ja personifikaation käyttöä. Käännösosuudessa analysoidaan käännöksiä ja niitä verrataan alkuteksteihin. Kontrastiivisen analyysin avulla osoitetaan, että Pitojen mytologiset nimet eivät ole erisnimiä ja selvitetään, missä määrin niitä käsitellään käännöksissä yleis- ja missä määrin erisniminä. Käännösanalyysissä tutkitaan käännösratkaisuja ja nimien ja niihin perustuvien sanaleikkien merkityksen välittymistä juoksevassa tekstissä. Perusoletus oli se, että nimien kääntäminen on ongelmallista. Haluttiin selvittää, missä määrin niiden sisältämä informaatio välittyy lukijalle käännöksissä. Analyysi osoittaa, että kääntäminen välittää tehokkaimmin nimien merkityksen. Se on kuitenkin vaikeaa, koska nimillä ei ole vastineita, jotka kattaisivat niiden semanttiset, filosofiset ja kulttuuriset konnotaatiot. Nimet tuottavat ongelmia myös informaatiotiheyden kannalta. Jos ne käännetään, osa konnotaatioista jää välittämättä. Jos ne transkriboidaan, ne jäävät opaakeiksi. Tekstin koherenssi rikkoutuu, jos samat nimet milloin transkriboidaan, milloin käännetään. Jos nimien johdoksiin perustuvat sanaleikit käännetään mutta mytologiset nimet transkriboidaan, yhteys katoaa. Lopuksi tarkastellaan strategianvalinnan syitä, joita ovat nykyaikaistetun lähtötekstin vaikutus, eri käännöstraditiot, kääntäjien mieltymykset, filosofiset teoriat sekä kohdeyleisö. Kääntäjän on mietittävä, mikä on lukijalle tarkoituksenmukaista. Analyysin mukaan transkriboidut nimet ovat usein opaakkeja ja tekevät tekstistä vaikeaselkoisen. Analyysin selkein tulos lienee se, että nimien merkityksen eksplisitointi juoksevassa tekstissä ilmentää parhaiten niiden tärkeää etymologiaa. Tämä havainto voisi ehkä saada kääntäjät ja asiantuntijat pohtimaan ratkaisujaan ja johtaa kompromisseihin, joissa merkitys ja muut aspektit yritettäisiin välittää yhdessä. Tutkimus voi lisäksi valaista Platonin etymologian käyttöä sekä personifikaatiota, jota on tutkittu vähän. Avainsanat: Platon, Pidot, Erisnimet, Kääntäminen, Etymologia, Kontrastiivinen analyysi
Resumo:
Les participes présents apparaissent, entre autres, dans des constructions à prédication seconde détachées : (1) Intervenant hier soir à Ankara, […], Vladimir Poutine s’est risqué à […]. (Le Figaro 7.12.2004 : 4) Même si les gérondifs, formes adverbiales du verbe (« converbes », cf. Haspelmath & König 1995), n’ont pas d’incidence nominale, contrairement aux participes présents, formes adjectivales du verbe, et ne sont donc pas toujours comptés parmi les constructions à prédication seconde (p.ex. Neveu 1998), les deux ont des emplois assez proches : dans des énoncés du type (2a-b), le participe adjoint peut être paraphrasé par un gérondif, même si son statut fonctionnel n’est pas le même (Halmøy, 2003 : 156-157) : (2a) Arrivant à Paris, Emile a proposé à Léa de [...]. (2b) En arrivant à Paris, Emile a proposé à Léa de[...]. (Halmøy, 2003 : 157) Le finnois ne connaît ni ce genre de constructions détachés ni de forme appelée ‘gérondif’, et les deux participes présents finnois (actif et passif) ne correspondent jamais à un participe présent détaché français : en plus de subordonnées, on trouve à leur place le deuxième infinitif, soit à l’inessif, soit à l’instructif, formes nominales qu’on trouve également dans la traduction des gérondifs : (3a) […] ? me demanda-t-elle sèchement en me montrant l’une des lignes incriminées. (Nothomb, p. 62) […] : hän kysyi minulta kuivakkaasti näyttäen erästä Unajin moittimaa riviä. (Suni, p. 4) (3b) L’espace d’un instant, il sourit, croyant que […] je m’étais trompée de commodités. (Nothomb, p. 138-139) Hetken hän hymyili luullen, että minä […] olin erehtynyt mukavuuslaitoksesta. (Suni, p. 94) : Dans cette communication, nous examinerons quatre traductions littéraires en nous demandant dans quels cas et de quelle manière la différence entre le participe et le gérondif a éventuellement été prise en considération.
Resumo:
Jean Louis Rodolphe Agassiz foi professor e naturalista suíço naturalizado americano. Nasceu em Motiers, em 28 de maio de 1807, e morreu em Cambridge, em 1873. Estudou em Universidades suíças e alemãs, doutorando-se em Medicina, em Munique, em 1830. Em 1846, fixou-se nos Estados Unidos, onde lecionou em Harvard, e, em 1861, tornou-se cidadão americano. O estudo e a classificação de espécies de peixes brasileiros despertou-lhe o interesse pelo Brasil e , em 1865, chegou ao País à frente de uma expedição científica, que ficou conhecida como Thayer Expedition, custeada pelo milionário americano Nathanael Thayer e patrocinada pelo Imperador D. Pedro II. Permaneceu no País por quinze meses, explorando o Rio Amazonas e o interior cearense, período em que classificou 1.800 espécies da fauna ictiológica. Dessa viagem, resultou o livro A journey in Brasil. Seus estudos de Zoologia e Paleontologia, assim como os dos glaciares da Europa e da América, tornaram-se célebre. A obra científica de Agassiz é constituída por mais de quatrocentos volumes.