907 resultados para Text Linguistics
Resumo:
Cette étude porte sur les différentes formalisations du sens linguistique dans le cadre de la théorie Sens-Texte (TST) ; elle s’intéresse notamment à la représentation sémantique, la représentation la plus importante dans la modélisation du sens d’énoncés et d’unités lexicales de la langue. Cette étude a trois objectifs : premièrement, décrire trois formalisations de la représentation sémantique existant dans la TST – les réseaux sémantiques, les définitions lexicographiques et les définitions de la BDéf (des définitions très formalisées) ; deuxièmement, identifier les disparités et les décalages entre les formalisations choisies ; troisièmement, proposer des modifications aux formalisations existantes pour réduire au maximum ces disparités.
Resumo:
Cette thèse constitue une étude systématique du lexique du déné sųłiné, une langue athabaskane du nord-ouest canadien. Elle présente les définitions et les patrons de combinatoire syntaxique et lexicale de plus de 200 unités lexicales, lexèmes et phrasèmes, qui représentent une partie importante du vocabulaire déné sųłiné dans sept domaines: les émotions, le caractère humain, la description physique des entités, le mouvement des êtres vivants, la position des entités, les conditions atmospheriques et les formations topologiques, en les comparant avec le vocubulaire équivalent de l'anglais. L’approche théorique choisie est la Théorie Sens-Texte (TST), une approche formelle qui met l’accent sur la description sémantique et lexicographique empiriques. La présente recherche relève d'importantes différences entre le lexique du déné sųłiné et celui de l'anglais à tous les niveaux: dans la correspondence entre la représentation conceptuelle, considérée (quasi-)extralinguistique, et la structure sémantique; dans les patrons de lexicalisation des unités lexicales, et dans les patrons de combinatoire syntaxique et lexicale, qui montrent parfois des traits propres au déné sųłiné intéressants.
Resumo:
Thèse réalisée en cotutelle avec l’Université Charles-de-Gaulle – Lille-3 pour l'obtention du diplôme de doctorat en Langue et littérature françaises.
Resumo:
Cette recherche porte sur l’interface entre la sémantique lexicale et la syntaxe, et elle s’inscrit dans le cadre du projet de base lexicale DiCo (acronyme pour Dictionnaire de combinatoire) à l’Observatoire de Linguistique Sens-Texte [OLST] de l’Université de Montréal. Le projet découle d'une volonté d'inscrire de façon concise et complète, à même le dictionnaire, le comportement syntaxique typique à chaque unité lexicale. Dans cette optique, nous encodons la cooccurrence des lexies nominales du DiCo avec leurs actants à l'intérieur d'un tableau de régime lexical (aussi connu sous le nom de schéma valenciel, structure argumentale, cadre de sous-catégorisation, structure prédicats-arguments, etc.), en notant entre autres les dépendances syntaxiques de surface impliquées. Dans ce mémoire, nous présentons les propriétés syntaxiques d'une dépendance nominale du français, celle que nous avons nommée attributive adnominale, de façon à exposer une méthodologie d'identification et de caractérisation des dépendances syntaxiques de surface. Nous donnons également la liste des dépendances nominales régies identifiées au cours de ce travail. Par la suite, nous exposons la création d'une base de données de régimes généralisés du français nommée CARNAVAL. Finalement, nous discutons des applications possibles de notre travail, particulièrement en ce qui a trait à la création d'une typologie des régimes lexicaux du français.
Resumo:
Les travaux entrepris dans le cadre de la présente thèse portent sur l’analyse de l’équivalence terminologique en corpus parallèle et en corpus comparable. Plus spécifiquement, nous nous intéressons aux corpus de textes spécialisés appartenant au domaine du changement climatique. Une des originalités de cette étude réside dans l’analyse des équivalents de termes simples. Les bases théoriques sur lesquelles nous nous appuyons sont la terminologie textuelle (Bourigault et Slodzian 1999) et l’approche lexico-sémantique (L’Homme 2005). Cette étude poursuit deux objectifs. Le premier est d’effectuer une analyse comparative de l’équivalence dans les deux types de corpus afin de vérifier si l’équivalence terminologique observable dans les corpus parallèles se distingue de celle que l’on trouve dans les corpus comparables. Le deuxième consiste à comparer dans le détail les équivalents associés à un même terme anglais, afin de les décrire et de les répertorier pour en dégager une typologie. L’analyse détaillée des équivalents français de 343 termes anglais est menée à bien grâce à l’exploitation d’outils informatiques (extracteur de termes, aligneur de textes, etc.) et à la mise en place d’une méthodologie rigoureuse divisée en trois parties. La première partie qui est commune aux deux objectifs de la recherche concerne l’élaboration des corpus, la validation des termes anglais et le repérage des équivalents français dans les deux corpus. La deuxième partie décrit les critères sur lesquels nous nous appuyons pour comparer les équivalents des deux types de corpus. La troisième partie met en place la typologie des équivalents associés à un même terme anglais. Les résultats pour le premier objectif montrent que sur les 343 termes anglais analysés, les termes présentant des équivalents critiquables dans les deux corpus sont relativement peu élevés (12), tandis que le nombre de termes présentant des similitudes d’équivalence entre les corpus est très élevé (272 équivalents identiques et 55 équivalents non critiquables). L’analyse comparative décrite dans ce chapitre confirme notre hypothèse selon laquelle la terminologie employée dans les corpus parallèles ne se démarque pas de celle des corpus comparables. Les résultats pour le deuxième objectif montrent que de nombreux termes anglais sont rendus par plusieurs équivalents (70 % des termes analysés). Il est aussi constaté que ce ne sont pas les synonymes qui forment le groupe le plus important des équivalents, mais les quasi-synonymes. En outre, les équivalents appartenant à une autre partie du discours constituent une part importante des équivalents. Ainsi, la typologie élaborée dans cette thèse présente des mécanismes de l’équivalence terminologique peu décrits aussi systématiquement dans les travaux antérieurs.
Resumo:
PériCulture est le nom d'un projet de recherche à l'Université de Montréal qui fait partie d'un projet plus vaste basé à l'Université de Sherbrooke. Ce dernier visait à former un réseau de recherche pour la gestion du contenu culturel numérique canadien. L'objectif général de la recherche de PériCulture était d'étudier les méthodes d'indexation de contenus culturels non textuels sur le Web, plus spécifiquement des images. Les résultats de la recherche présentés ici s'appuient sur des travaux précédents en indexation d'images et en indexation automatique (de texte), par l'étude des propriétés du texte associé à des images dans un environnement réseau. Le but était de comprendre la façon dont le texte associé à des images sur des pages Web (appelé péritexte) peut être exploité pour indexer les images correspondantes. Nous avons étudié cette question dans le contexte de pages Web sélectionnées, c'est à dire : des pages de contenu culturel canadien contenant des objets multimédia auxquels était associé du texte (plus que simplement les noms de fichiers et les légendes) et qui étaient bilingues (anglais et français). Nous avons identifié les mots-clés utiles à l'indexation situés à proximité de l'objet décrit. Les termes d'indexation potentiels ont été identifiés dans diverses balises HTML et dans le texte intégral (chacun étant considéré comme une source différente de péritexte). Notre étude a révélé qu'un grand nombre de termes d'indexation utiles sont disponibles dans le péritexte de nombreux sites Web ayant un contenu culturel, et ce péritexte de différentes sources a une utilité variable dans la recherche d’information. Nos résultats suggèrent que ces termes peuvent être exploités de différentes manières dans les systèmes de recherche d’information pour améliorer les résultats de recherche.
Resumo:
This research project is a contribution to the global field of information retrieval, specifically, to develop tools to enable information access in digital documents. We recognize the need to provide the user with flexible access to the contents of large, potentially complex digital documents, with means other than a search function or a handful of metadata elements. The goal is to produce a text browsing tool offering a maximum of information based on a fairly superficial linguistic analysis. We are concerned with a type of extensive single-document indexing, and not indexing by a set of keywords (see Klement, 2002, for a clear distinction between the two). The desired browsing tool would not only give at a glance the main topics discussed in the document, but would also present relationships between these topics. It would also give direct access to the text (via hypertext links to specific passages). The present paper, after reviewing previous research on this and similar topics, discusses the methodology and the main characteristics of a prototype we have devised. Experimental results are presented, as well as an analysis of remaining hurdles and potential applications.
Resumo:
La fin du XVe siècle marque le début d’une nouvelle ère dans les Amériques. L’arrivée des explorateurs, des conquistadores et des colonisateurs espagnols au nouveau continent signe l’introduction des Amériques dans l’histoire. Dans les écrits rédigés durant les premières décennies de la colonisation, les Autochtones endossent majoritairement le rôle d’objet. À la suite de l’endoctrinement d’une partie de la population autochtone, ce rôle passif se transforme en rôle davantage actif alors que certains Autochtones décident de prendre la parole et la plume. Voilà ce que Felipe Guamán Poma de Ayala décide de faire par l’entremise de sa chronique Nueva coronica y buen gobierno, rédigé en 1615 et adressé au roi Philippe III d’Espagne. Ce mémoire étudie une sélection d’images de la chronique comme traductions culturelles intersémiotiques de la société coloniale dans la mesure où elles traduisent le vécu colonial, y compris les rapports de pouvoir ethniques au sein de la hiérarchie sociale, à l’aide d’unités sémiotiques provenant de divers codes culturels (espagnol, catholique et andin). L’objectif de ce projet de recherche consiste à démontrer la façon dont l’hybridité du système sémiotique du texte cible expose la nature aliénante de la traduction ainsi que la relation antagonique qu’elle entretient avec l’idéologie coloniale officielle.
Modes de conceptualisation métaphoriques et théorie de l’évolution : analyse textuelle et traduction
Resumo:
Éminent naturaliste du XIXe siècle, Charles Darwin publie en 1859 ce qui s'avérera être l’un des textes fondateurs des sciences de la vie : On the origin of species by means of natural selection, or the preservation of favoured races in the struggle for life (ou OS). Ce volumineux ouvrage pose les assises conceptuelles de la théorie darwinienne de l'évolution. Cette dernière suscite encore de nos jours la controverse : certains la nient (créationnisme, dessein intelligent, etc.) alors que d'autres la poussent à l'extrême (eugénisme, darwinisme social, etc.). Vu la grande portée de l'OS, le problème de sa traduction en français se présente de lui-même. Ce champ d'étude reste pourtant largement inexploré. Nous avons donc choisi, dans le présent travail, d’étudier les traductions françaises de l’OS. Notre étude s’inscrivant dans un axe de recherche qui s’intéresse aux modes de conceptualisation métaphorique en usage dans les domaines biomédicaux, ainsi qu’aux problèmes de traduction qu’ils soulèvent, nous avons choisi de nous concentrer plus particulièrement sur les modes de conceptualisation métaphorique présents dans le texte de l'OS, et sur la manière dont ils ont été traduits en français. Pour mener à bien ce projet, nous avons élaboré une méthodologie à partir de celle déjà utilisée avec succès dans des études antérieures menées au sein du même axe de recherche que le nôtre. En plus de l’annotation et l’interrogation informatisée de notre corpus, cette méthodologie consiste en la mise en relation, au plan informatique, de plusieurs traductions d’un même texte. De par sa complexité technique, son élaboration constitue l’un des objectifs majeurs de notre étude. Les résultats obtenus nous ont permis de confirmer deux de nos trois hypothèses : 1) la totalité des modes de conceptualisation identifiés dans notre corpus anglais se retrouvent également dans chacune des traductions, et 2) aucun mode de conceptualisation métaphorique ne peut être dégagé des traductions françaises qui n’est pas déjà présent dans l’original anglais. En plus de nous permettre de comparer chaque traduction à l’original anglais, ces résultats nous ont également permis de comparer entre elles les différentes traductions françaises de l’OS. Ce mémoire de maîtrise comporte six chapitres, qui correspondent tour à tour à : notre cadre théorique, l'état de la question, nos hypothèses et nos objectifs, notre méthodologie, nos résultats et la discussion de ces résultats.
Resumo:
This work describes a methodology for converting a specialized dictionary into a learner’s dictionary. The dictionary to which we apply our conversion method is the DiCoInfo, Dictionnaire fondamental de l’informatique et de l’Internet. We focus on changes affecting the presentation of data categories. What is meant by specialized dictionary for learners, in our case, is a dictionary covering the field of computer science and Internet meeting our users’ needs in communicative and cognitive situations. Our dictionary is aimed at learners’ of the computing language. We start by presenting a detailed description of four dictionaries for learners. We explain how the observations made on these resources have helped us in developing our methodology.In order to develop our methodology, first, based on Bergenholtz and Tarp’s works (Bergenholtz 2003; Tarp 2008; Fuertes Olivera and Tarp 2011), we defined the type of users who may use our dictionary. Translators are our first intended users. Other users working in the fields related to translation are also targeted: proofreaders, technical writers, interpreters. We also determined the use situations of our dictionary. It aims to assist the learners in solving text reception and text production problems (communicative situations) and in studying the terminology of computing (cognitive situations). Thus, we could establish its lexicographical functions: communicative and cognitive functions. Then, we extracted 50 articles from the DiCoInfo to which we applied a number of changes in different aspects: the layout, the presentation of data, the navigation and the use of multimedia. The changes were made according to two fundamental parameters: 1) simplification of the presentation; 2) lexicographic functions (which include the intended users and user’s situations). In this way, we exploited the widgets offered by the technology to update the interface and layout. Strategies have been developed to organize a large number of lexical links in a simpler way. We associated these links with examples showing their use in specific contexts. Multimedia as audio pronunciation and illustrations has been used.
Resumo:
Ce projet offre une analyse des traductions en langue française du roman d’Aphra Behn, Oronooko, or The Royal Slave (1688). Dans cette œuvre, la première femme à vivre de sa plume présente une des premières formulations du discours abolitionniste de la littérature anglaise et met au défi des idées reçues sur l’esclavage depuis le XVIIe siècle. Le texte a été traduit vers le français pour la première fois par Pierre-Antoine de La Place (Behn, 1745), dont l’interprétation s’inscrit dans la tradition des belles infidèles. Sa version connaît un succès fulgurant jusqu’à la fin du XVIIIe siècle, avec de nombreuses rééditions parues entre 1745 et 1799. En 1990, Bernard Dhuicq publie une retraduction dans le but de faire connaître Behn aux lecteurs français du XXe siècle. En 2008, il contribue à la préparation d’une nouvelle édition de La Place, et une réédition de sa propre traduction parue en 1990. Pour sa part, Guillaume Villeneuve adapte le texte au lectorat francophone d’aujourd’hui avec une édition critique comprenant un important appareil critique publiée dans la collection « GF » des Éditions Flammarion en 2009. Les traductions de La Place, d’Dhuicq et de Villeneuve affichent chacune des variations par rapport à l’original, variations qui reflètent l’intention de ces traducteurs et de leurs éditeurs ainsi que les pratiques traductives et éditoriales de leur époque.. Cette étude montre notamment comment le récit de Behn a contribué à changer la conception occidentale de l’esclavage. Elle analyse la réception des propos idéologiques d’Oroonoko dans la culture littéraire et philosophique française, depuis le XVIIIe siècle jusqu’à nos jours. À travers le cas Oronooko, le présent mémoire offre aussi une réflexion d’ordre méthodologique sur l’étude des retraductions dans une perspective historique. L’étude des retraductions vise aujourd’hui des objectifs plus vastes sur le plan historique que ne l’indique l’hypothèse du progrès en retraduction, selon laquelle un texte est retraduit pour être corrigé ou amélioré. Notre travail montre qu’en associant à l’étude des traductions celle de leur paratexte, de leur péritexte et des sujets (traducteurs et éditeurs) qui les produisent, et ce afin de resituer chaque retraduction dans son contexte historique propre, on parvient à faire entrer ces retraductions dans un dialogue interculturel et « transhistoriciste » (Nouss, 2007).
Resumo:
La présente recherche porte sur la traduction de la bande dessinée. Ce sujet, auparavant négligé par les traductologes, commence à susciter l’intérêt des chercheurs à partir les années 80. Toutefois, la plupart des travaux se sont concentrés sur l’aspect linguistique des BD. Ce mémoire, par contre, aborde la bande dessinée comme un texte multimodal. Il s’inscrit ainsi à la croisée des domaines de la traduction et de la multimodalité telle que proposée dans les travaux de Gunther Kress et Theo Van Leeuwen (2001). L’objectif de cette recherche est d’implanter un outil d’analyse pour la bande dessinée qui permettrait de rendre compte des différents modes intervenant dans le texte. Cet outil, conçu pour la présente recherche, a été développé à partir des travaux de Hatim et Mason (1990, 1997) sur les trois dimensions de la situation de communication : transaction communicative, action pragmatique et interaction sémiotique. L’analyse menée ici porte sur la traduction vers le français de la bande dessinée argentine Mujeres alteradas de Maitena Burundarena, parue sous le titre de Les déjantées.
Resumo:
In this paper a method of copy detection in short Malayalam text passages is proposed. Given two passages one as the source text and another as the copied text it is determined whether the second passage is plagiarized version of the source text. An algorithm for plagiarism detection using the n-gram model for word retrieval is developed and found tri-grams as the best model for comparing the Malayalam text. Based on the probability and the resemblance measures calculated from the n-gram comparison , the text is categorized on a threshold. Texts are compared by variable length n-gram(n={2,3,4}) comparisons. The experiments show that trigram model gives the average acceptable performance with affordable cost in terms of complexity
Resumo:
A methodology for translating text from English into the Dravidian language, Malayalam using statistical models is discussed in this paper. The translator utilizes a monolingual Malayalam corpus and a bilingual English/Malayalam corpus in the training phase and generates automatically the Malayalam translation of an unseen English sentence. Various techniques to improve the alignment model by incorporating the morphological inputs into the bilingual corpus are discussed. Removing the insignificant alignments from the sentence pairs by this approach has ensured better training results. Pre-processing techniques like suffix separation from the Malayalam corpus and stop word elimination from the bilingual corpus also proved to be effective in producing better alignments. Difficulties in translation process that arise due to the structural difference between the English Malayalam pair is resolved in the decoding phase by applying the order conversion rules. The handcrafted rules designed for the suffix separation process which can be used as a guideline in implementing suffix separation in Malayalam language are also presented in this paper. Experiments conducted on a sample corpus have generated reasonably good Malayalam translations and the results are verified with F measure, BLEU and WER evaluation metrics
Resumo:
This paper discusses the implementation details of a child friendly, good quality, English text-to-speech (TTS) system that is phoneme-based, concatenative, easy to set up and use with little memory. Direct waveform concatenation and linear prediction coding (LPC) are used. Most existing TTS systems are unit-selection based, which use standard speech databases available in neutral adult voices.Here reduced memory is achieved by the concatenation of phonemes and by replacing phonetic wave files with their LPC coefficients. Linguistic analysis was used to reduce the algorithmic complexity instead of signal processing techniques. Sufficient degree of customization and generalization catering to the needs of the child user had been included through the provision for vocabulary and voice selection to suit the requisites of the child. Prosody had also been incorporated. This inexpensive TTS systemwas implemented inMATLAB, with the synthesis presented by means of a graphical user interface (GUI), thus making it child friendly. This can be used not only as an interesting language learning aid for the normal child but it also serves as a speech aid to the vocally disabled child. The quality of the synthesized speech was evaluated using the mean opinion score (MOS).