16 resultados para Text linguistics

em Université de Montréal, Canada


Relevância:

30.00% 30.00%

Publicador:

Resumo:

Nous présentons une méthode hybride pour le résumé de texte, en combinant l'extraction de phrases et l'élagage syntaxique des phrases extraites. L'élagage syntaxique est effectué sur la base d’une analyse complète des phrases selon un parseur de dépendances, analyse réalisée par la grammaire développée au sein d'un logiciel commercial de correction grammaticale, le Correcteur 101. Des sous-arbres de l'analyse syntaxique sont supprimés quand ils sont identifiés par les relations ciblées. L'analyse est réalisée sur un corpus de divers textes. Le taux de réduction des phrases extraites est d’en moyenne environ 74%, tout en conservant la grammaticalité ou la lisibilité dans une proportion de plus de 64%. Étant donné ces premiers résultats sur un ensemble limité de relations syntaxiques, cela laisse entrevoir des possibilités pour une application de résumé automatique de texte.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La lecture numérique prend de plus en plus de place dans l'espace global de la lecture des étudiants. Bien que les premiers systèmes de lecture numérique, communément appelés livres électroniques, datent déjà de plusieurs années, les opinions quant à leur potentiel divergent encore. Une variété de contenus universitaires numériques s’offre aujourd’hui aux étudiants, entraînant par le fait même une multiplication d'usages ainsi qu'une variété de modes de lecture. Les systèmes de lecture numérique font maintenant partie intégrante de l’environnement électronique auquel les étudiants ont accès et méritent d’être étudiés plus en profondeur. Maintes expérimentations ont été menées dans des bibliothèques publiques et dans des bibliothèques universitaires sur les livres électroniques. Des recherches ont été conduites sur leur utilisabilité et sur le degré de satisfaction des lecteurs dans le but d’en améliorer le design. Cependant, très peu d’études ont porté sur les pratiques de lecture proprement dites des universitaires (notamment les étudiants) et sur leurs perceptions de ces nouveaux systèmes de lecture. Notre recherche s’intéresse à ces aspects en étudiant deux systèmes de lecture numérique, une Tablet PC (dispositif nomade) et un système de livres-Web, NetLibrary (interface de lecture intégrée à un navigateur Web). Notre recherche étudie les pratiques de lecture des étudiants sur ces systèmes de lecture numérique. Elle est guidée par trois questions de recherche qui s’articulent autour (1) des stratégies de lecture employées par des étudiants (avant, pendant et après la lecture), (2) des éléments du système de lecture qui influencent (positivement ou négativement) le processus de lecture et (3) des perceptions des étudiants vis-à-vis la technologie du livre électronique et son apport à leur travail universitaire. Pour mener cette recherche, une approche méthodologique mixte a été retenue, utilisant trois modes de collecte de données : un questionnaire, des entrevues semi-structurées avec les étudiants ayant utilisé l’un ou l’autre des systèmes étudiés, et le prélèvement des traces de lecture laissées par les étudiants dans les systèmes, après usage. Les répondants (n=46) étaient des étudiants de l’Université de Montréal, provenant de trois départements (Bibliothéconomie & sciences de l’information, Communication et Linguistique & traduction). Près de la moitié d’entre eux (n=21) ont été interviewés. Parallèlement, les traces de lecture laissées dans les systèmes de lecture par les étudiants (annotations, surlignages, etc.) ont été prélevées et analysées. Les données des entrevues et des réponses aux questions ouvertes du questionnaire ont fait l'objet d'une analyse de contenu et un traitement statistique a été réservé aux données des questions fermées du questionnaire et des traces de lecture. Les résultats obtenus montrent que, d’une façon générale, l’objectif de lecture, la nouveauté du contenu, les habitudes de lecture de l’étudiant de même que les possibilités du système de lecture sont les éléments qui orientent le choix et l’application des stratégies de lecture. Des aides et des obstacles à la lecture ont été identifiés pour chacun des systèmes de lecture étudiés. Les aides consistent en la présence de certains éléments de la métaphore du livre papier dans le système de lecture numérique (notion de page délimitée, pagination, etc.), le dictionnaire intégré au système, et le fait que les systèmes de lecture étudiés facilitent la lecture en diagonale. Pour les obstacles, l’instrumentation de la lecture a rendu l’appropriation du texte par le lecteur difficile. De plus, la lecture numérique (donc « sur écran ») a entraîné un manque de concentration et une fatigue visuelle notamment avec NetLibrary. La Tablet PC, tout comme NetLibrary, a été perçue comme facile à utiliser mais pas toujours confortable, l’inconfort étant davantage manifeste dans NetLibrary. Les étudiants considèrent les deux systèmes de lecture comme des outils pratiques pour le travail universitaire, mais pour des raisons différentes, spécifiques à chaque système. L’évaluation globale de l’expérience de lecture numérique des répondants s’est avérée, dans l’ensemble, positive pour la Tablet PC et plutôt mitigée pour NetLibrary. Cette recherche contribue à enrichir les connaissances sur (1) la lecture numérique, notamment celle du lectorat universitaire étudiant, et (2) l’impact d’un système de lecture sur l’efficacité de la lecture, sur les lecteurs, sur l’atteinte de l’objectif de lecture, et sur les stratégies de lecture utilisées. Outre les limites de l’étude, des pistes pour des recherches futures sont présentées.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Thèse réalisée en cotutelle avec l'Université Paris Diderot (Paris 7)

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Ce mémoire présente une évaluation des différentes méthodes utilisées en lexicographie afin d’identifier les liens lexicaux dans les dictionnaires où sont répertoriées des collocations. Nous avons ici comparé le contenu de fiches du DiCo, un dictionnaire de dérivés sémantiques et de collocations créé selon les principes de la lexicologie explicative et combinatoire, avec les listes de cooccurrents générées automatiquement à partir du corpus Le Monde 2002. Notre objectif est ici de proposer des améliorations méthodologiques à la création de fiches de dictionnaire du type du DiCo, c’est-à-dire, des dictionnaires d’approche qualitative, où la collocation est définie comme une association récurrente et arbitraire entre deux items lexicaux et où les principaux outils méthodologiques utilisés sont la compétence linguistique de ses lexicographes et la consultation manuelle de corpus de textes. La consultation de listes de cooccurrents est une pratique associée habituellement à une approche lexicographique quantitative, qui définit la collocation comme une association entre deux items lexicaux qui est plus fréquente, dans un corpus, que ce qui pourrait être attendu si ces deux items lexicaux y étaient distribués de façon aléatoire. Nous voulons mesurer ici dans quelle mesure les outils utilisés traditionnellement dans une approche quantitative peuvent être utiles à la création de fiches lexicographiques d’approche qualitative, et de quelle façon leur utilisation peut être intégrée à la méthodologie actuelle de création de ces fiches.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Cette étude porte sur les différentes formalisations du sens linguistique dans le cadre de la théorie Sens-Texte (TST) ; elle s’intéresse notamment à la représentation sémantique, la représentation la plus importante dans la modélisation du sens d’énoncés et d’unités lexicales de la langue. Cette étude a trois objectifs : premièrement, décrire trois formalisations de la représentation sémantique existant dans la TST – les réseaux sémantiques, les définitions lexicographiques et les définitions de la BDéf (des définitions très formalisées) ; deuxièmement, identifier les disparités et les décalages entre les formalisations choisies ; troisièmement, proposer des modifications aux formalisations existantes pour réduire au maximum ces disparités.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Cette thèse constitue une étude systématique du lexique du déné sųłiné, une langue athabaskane du nord-ouest canadien. Elle présente les définitions et les patrons de combinatoire syntaxique et lexicale de plus de 200 unités lexicales, lexèmes et phrasèmes, qui représentent une partie importante du vocabulaire déné sųłiné dans sept domaines: les émotions, le caractère humain, la description physique des entités, le mouvement des êtres vivants, la position des entités, les conditions atmospheriques et les formations topologiques, en les comparant avec le vocubulaire équivalent de l'anglais. L’approche théorique choisie est la Théorie Sens-Texte (TST), une approche formelle qui met l’accent sur la description sémantique et lexicographique empiriques. La présente recherche relève d'importantes différences entre le lexique du déné sųłiné et celui de l'anglais à tous les niveaux: dans la correspondence entre la représentation conceptuelle, considérée (quasi-)extralinguistique, et la structure sémantique; dans les patrons de lexicalisation des unités lexicales, et dans les patrons de combinatoire syntaxique et lexicale, qui montrent parfois des traits propres au déné sųłiné intéressants.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Thèse réalisée en cotutelle avec l’Université Charles-de-Gaulle – Lille-3 pour l'obtention du diplôme de doctorat en Langue et littérature françaises.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Cette recherche porte sur l’interface entre la sémantique lexicale et la syntaxe, et elle s’inscrit dans le cadre du projet de base lexicale DiCo (acronyme pour Dictionnaire de combinatoire) à l’Observatoire de Linguistique Sens-Texte [OLST] de l’Université de Montréal. Le projet découle d'une volonté d'inscrire de façon concise et complète, à même le dictionnaire, le comportement syntaxique typique à chaque unité lexicale. Dans cette optique, nous encodons la cooccurrence des lexies nominales du DiCo avec leurs actants à l'intérieur d'un tableau de régime lexical (aussi connu sous le nom de schéma valenciel, structure argumentale, cadre de sous-catégorisation, structure prédicats-arguments, etc.), en notant entre autres les dépendances syntaxiques de surface impliquées. Dans ce mémoire, nous présentons les propriétés syntaxiques d'une dépendance nominale du français, celle que nous avons nommée attributive adnominale, de façon à exposer une méthodologie d'identification et de caractérisation des dépendances syntaxiques de surface. Nous donnons également la liste des dépendances nominales régies identifiées au cours de ce travail. Par la suite, nous exposons la création d'une base de données de régimes généralisés du français nommée CARNAVAL. Finalement, nous discutons des applications possibles de notre travail, particulièrement en ce qui a trait à la création d'une typologie des régimes lexicaux du français.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les travaux entrepris dans le cadre de la présente thèse portent sur l’analyse de l’équivalence terminologique en corpus parallèle et en corpus comparable. Plus spécifiquement, nous nous intéressons aux corpus de textes spécialisés appartenant au domaine du changement climatique. Une des originalités de cette étude réside dans l’analyse des équivalents de termes simples. Les bases théoriques sur lesquelles nous nous appuyons sont la terminologie textuelle (Bourigault et Slodzian 1999) et l’approche lexico-sémantique (L’Homme 2005). Cette étude poursuit deux objectifs. Le premier est d’effectuer une analyse comparative de l’équivalence dans les deux types de corpus afin de vérifier si l’équivalence terminologique observable dans les corpus parallèles se distingue de celle que l’on trouve dans les corpus comparables. Le deuxième consiste à comparer dans le détail les équivalents associés à un même terme anglais, afin de les décrire et de les répertorier pour en dégager une typologie. L’analyse détaillée des équivalents français de 343 termes anglais est menée à bien grâce à l’exploitation d’outils informatiques (extracteur de termes, aligneur de textes, etc.) et à la mise en place d’une méthodologie rigoureuse divisée en trois parties. La première partie qui est commune aux deux objectifs de la recherche concerne l’élaboration des corpus, la validation des termes anglais et le repérage des équivalents français dans les deux corpus. La deuxième partie décrit les critères sur lesquels nous nous appuyons pour comparer les équivalents des deux types de corpus. La troisième partie met en place la typologie des équivalents associés à un même terme anglais. Les résultats pour le premier objectif montrent que sur les 343 termes anglais analysés, les termes présentant des équivalents critiquables dans les deux corpus sont relativement peu élevés (12), tandis que le nombre de termes présentant des similitudes d’équivalence entre les corpus est très élevé (272 équivalents identiques et 55 équivalents non critiquables). L’analyse comparative décrite dans ce chapitre confirme notre hypothèse selon laquelle la terminologie employée dans les corpus parallèles ne se démarque pas de celle des corpus comparables. Les résultats pour le deuxième objectif montrent que de nombreux termes anglais sont rendus par plusieurs équivalents (70 % des termes analysés). Il est aussi constaté que ce ne sont pas les synonymes qui forment le groupe le plus important des équivalents, mais les quasi-synonymes. En outre, les équivalents appartenant à une autre partie du discours constituent une part importante des équivalents. Ainsi, la typologie élaborée dans cette thèse présente des mécanismes de l’équivalence terminologique peu décrits aussi systématiquement dans les travaux antérieurs.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

PériCulture est le nom d'un projet de recherche à l'Université de Montréal qui fait partie d'un projet plus vaste basé à l'Université de Sherbrooke. Ce dernier visait à former un réseau de recherche pour la gestion du contenu culturel numérique canadien. L'objectif général de la recherche de PériCulture était d'étudier les méthodes d'indexation de contenus culturels non textuels sur le Web, plus spécifiquement des images. Les résultats de la recherche présentés ici s'appuient sur des travaux précédents en indexation d'images et en indexation automatique (de texte), par l'étude des propriétés du texte associé à des images dans un environnement réseau. Le but était de comprendre la façon dont le texte associé à des images sur des pages Web (appelé péritexte) peut être exploité pour indexer les images correspondantes. Nous avons étudié cette question dans le contexte de pages Web sélectionnées, c'est à dire : des pages de contenu culturel canadien contenant des objets multimédia auxquels était associé du texte (plus que simplement les noms de fichiers et les légendes) et qui étaient bilingues (anglais et français). Nous avons identifié les mots-clés utiles à l'indexation situés à proximité de l'objet décrit. Les termes d'indexation potentiels ont été identifiés dans diverses balises HTML et dans le texte intégral (chacun étant considéré comme une source différente de péritexte). Notre étude a révélé qu'un grand nombre de termes d'indexation utiles sont disponibles dans le péritexte de nombreux sites Web ayant un contenu culturel, et ce péritexte de différentes sources a une utilité variable dans la recherche d’information. Nos résultats suggèrent que ces termes peuvent être exploités de différentes manières dans les systèmes de recherche d’information pour améliorer les résultats de recherche.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This research project is a contribution to the global field of information retrieval, specifically, to develop tools to enable information access in digital documents. We recognize the need to provide the user with flexible access to the contents of large, potentially complex digital documents, with means other than a search function or a handful of metadata elements. The goal is to produce a text browsing tool offering a maximum of information based on a fairly superficial linguistic analysis. We are concerned with a type of extensive single-document indexing, and not indexing by a set of keywords (see Klement, 2002, for a clear distinction between the two). The desired browsing tool would not only give at a glance the main topics discussed in the document, but would also present relationships between these topics. It would also give direct access to the text (via hypertext links to specific passages). The present paper, after reviewing previous research on this and similar topics, discusses the methodology and the main characteristics of a prototype we have devised. Experimental results are presented, as well as an analysis of remaining hurdles and potential applications.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La fin du XVe siècle marque le début d’une nouvelle ère dans les Amériques. L’arrivée des explorateurs, des conquistadores et des colonisateurs espagnols au nouveau continent signe l’introduction des Amériques dans l’histoire. Dans les écrits rédigés durant les premières décennies de la colonisation, les Autochtones endossent majoritairement le rôle d’objet. À la suite de l’endoctrinement d’une partie de la population autochtone, ce rôle passif se transforme en rôle davantage actif alors que certains Autochtones décident de prendre la parole et la plume. Voilà ce que Felipe Guamán Poma de Ayala décide de faire par l’entremise de sa chronique Nueva coronica y buen gobierno, rédigé en 1615 et adressé au roi Philippe III d’Espagne. Ce mémoire étudie une sélection d’images de la chronique comme traductions culturelles intersémiotiques de la société coloniale dans la mesure où elles traduisent le vécu colonial, y compris les rapports de pouvoir ethniques au sein de la hiérarchie sociale, à l’aide d’unités sémiotiques provenant de divers codes culturels (espagnol, catholique et andin). L’objectif de ce projet de recherche consiste à démontrer la façon dont l’hybridité du système sémiotique du texte cible expose la nature aliénante de la traduction ainsi que la relation antagonique qu’elle entretient avec l’idéologie coloniale officielle.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Éminent naturaliste du XIXe siècle, Charles Darwin publie en 1859 ce qui s'avérera être l’un des textes fondateurs des sciences de la vie : On the origin of species by means of natural selection, or the preservation of favoured races in the struggle for life (ou OS). Ce volumineux ouvrage pose les assises conceptuelles de la théorie darwinienne de l'évolution. Cette dernière suscite encore de nos jours la controverse : certains la nient (créationnisme, dessein intelligent, etc.) alors que d'autres la poussent à l'extrême (eugénisme, darwinisme social, etc.). Vu la grande portée de l'OS, le problème de sa traduction en français se présente de lui-même. Ce champ d'étude reste pourtant largement inexploré. Nous avons donc choisi, dans le présent travail, d’étudier les traductions françaises de l’OS. Notre étude s’inscrivant dans un axe de recherche qui s’intéresse aux modes de conceptualisation métaphorique en usage dans les domaines biomédicaux, ainsi qu’aux problèmes de traduction qu’ils soulèvent, nous avons choisi de nous concentrer plus particulièrement sur les modes de conceptualisation métaphorique présents dans le texte de l'OS, et sur la manière dont ils ont été traduits en français. Pour mener à bien ce projet, nous avons élaboré une méthodologie à partir de celle déjà utilisée avec succès dans des études antérieures menées au sein du même axe de recherche que le nôtre. En plus de l’annotation et l’interrogation informatisée de notre corpus, cette méthodologie consiste en la mise en relation, au plan informatique, de plusieurs traductions d’un même texte. De par sa complexité technique, son élaboration constitue l’un des objectifs majeurs de notre étude. Les résultats obtenus nous ont permis de confirmer deux de nos trois hypothèses : 1) la totalité des modes de conceptualisation identifiés dans notre corpus anglais se retrouvent également dans chacune des traductions, et 2) aucun mode de conceptualisation métaphorique ne peut être dégagé des traductions françaises qui n’est pas déjà présent dans l’original anglais. En plus de nous permettre de comparer chaque traduction à l’original anglais, ces résultats nous ont également permis de comparer entre elles les différentes traductions françaises de l’OS. Ce mémoire de maîtrise comporte six chapitres, qui correspondent tour à tour à : notre cadre théorique, l'état de la question, nos hypothèses et nos objectifs, notre méthodologie, nos résultats et la discussion de ces résultats.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This work describes a methodology for converting a specialized dictionary into a learner’s dictionary. The dictionary to which we apply our conversion method is the DiCoInfo, Dictionnaire fondamental de l’informatique et de l’Internet. We focus on changes affecting the presentation of data categories. What is meant by specialized dictionary for learners, in our case, is a dictionary covering the field of computer science and Internet meeting our users’ needs in communicative and cognitive situations. Our dictionary is aimed at learners’ of the computing language. We start by presenting a detailed description of four dictionaries for learners. We explain how the observations made on these resources have helped us in developing our methodology.In order to develop our methodology, first, based on Bergenholtz and Tarp’s works (Bergenholtz 2003; Tarp 2008; Fuertes Olivera and Tarp 2011), we defined the type of users who may use our dictionary. Translators are our first intended users. Other users working in the fields related to translation are also targeted: proofreaders, technical writers, interpreters. We also determined the use situations of our dictionary. It aims to assist the learners in solving text reception and text production problems (communicative situations) and in studying the terminology of computing (cognitive situations). Thus, we could establish its lexicographical functions: communicative and cognitive functions. Then, we extracted 50 articles from the DiCoInfo to which we applied a number of changes in different aspects: the layout, the presentation of data, the navigation and the use of multimedia. The changes were made according to two fundamental parameters: 1) simplification of the presentation; 2) lexicographic functions (which include the intended users and user’s situations). In this way, we exploited the widgets offered by the technology to update the interface and layout. Strategies have been developed to organize a large number of lexical links in a simpler way. We associated these links with examples showing their use in specific contexts. Multimedia as audio pronunciation and illustrations has been used.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Ce projet offre une analyse des traductions en langue française du roman d’Aphra Behn, Oronooko, or The Royal Slave (1688). Dans cette œuvre, la première femme à vivre de sa plume présente une des premières formulations du discours abolitionniste de la littérature anglaise et met au défi des idées reçues sur l’esclavage depuis le XVIIe siècle. Le texte a été traduit vers le français pour la première fois par Pierre-Antoine de La Place (Behn, 1745), dont l’interprétation s’inscrit dans la tradition des belles infidèles. Sa version connaît un succès fulgurant jusqu’à la fin du XVIIIe siècle, avec de nombreuses rééditions parues entre 1745 et 1799. En 1990, Bernard Dhuicq publie une retraduction dans le but de faire connaître Behn aux lecteurs français du XXe siècle. En 2008, il contribue à la préparation d’une nouvelle édition de La Place, et une réédition de sa propre traduction parue en 1990. Pour sa part, Guillaume Villeneuve adapte le texte au lectorat francophone d’aujourd’hui avec une édition critique comprenant un important appareil critique publiée dans la collection « GF » des Éditions Flammarion en 2009. Les traductions de La Place, d’Dhuicq et de Villeneuve affichent chacune des variations par rapport à l’original, variations qui reflètent l’intention de ces traducteurs et de leurs éditeurs ainsi que les pratiques traductives et éditoriales de leur époque.. Cette étude montre notamment comment le récit de Behn a contribué à changer la conception occidentale de l’esclavage. Elle analyse la réception des propos idéologiques d’Oroonoko dans la culture littéraire et philosophique française, depuis le XVIIIe siècle jusqu’à nos jours. À travers le cas Oronooko, le présent mémoire offre aussi une réflexion d’ordre méthodologique sur l’étude des retraductions dans une perspective historique. L’étude des retraductions vise aujourd’hui des objectifs plus vastes sur le plan historique que ne l’indique l’hypothèse du progrès en retraduction, selon laquelle un texte est retraduit pour être corrigé ou amélioré. Notre travail montre qu’en associant à l’étude des traductions celle de leur paratexte, de leur péritexte et des sujets (traducteurs et éditeurs) qui les produisent, et ce afin de resituer chaque retraduction dans son contexte historique propre, on parvient à faire entrer ces retraductions dans un dialogue interculturel et « transhistoriciste » (Nouss, 2007).