934 resultados para Estudos da Tradução Baseado em Corpus
Resumo:
UANL
Resumo:
UANL
Resumo:
Affiliation: Département de Psychologie, Université de Montréal
Resumo:
Département de linguistique et de traduction
Resumo:
Département de linguistique et de traduction
Resumo:
UANL
Resumo:
UANL
Resumo:
UANL
Resumo:
Studies were funded by Colegio de Postgraduados, México. CONACyT, México. SRE, México. Ministère de l’Éducation du Québec, University of Montreal and an Operating Grant to B.D. Murphy from the Canadian Institutes of Health Research.
Resumo:
L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.
Resumo:
Ce mémoire propose une analyse sémio-narrative d’un corpus de dix-neuf contes merveilleux recueillis auprès des conteurs canadiens-français et canadiens-hurons par l’anthropologue Charles-Marius Barbeau, au début du XXe siècle. Après avoir passé en revue les principales théories dans l’approche sémiotique du conte à partir de Vladimir Propp jusqu’à nos jours, nous avons procédé à une étude narrative du corpus selon la méthode du grand folkloriste russe : cela nous a permis d’en montrer la valeur exceptionnelle mais aussi les limites. Nous avons constaté ainsi que le travail sur un corpus inédit peut mener à l’identification de nouveaux éléments dans la structure du conte merveilleux. En poursuivant nos recherches sur les dix-neuf contes recueillis par Barbeau, nous sommes passée du schéma linéaire, syntagmatique de Propp aux modèles logiques de ses continuateurs, particulièrement celui élaboré par Guy Laflèche. Nos analyses ont mis en évidence non seulement le fait que la structure en miroir est un modèle valide auquel une partie des contes merveilleux se plie parfaitement (d’emblée l’exclusivité du schéma de Propp est mise en question, sinon infirmée), mais aussi que tout conte merveilleux est exceptionnellement organisé, structuré (ce qui confirme la théorie de Claude Bremond conformément à laquelle le récit narratif est une alternance de dégradations et d’améliorations). Enfin, la dernière partie du mémoire est une analyse sémio-discursive de notre corpus qui, au lieu d’être une simple accumulation de listes de mots, d’expressions et de figures, tente d’aborder la structure idéologique, grâce à une étude en parallèle d’un conte du corpus et de deux versions littéraires.
Resumo:
Enseigner l’espagnol comme langue étrangère (ELE) et utiliser la Littérature comme moyen didactique n’est pas une activité qui a été favorisée, ni dans l’aspect théorique comme pratique, dans les salles de classe, on l’a plutôt évitée. On a constaté que la plupart de temps on l’a réduit à un échantillon culturelle qui se situe à la fin des unités didactiques dans le manuelles d’ELE. Ces visions ont radicalement changé ces dernières années et des nombreux auteurs ont revendiqué son potentiel didactique et pédagogique. La présente mémoire s’inscrit dans la courante qui revendique l’utilisation du texte littéraire (TL) à cause du potentiel didactique qu’il renferme. On propose une série d’activités didactiques qui s’appuient dans le texte littéraire pour renforcer les compétences du discours au niveau de la description, la narration et la argumentation dans le cours d’espagnol langue étrangère (ELE) au niveau collégial et universitaire au Québec (Canada), en s’ appuyant sur les critères établis par le Cadre européen commun de référence pour les langues, le Plan curricular de l’Institut Cervantès, et le Programme du Ministère de l’Éducation du Québec. Auparavant, on a fait un bref parcours sur les différentes méthodes et approches pédagogiques dans l’enseignement de l’espagnol (ELE) ainsi que plusieurs études et articles qui proposent l’utilisation du texte littéraire en ayant comme objectif d’améliorer les compétences linguistique et communicatives des étudiants.
Resumo:
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction.