20 resultados para corpus multilingue

em Université de Montréal, Canada


Relevância:

30.00% 30.00%

Publicador:

Resumo:

réalisé en cotutelle à l'Université de Franche-Comté (France)

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Affiliation: Département de Psychologie, Université de Montréal

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Département de linguistique et de traduction

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Depuis quelques années, Internet est devenu un média incontournable pour la diffusion de ressources multilingues. Cependant, les différences linguistiques constituent souvent un obstacle majeur aux échanges de documents scientifiques, culturels, pédagogiques et commerciaux. En plus de cette diversité linguistique, on constate le développement croissant de bases de données et de collections composées de différents types de documents textuels ou multimédias, ce qui complexifie également le processus de repérage documentaire. En général, on considère l’image comme « libre » au point de vue linguistique. Toutefois, l’indexation en vocabulaire contrôlé ou libre (non contrôlé) confère à l’image un statut linguistique au même titre que tout document textuel, ce qui peut avoir une incidence sur le repérage. Le but de notre recherche est de vérifier l’existence de différences entre les caractéristiques de deux approches d’indexation pour les images ordinaires représentant des objets de la vie quotidienne, en vocabulaire contrôlé et en vocabulaire libre, et entre les résultats obtenus au moment de leur repérage. Cette étude suppose que les deux approches d’indexation présentent des caractéristiques communes, mais également des différences pouvant influencer le repérage de l’image. Cette recherche permet de vérifier si l’une ou l’autre de ces approches d’indexation surclasse l’autre, en termes d’efficacité, d’efficience et de satisfaction du chercheur d’images, en contexte de repérage multilingue. Afin d’atteindre le but fixé par cette recherche, deux objectifs spécifiques sont définis : identifier les caractéristiques de chacune des deux approches d’indexation de l’image ordinaire représentant des objets de la vie quotidienne pouvant influencer le repérage, en contexte multilingue et exposer les différences sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images à repérer des images ordinaires représentant des objets de la vie quotidienne indexées à l’aide d’approches offrant des caractéristiques variées, en contexte multilingue. Trois modes de collecte des données sont employés : l’analyse des termes utilisés pour l’indexation des images, la simulation du repérage d’un ensemble d’images indexées selon chacune des formes d’indexation à l’étude réalisée auprès de soixante répondants, et le questionnaire administré aux participants pendant et après la simulation du repérage. Quatre mesures sont définies pour cette recherche : l’efficacité du repérage d’images, mesurée par le taux de succès du repérage calculé à l’aide du nombre d’images repérées; l’efficience temporelle, mesurée par le temps, en secondes, utilisé par image repérée; l’efficience humaine, mesurée par l’effort humain, en nombre de requêtes formulées par image repérée et la satisfaction du chercheur d’images, mesurée par son autoévaluation suite à chaque tâche de repérage effectuée. Cette recherche montre que sur le plan de l’indexation de l’image ordinaire représentant des objets de la vie quotidienne, les approches d’indexation étudiées diffèrent fondamentalement l’une de l’autre, sur le plan terminologique, perceptuel et structurel. En outre, l’analyse des caractéristiques des deux approches d’indexation révèle que si la langue d’indexation est modifiée, les caractéristiques varient peu au sein d’une même approche d’indexation. Finalement, cette recherche souligne que les deux approches d’indexation à l’étude offrent une performance de repérage des images ordinaires représentant des objets de la vie quotidienne différente sur le plan de l’efficacité, de l’efficience et de la satisfaction du chercheur d’images, selon l’approche et la langue utilisées pour l’indexation.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Studies were funded by Colegio de Postgraduados, México. CONACyT, México. SRE, México. Ministère de l’Éducation du Québec, University of Montreal and an Operating Grant to B.D. Murphy from the Canadian Institutes of Health Research.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Ce mémoire propose une analyse sémio-narrative d’un corpus de dix-neuf contes merveilleux recueillis auprès des conteurs canadiens-français et canadiens-hurons par l’anthropologue Charles-Marius Barbeau, au début du XXe siècle. Après avoir passé en revue les principales théories dans l’approche sémiotique du conte à partir de Vladimir Propp jusqu’à nos jours, nous avons procédé à une étude narrative du corpus selon la méthode du grand folkloriste russe : cela nous a permis d’en montrer la valeur exceptionnelle mais aussi les limites. Nous avons constaté ainsi que le travail sur un corpus inédit peut mener à l’identification de nouveaux éléments dans la structure du conte merveilleux. En poursuivant nos recherches sur les dix-neuf contes recueillis par Barbeau, nous sommes passée du schéma linéaire, syntagmatique de Propp aux modèles logiques de ses continuateurs, particulièrement celui élaboré par Guy Laflèche. Nos analyses ont mis en évidence non seulement le fait que la structure en miroir est un modèle valide auquel une partie des contes merveilleux se plie parfaitement (d’emblée l’exclusivité du schéma de Propp est mise en question, sinon infirmée), mais aussi que tout conte merveilleux est exceptionnellement organisé, structuré (ce qui confirme la théorie de Claude Bremond conformément à laquelle le récit narratif est une alternance de dégradations et d’améliorations). Enfin, la dernière partie du mémoire est une analyse sémio-discursive de notre corpus qui, au lieu d’être une simple accumulation de listes de mots, d’expressions et de figures, tente d’aborder la structure idéologique, grâce à une étude en parallèle d’un conte du corpus et de deux versions littéraires.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Enseigner l’espagnol comme langue étrangère (ELE) et utiliser la Littérature comme moyen didactique n’est pas une activité qui a été favorisée, ni dans l’aspect théorique comme pratique, dans les salles de classe, on l’a plutôt évitée. On a constaté que la plupart de temps on l’a réduit à un échantillon culturelle qui se situe à la fin des unités didactiques dans le manuelles d’ELE. Ces visions ont radicalement changé ces dernières années et des nombreux auteurs ont revendiqué son potentiel didactique et pédagogique. La présente mémoire s’inscrit dans la courante qui revendique l’utilisation du texte littéraire (TL) à cause du potentiel didactique qu’il renferme. On propose une série d’activités didactiques qui s’appuient dans le texte littéraire pour renforcer les compétences du discours au niveau de la description, la narration et la argumentation dans le cours d’espagnol langue étrangère (ELE) au niveau collégial et universitaire au Québec (Canada), en s’ appuyant sur les critères établis par le Cadre européen commun de référence pour les langues, le Plan curricular de l’Institut Cervantès, et le Programme du Ministère de l’Éducation du Québec. Auparavant, on a fait un bref parcours sur les différentes méthodes et approches pédagogiques dans l’enseignement de l’espagnol (ELE) ainsi que plusieurs études et articles qui proposent l’utilisation du texte littéraire en ayant comme objectif d’améliorer les compétences linguistique et communicatives des étudiants.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les travaux entrepris dans le cadre de la présente thèse portent sur l’analyse de l’équivalence terminologique en corpus parallèle et en corpus comparable. Plus spécifiquement, nous nous intéressons aux corpus de textes spécialisés appartenant au domaine du changement climatique. Une des originalités de cette étude réside dans l’analyse des équivalents de termes simples. Les bases théoriques sur lesquelles nous nous appuyons sont la terminologie textuelle (Bourigault et Slodzian 1999) et l’approche lexico-sémantique (L’Homme 2005). Cette étude poursuit deux objectifs. Le premier est d’effectuer une analyse comparative de l’équivalence dans les deux types de corpus afin de vérifier si l’équivalence terminologique observable dans les corpus parallèles se distingue de celle que l’on trouve dans les corpus comparables. Le deuxième consiste à comparer dans le détail les équivalents associés à un même terme anglais, afin de les décrire et de les répertorier pour en dégager une typologie. L’analyse détaillée des équivalents français de 343 termes anglais est menée à bien grâce à l’exploitation d’outils informatiques (extracteur de termes, aligneur de textes, etc.) et à la mise en place d’une méthodologie rigoureuse divisée en trois parties. La première partie qui est commune aux deux objectifs de la recherche concerne l’élaboration des corpus, la validation des termes anglais et le repérage des équivalents français dans les deux corpus. La deuxième partie décrit les critères sur lesquels nous nous appuyons pour comparer les équivalents des deux types de corpus. La troisième partie met en place la typologie des équivalents associés à un même terme anglais. Les résultats pour le premier objectif montrent que sur les 343 termes anglais analysés, les termes présentant des équivalents critiquables dans les deux corpus sont relativement peu élevés (12), tandis que le nombre de termes présentant des similitudes d’équivalence entre les corpus est très élevé (272 équivalents identiques et 55 équivalents non critiquables). L’analyse comparative décrite dans ce chapitre confirme notre hypothèse selon laquelle la terminologie employée dans les corpus parallèles ne se démarque pas de celle des corpus comparables. Les résultats pour le deuxième objectif montrent que de nombreux termes anglais sont rendus par plusieurs équivalents (70 % des termes analysés). Il est aussi constaté que ce ne sont pas les synonymes qui forment le groupe le plus important des équivalents, mais les quasi-synonymes. En outre, les équivalents appartenant à une autre partie du discours constituent une part importante des équivalents. Ainsi, la typologie élaborée dans cette thèse présente des mécanismes de l’équivalence terminologique peu décrits aussi systématiquement dans les travaux antérieurs.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

On s’accorde aujourd’hui sur la nécessité de la dimension textuelle dans l’enseignement de la langue écrite. L’objectif de notre recherche est de mettre à l’essai une démarche pédagogique visant à enseigner la compréhension/expression écrite en prenant appui sur la typologie textuelle et en adoptant une approche stratégique. Compte tenu que les Coréens apprennent le français comme deuxième langue étrangère après l’apprentissage de l’anglais, nous menons notre recherche dans un contexte d’apprentissage multilingue (le coréen, le français et l’anglais). Nous effectuons notre recherche à Montréal. Nous sélectionnons vingt- et-un apprenants coréens âgés de 14 à 15 ans en passant des entrevues sur les caractéristiques de leurs expériences scolaires et leurs apprentissages des langues. Ils possèdent tous un bagage éducatif solide en anglais mais leurs niveaux de français sont variés (i.e. sept sujets débutants, sept intermédiaires et sept avancés). Notre recherche se base sur trois expérimentations. Dans la première, nous nous intéressons notamment au rôle de la typologie textuelle auprès des débutants, dont les caractéristiques sont représentatives des apprenants coréens qui sont grammaticalement et lexicalement faibles en français. Nous mobilisons les connaissances textuelles par le biais des textes en anglais puis nous mesurons si les participants peuvent les utiliser dans les textes en français. Nous vérifions cette utilisation en comparant les résultats de la perception du fonctionnement de l’écrit en français avant et après la mobilisation des connaissances textuelles. Les donnés empiriques révèlent que les apprenants coréens qui n’ont pas encore maîtrisé les compétences de base réussissent à percevoir le fonctionnement de l’écrit en français grâce à leurs connaissances textuelles préalablement mobilisées en anglais.Dans notre deuxième expérimentation, nous examinons l’effet de l’enseignement de la typologie textuelle sur la lecture stratégique dans l’apprentissage multilingue. Nous offrons le cours de lecture stratégique avec un texte en français et examinons l’effet de cette pratique. En comparant les résultats de la compréhension avant et après le cours, nous vérifions que le cours de lecture stratégique est efficace non seulement sur la perception du fonctionnement de l’écrit, mais également sur l’apprentissage de la grammaire et du vocabulaire. Nous vérifions également l’influence translinguistique du français vers l’anglais. Dans la troisième expérimentation, nous examinons l’effet de l’enseignement de la typologie textuelle sur le processus de production écrite en français. Nous recueillons les productions des participants avant et après le cours de l’écriture. Nous les analysons avec les mêmes grilles de codage concernant la forme typologique et le sens culturel. Nous observons que les scripteurs qui ont l’occasion de mobiliser explicitement leurs connaissances textuelles peuvent obtenir des performances plus élevées concernant la forme typologique ainsi que le sens culturel après le processus de production. Nous en concluons que la didactique effectuée à partir de la typologie textuelle a toute sa pertinence dans l’apprentissage multilingue et que l’approche stratégique peut stimuler la mise en place de la typologie textuelle pour appréhender la langue écrite au niveau textuel tant en lecture qu’en écriture.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La version intégrale de cette thèse est disponible uniquement pour consultation individuelle à la Bibliothèque de musique de l’Université de Montréal (www.bib.umontreal.ca/MU).