16 resultados para Lingüística de Corpus

em Université de Montréal, Canada


Relevância:

20.00% 20.00%

Publicador:

Resumo:

Affiliation: Département de Psychologie, Université de Montréal

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Département de linguistique et de traduction

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Studies were funded by Colegio de Postgraduados, México. CONACyT, México. SRE, México. Ministère de l’Éducation du Québec, University of Montreal and an Operating Grant to B.D. Murphy from the Canadian Institutes of Health Research.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Dans cette étude, nous analysons les principaux problèmes que nous retrouvons lorsque nous utilisons les entrevues sociolinguistiques comme méthode d’analyse pour obtenir des échantillons de l’actuation linguistique authentiques. Cette problématique provient de la nature même de la méthodologie employée en fonction du paradoxe de l’observateur (Labov 1972) et elle impose la nécessité de réfléchir sur les avantages et les désavantages inhérents à l’instrument de recherche utilisé. En ayant ce propos, l’objectif principal qu’on poursuit est celui de donner réponse à une question que surgit lorsqu’on parle de l’entrevue sociolinguistique : Comment pourrait-on obtenir des échantillons de parole de style spontané dans l’observation systématique de l’entrevue? Pour essayer de répondre à cette problématique, on a revu et analysé un échantillon de vingt entrevues semi dirigées (25 heures d’enregistrement) qui font partie du Corpus Oral et Sonore de l’Espagnol Rural (COSER). L’étude des entrevues sociolinguistiques comme méthode scientifique montre, comme principal résultat, que parmi les stratégies utilisées pour essayer de réduire les effets du paradoxe de l’observateur on devrait inclure celle de la tactique de faire parler l’informateur à propos d’un objet qui ait une particulière valeur affective pour lui, pour générer ainsi une déstructuration du schéma formel de l’entrevue et une situation émotionnelle de sorte que l’émotivité neutralise sa conscience linguistique et son discours. De cette façon, l’attention du parlant se concentrera dans l’objet même plutôt que dans sa parole formelle et, de cette manière, on obtiendrait des échantillons de style plus spontané et colloquial.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Ce mémoire de maîtrise a pour visée d’étudier la spécificité antiautoritaire du discours narratif de l’écrivaine argentine Luisa Valenzuela. Le corpus étudié comprend des nouvelles publiées dans les livres Cambio de armas (1982) et Simetrías (1993), écrites respectivement durant la dictature militaire (1976-1983) et dix ans après le retour à la démocratie. L’analyse des nouvelles dialogue avec l’essai de l’écrivaine, Peligrosas palabras (2001), et avec les différentes perspectives théoriques que nous adoptons dans chacun des chapitres (sociolinguistique, théorie féministe et critique culturelle). Cette recherche fera ressortir comment l’expression du désir dans les textes de Luisa Valenzuela critique les relations de domination présentes dans la dictature et dans la société patriarcale. Les textes étudiés 1) dénoncent les effets de la politique répressive sur le sujet en exposant la sexualité et en rejetant la séparation entre les sphères publique et privée; 2) ils soulignent la matérialité du corps, qui est marqué par les relations sociales et les rapports de pouvoir, à partir de laquelle il est possible de construire une objectivité féminine hors de l’opposition entre corps et esprit; 3) ils créent de nouvelles formes de représentation de la mémoire qui permettent de redéfinir la relation à l’histoire et à l’Autre. Dans le langage de Valenzuela, le désir se présente alors comme une revendication de relations sociales justes et d’une vision alternative du langage, de la subjectivité et de la mémoire.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Ce mémoire propose une analyse sémio-narrative d’un corpus de dix-neuf contes merveilleux recueillis auprès des conteurs canadiens-français et canadiens-hurons par l’anthropologue Charles-Marius Barbeau, au début du XXe siècle. Après avoir passé en revue les principales théories dans l’approche sémiotique du conte à partir de Vladimir Propp jusqu’à nos jours, nous avons procédé à une étude narrative du corpus selon la méthode du grand folkloriste russe : cela nous a permis d’en montrer la valeur exceptionnelle mais aussi les limites. Nous avons constaté ainsi que le travail sur un corpus inédit peut mener à l’identification de nouveaux éléments dans la structure du conte merveilleux. En poursuivant nos recherches sur les dix-neuf contes recueillis par Barbeau, nous sommes passée du schéma linéaire, syntagmatique de Propp aux modèles logiques de ses continuateurs, particulièrement celui élaboré par Guy Laflèche. Nos analyses ont mis en évidence non seulement le fait que la structure en miroir est un modèle valide auquel une partie des contes merveilleux se plie parfaitement (d’emblée l’exclusivité du schéma de Propp est mise en question, sinon infirmée), mais aussi que tout conte merveilleux est exceptionnellement organisé, structuré (ce qui confirme la théorie de Claude Bremond conformément à laquelle le récit narratif est une alternance de dégradations et d’améliorations). Enfin, la dernière partie du mémoire est une analyse sémio-discursive de notre corpus qui, au lieu d’être une simple accumulation de listes de mots, d’expressions et de figures, tente d’aborder la structure idéologique, grâce à une étude en parallèle d’un conte du corpus et de deux versions littéraires.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Enseigner l’espagnol comme langue étrangère (ELE) et utiliser la Littérature comme moyen didactique n’est pas une activité qui a été favorisée, ni dans l’aspect théorique comme pratique, dans les salles de classe, on l’a plutôt évitée. On a constaté que la plupart de temps on l’a réduit à un échantillon culturelle qui se situe à la fin des unités didactiques dans le manuelles d’ELE. Ces visions ont radicalement changé ces dernières années et des nombreux auteurs ont revendiqué son potentiel didactique et pédagogique. La présente mémoire s’inscrit dans la courante qui revendique l’utilisation du texte littéraire (TL) à cause du potentiel didactique qu’il renferme. On propose une série d’activités didactiques qui s’appuient dans le texte littéraire pour renforcer les compétences du discours au niveau de la description, la narration et la argumentation dans le cours d’espagnol langue étrangère (ELE) au niveau collégial et universitaire au Québec (Canada), en s’ appuyant sur les critères établis par le Cadre européen commun de référence pour les langues, le Plan curricular de l’Institut Cervantès, et le Programme du Ministère de l’Éducation du Québec. Auparavant, on a fait un bref parcours sur les différentes méthodes et approches pédagogiques dans l’enseignement de l’espagnol (ELE) ainsi que plusieurs études et articles qui proposent l’utilisation du texte littéraire en ayant comme objectif d’améliorer les compétences linguistique et communicatives des étudiants.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les travaux entrepris dans le cadre de la présente thèse portent sur l’analyse de l’équivalence terminologique en corpus parallèle et en corpus comparable. Plus spécifiquement, nous nous intéressons aux corpus de textes spécialisés appartenant au domaine du changement climatique. Une des originalités de cette étude réside dans l’analyse des équivalents de termes simples. Les bases théoriques sur lesquelles nous nous appuyons sont la terminologie textuelle (Bourigault et Slodzian 1999) et l’approche lexico-sémantique (L’Homme 2005). Cette étude poursuit deux objectifs. Le premier est d’effectuer une analyse comparative de l’équivalence dans les deux types de corpus afin de vérifier si l’équivalence terminologique observable dans les corpus parallèles se distingue de celle que l’on trouve dans les corpus comparables. Le deuxième consiste à comparer dans le détail les équivalents associés à un même terme anglais, afin de les décrire et de les répertorier pour en dégager une typologie. L’analyse détaillée des équivalents français de 343 termes anglais est menée à bien grâce à l’exploitation d’outils informatiques (extracteur de termes, aligneur de textes, etc.) et à la mise en place d’une méthodologie rigoureuse divisée en trois parties. La première partie qui est commune aux deux objectifs de la recherche concerne l’élaboration des corpus, la validation des termes anglais et le repérage des équivalents français dans les deux corpus. La deuxième partie décrit les critères sur lesquels nous nous appuyons pour comparer les équivalents des deux types de corpus. La troisième partie met en place la typologie des équivalents associés à un même terme anglais. Les résultats pour le premier objectif montrent que sur les 343 termes anglais analysés, les termes présentant des équivalents critiquables dans les deux corpus sont relativement peu élevés (12), tandis que le nombre de termes présentant des similitudes d’équivalence entre les corpus est très élevé (272 équivalents identiques et 55 équivalents non critiquables). L’analyse comparative décrite dans ce chapitre confirme notre hypothèse selon laquelle la terminologie employée dans les corpus parallèles ne se démarque pas de celle des corpus comparables. Les résultats pour le deuxième objectif montrent que de nombreux termes anglais sont rendus par plusieurs équivalents (70 % des termes analysés). Il est aussi constaté que ce ne sont pas les synonymes qui forment le groupe le plus important des équivalents, mais les quasi-synonymes. En outre, les équivalents appartenant à une autre partie du discours constituent une part importante des équivalents. Ainsi, la typologie élaborée dans cette thèse présente des mécanismes de l’équivalence terminologique peu décrits aussi systématiquement dans les travaux antérieurs.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La version intégrale de cette thèse est disponible uniquement pour consultation individuelle à la Bibliothèque de musique de l’Université de Montréal (www.bib.umontreal.ca/MU).

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La traduction statistique requiert des corpus parallèles en grande quantité. L’obtention de tels corpus passe par l’alignement automatique au niveau des phrases. L’alignement des corpus parallèles a reçu beaucoup d’attention dans les années quatre vingt et cette étape est considérée comme résolue par la communauté. Nous montrons dans notre mémoire que ce n’est pas le cas et proposons un nouvel aligneur que nous comparons à des algorithmes à l’état de l’art. Notre aligneur est simple, rapide et permet d’aligner une très grande quantité de données. Il produit des résultats souvent meilleurs que ceux produits par les aligneurs les plus élaborés. Nous analysons la robustesse de notre aligneur en fonction du genre des textes à aligner et du bruit qu’ils contiennent. Pour cela, nos expériences se décomposent en deux grandes parties. Dans la première partie, nous travaillons sur le corpus BAF où nous mesurons la qualité d’alignement produit en fonction du bruit qui atteint les 60%. Dans la deuxième partie, nous travaillons sur le corpus EuroParl où nous revisitons la procédure d’alignement avec laquelle le corpus Europarl a été préparé et montrons que de meilleures performances au niveau des systèmes de traduction statistique peuvent être obtenues en utilisant notre aligneur.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Dans le parler des jeunes du Mexique, on retrouve, entre autres formes de vitalité linguistique, un usage fréquent de jeux phoniques qui transforment ou substituent des lexèmes et syntagmes sans qu'il y ait altération significative du signifié. Ce phénomène linguistique utilise trois procédés phoniques: la suffixation parasitaire, la substitution lexicale basée sur la similitude phonique et l'enchaînement en écho. Le présent mémoire contribue à remplir un vide dans la littérature scientifique et faire connaître ce phénomène peu étudié en explorant les aspects formels linguistiques et les fonctions sociales. Nous cherchons à établir les relations qui existent entre la structure linguistique et les fonctions linguistiques et sociales inhérentes à l'usage de jeux phoniques. L'étude empirique menée dans la ville de Puebla (Mexique) a permis la collecte d'un corpus de plus de deux cents jeux phoniques et la réalisation d'entrevues sociolinguistiques avec dix-huit jeunes de Puebla usagers des expressions étudiées. Nous proposons une classification du corpus de jeux phoniques basée sur la structure formelle afin d'apprécier que le phénomène réponde à des patrons fixes de construction. Suite à une analyse thématique des entrevues que nous appuyons d'exemples de jeux phoniques, nous verrons que l'usage de jeux phoniques joue principalement une fonction poétique, ludique ainsi qu'une fonction de cohésion sociale et une fonction identitaire. La présente étude confirme que le caractère non normatif et cryptique intrinsèque aux jeux de mots sert à renforcer ces fonctions sociales, à la manière d'un parler argotique.