51 resultados para lexical
Resumo:
Cette étude porte sur les différentes formalisations du sens linguistique dans le cadre de la théorie Sens-Texte (TST) ; elle s’intéresse notamment à la représentation sémantique, la représentation la plus importante dans la modélisation du sens d’énoncés et d’unités lexicales de la langue. Cette étude a trois objectifs : premièrement, décrire trois formalisations de la représentation sémantique existant dans la TST – les réseaux sémantiques, les définitions lexicographiques et les définitions de la BDéf (des définitions très formalisées) ; deuxièmement, identifier les disparités et les décalages entre les formalisations choisies ; troisièmement, proposer des modifications aux formalisations existantes pour réduire au maximum ces disparités.
Resumo:
Cette thèse constitue une étude systématique du lexique du déné sųłiné, une langue athabaskane du nord-ouest canadien. Elle présente les définitions et les patrons de combinatoire syntaxique et lexicale de plus de 200 unités lexicales, lexèmes et phrasèmes, qui représentent une partie importante du vocabulaire déné sųłiné dans sept domaines: les émotions, le caractère humain, la description physique des entités, le mouvement des êtres vivants, la position des entités, les conditions atmospheriques et les formations topologiques, en les comparant avec le vocubulaire équivalent de l'anglais. L’approche théorique choisie est la Théorie Sens-Texte (TST), une approche formelle qui met l’accent sur la description sémantique et lexicographique empiriques. La présente recherche relève d'importantes différences entre le lexique du déné sųłiné et celui de l'anglais à tous les niveaux: dans la correspondence entre la représentation conceptuelle, considérée (quasi-)extralinguistique, et la structure sémantique; dans les patrons de lexicalisation des unités lexicales, et dans les patrons de combinatoire syntaxique et lexicale, qui montrent parfois des traits propres au déné sųłiné intéressants.
Resumo:
Bien que le passage du temps altère le cerveau, la cognition ne suit pas nécessairement le même destin. En effet, il existe des mécanismes compensatoires qui permettent de préserver la cognition (réserve cognitive) malgré le vieillissement. Les personnes âgées peuvent utiliser de nouveaux circuits neuronaux (compensation neuronale) ou des circuits existants moins susceptibles aux effets du vieillissement (réserve neuronale) pour maintenir un haut niveau de performance cognitive. Toutefois, la façon dont ces mécanismes affectent l’activité corticale et striatale lors de tâches impliquant des changements de règles (set-shifting) et durant le traitement sémantique et phonologique n’a pas été extensivement explorée. Le but de cette thèse est d’explorer comment le vieillissement affecte les patrons d’activité cérébrale dans les processus exécutifs d’une part et dans l’utilisation de règles lexicales d’autre part. Pour cela nous avons utilisé l’imagerie par résonance magnétique fonctionnelle (IRMf) lors de la performance d’une tâche lexicale analogue à celle du Wisconsin. Cette tâche a été fortement liée à de l’activité fronto-stritale lors des changements de règles, ainsi qu’à la mobilisation de régions associées au traitement sémantique et phonologique lors de décisions sémantiques et phonologiques, respectivement. Par conséquent, nous avons comparé l’activité cérébrale de jeunes individus (18 à 35 ans) à celle d’individus âgés (55 à 75 ans) lors de l’exécution de cette tâche. Les deux groupes ont montré l’implication de boucles fronto-striatales associées à la planification et à l’exécution de changements de règle. Toutefois, alors que les jeunes semblaient activer une « boucle cognitive » (cortex préfrontal ventrolatéral, noyau caudé et thalamus) lorsqu’ils se voyaient indiquer qu’un changement de règle était requis, et une « boucle motrice » (cortex postérieur préfrontal et putamen) lorsqu’ils devaient effectuer le changement, les participants âgés montraient une activation des deux boucles lors de l’exécution des changements de règle seulement. Les jeunes adultes tendaient à présenter une augmentation de l’activité du cortex préfrontal ventrolatéral, du gyrus fusiforme, du lobe ventral temporale et du noyau caudé lors des décisions sémantiques, ainsi que de l’activité au niveau de l’aire de Broca postérieur, de la junction temporopariétale et du cortex moteur lors de décisions phonologiques. Les participants âgés ont montré de l’activité au niveau du cortex préfrontal latéral et moteur durant les deux types de décisions lexicales. De plus, lorsque les décisions sémantiques et phonologiques ont été comparées entre elles, les jeunes ont montré des différences significatives au niveau de plusieurs régions cérébrales, mais pas les âgés. En conclusion, notre première étude a montré, lors du set-shifting, un délai de l’activité cérébrale chez les personnes âgées. Cela nous a permis de conceptualiser l’Hypothèse Temporelle de Compensation (troisième manuscrit) qui consiste en l’existence d’un mécanisme compensatoire caractérisé par un délai d’activité cérébrale lié au vieillissement permettant de préserver la cognition au détriment de la vitesse d’exécution. En ce qui concerne les processus langagiers (deuxième étude), les circuits sémantiques et phonologiques semblent se fusionner dans un seul circuit chez les individus âgés, cela représente vraisemblablement des mécanismes de réserve et de compensation neuronales qui permettent de préserver les habilités langagières.
Resumo:
Département de linguistique et de traduction
Resumo:
Département de linguistique et de traduction
Resumo:
Notre recherche a pour but de déterminer comment les genres textuels peuvent être exploités dans le design des environnements numériques de travail afin de faciliter l’accomplissement des pratiques textuelles de cadres et de secrétaires dans une municipalité et une administration fédérale canadiennes. À cet effet, le premier objectif consiste à évaluer l’aptitude des environnements numériques de travail à supporter les pratiques textuelles (lecture, écriture et manipulation des textes) de ces employés. Le deuxième objectif est de décrire les rôles des genres textuels au cours des pratiques textuelles. Avec l’exemple du courriel, le troisième objectif vise à examiner comment le genre peut être exploité dans une perspective d’assistance à la réalisation des pratiques textuelles dans les environnements numériques de travail. Cette recherche de nature qualitative comporte une méthodologie en deux étapes. La première étape consiste en un examen minutieux des pratiques textuelles, des difficultés rencontrées au cours de celles-ci, du rôle du genre dans les environnements numériques de travail, ainsi que des indices sollicités au cours de la gestion du courriel. Trois modes de collecte des données qualitatives sont utilisés auprès de 17 cadres et de 17 secrétaires issus de deux administrations publiques : l’entrevue semi-dirigée, le journal de bord et l’enquête cognitive. Les résultats sont examinés à l’aide de stratégies d’analyse de contenu qualitative. La deuxième phase comprend la mise au point d’une chaîne de traitement du courriel, visant à étayer notre réflexion sur le genre textuel et son exploitation dans la conception des environnements numériques de travail. Un corpus de 1703 messages est élaboré à partir d’un échantillon remis par deux cadres gouvernementaux. Les résultats permettent d’abord de dresser un portrait général des pratiques de lecture, d’écriture et de manipulation des textes communes et spécifiques aux cadres et aux secrétaires. L’importance du courriel, qui constitue environ 40% des systèmes notés dans les journaux de bord, est soulignée. Les difficultés rencontrées dans les environnements numériques de travail sont également décrites. Dans un deuxième temps, les rôles du genre au cours des pratiques textuelles sont examinés en fonction d’une matrice tenant à la fois compte de ses dimensions individuelles et collectives, ainsi que de ses trois principales facettes ; la forme, le contenu et la fonction. Ensuite, nous présentons un cadre d’analyse des indices affectant la gestion du courriel qui synthétise le processus d’interprétation des messages par le destinataire. Une typologie des patrons de catégorisation des cadres est également définie, puis employée dans une expérimentation statistique visant la description et la catégorisation automatique du courriel. Au terme de ce processus, on observe des comportements linguistiques marqués en fonction des catégories du courriel. Il s’avère également que la catégorisation automatique basée sur le lexique des messages est beaucoup plus performante que la catégorisation non lexicale. À l’issue de cette recherche, nous suggérons d’enrichir le paradigme traditionnel relevant de l’interaction humain-ordinateur par une sémiotique du genre dans les environnements numériques de travail. L’étude propose également une réflexion sur l’appartenance du courriel à un genre, en ayant recours aux concepts théoriques d’hypergenre, de genre et de sous-genre. Le succès de la catégorisation automatique du courriel en fonction de facettes tributaires du genre (le contenu, la forme et la fonction) offre des perspectives intéressantes sur l’application de ce concept au design des environnements numériques de travail en vue de faciliter l’accomplissement des pratiques textuelles par les employés.
Resumo:
Cette thèse examine le développement du langage des enfants sourds qui ont reçu un implant cochléaire (IC) en bas âge. Une première étude rapporte une revue systématique qui avait pour but d’évaluer les connaissances actuelles concernant le développement du vocabulaire et de la grammaire chez les enfants qui ont reçu un IC avant l’âge de trois ans. Vingt-huit études ont été sélectionnées; une analyse descriptive de même qu’une méta-analyse ont été effectuées séparément pour chaque aspect du langage évalué (vocabulaire et grammaire, aspect réceptif et expressif). Au résultat, en dépit de la variabilité observée dans les études, il appert que l’implant cochléaire influence positivement le développement langagier; toutefois, seule une minorité de participants aux études a atteint des niveaux de langage comparables à ceux d’enfants entendants de même âge chronologique. La majorité des enfants continuent de présenter divers degrés de retard de langage, tant au plan réceptif qu’expressif, et ce, après jusqu’à cinq années de port de l’appareil. Les résultats suggèrent aussi, malgré la variabilité observée dans les études, que les bénéfices langagiers sont influencés par le fait de recevoir l’implant à deux ans plutôt qu’à trois ans. À partir des tendances retrouvées dans la littérature, les habiletés de vocabulaire et de grammaire chez 27 enfants qui ont reçu l’implant cochléaire en bas âge (entre 8 et 28 mois) ont été comparées avec celles d’un groupe d’enfants entendants, en utilisant des outils d’évaluation standardisés. Alors que les résultats de groupe montrent que les enfants qui reçoivent un IC autour de l’âge de deux ans atteignent des niveaux de langage dans les limites de la normale, les résultats individuels d’un sous-groupe formé de enfants les plus âgés font état de quatre profils de développement, soit des niveaux de langage dans les limites de la normale pour l’ensemble des composantes, un retard généralisé à l’ensemble des composantes, des habiletés lexicales dans la norme assorti d’un retard morphosyntaxique et enfin un profil atypique montrant des disparités importantes à travers les composantes du langage. Dans trois des quatre profils, la compréhension des phrases était particulièrement faible. Ces résultats suggèrent que le fait de recevoir un implant cochléaire entre l’âge d’un et deux ans ne garantit pas l’atteinte de niveaux de langage dans les limites de la normale malgré une expérience de port de l’appareil d’une durée appréciable. Une étape antérieure du développement linguistique a été examinée de plus près dans la troisième étude. La taille et la composition du vocabulaire expressif de onze enfants ayant reçu un IC à un âge moyen de 15 mois ont été comparées à celles de l’échantillon d’enfants entendants ayant servi à établir les normes en français québécois pour le questionnaire Mots et énoncés des Inventaires MacArthur-Bates du développement de la communication (IMBDC). Les scores d’âge équivalent selon la taille totale du vocabulaire des enfants avec IC étaient supérieurs à l’âge auditif (correspondant à la durée de port de l’appareil) mais inférieurs à l’âge chronologique. La représentation grammaticale en fonction de la taille du vocabulaire des enfants avec IC suit la tendance observée dans la norme. Ces résultats suggèrent que le profil lexical des enfants avec implant est très similaire à celui des enfants entendants lorsque le nombre total de mots acquis est le même. Les résultats de cette thèse suggèrent que l’implant peut, de manière générale, avoir un effet « normalisant » sur le langage ; toutefois, il semble que l’amélioration de l’accès auditif ne suffise pas pour rattraper à coup sûr le niveau de langage des pairs entendants dans l’ensemble des composantes du langage. Alors que les habiletés lexicales se rapprochent du profil typique, les habiletés de compréhension morphosyntaxique sont fortement atteintes chez une majorité d’enfants, suggérant un profil apparenté à un trouble de langage.
Resumo:
La présente thèse a pour objectif d’étudier le rôle des facteurs cognitifs (traitement phonologique et visuoattentionnel et mémoire lexicale orthographique) dans l’acquisition des connaissances orthographiques implicites et explicites. Afin d’examiner les liens entre les différents facteurs cognitifs et les connaissances orthographiques, une étude longitudinale a été réalisée à l’aide d’un échantillon de 338 enfants suivis de la maternelle 5 ans à la fin de la deuxième année du primaire. À la fin de la maternelle, les enfants ont été évalués à l’aide d’une épreuve d’orthographe approchée et d’épreuves évaluant les facteurs cognitifs en jeu dans l’apprentissage du langage écrit (traitement phonologique, traitement visuoattentionnel et mémoire à court et à long terme). Les connaissances lexicales orthographiques explicites de ces mêmes enfants ont été évaluées en fin de première et de deuxième années. Le premier article de cette thèse rapporte les données d’une étude réalisée auprès des enfants scolarisés en maternelle 5 ans. Cette étude vise l’établissement d’un lien entre, d’une part, la capacité de traitement phonologique, visuoattentionnel et de mémoire lexicale orthographique et, d’autre part, les connaissances orthographiques implicites des enfants qui n’ont pas encore eu d’enseignement formel de l’écriture. Les résultats indiquent que, contrairement à ce qui a été longtemps avancé, la capacité de traitement phonologique n’est pas le seul facteur cognitif à intervenir, puisque la capacité de mémoire lexicale orthographique à long terme ainsi que la capacité visuoattentionnelle contribuent de façon importante et indépendante à l’acquisition des connaissances orthographiques implicites des enfants de la maternelle 5 ans. La mémoire lexicale orthographique est même le facteur qui apporte la plus forte contribution. La deuxième étude de cette thèse vise à déterminer, parmi les facteurs cognitifs évalués en maternelle, celui ou ceux qui permettent de prédire les connaissances orthographiques explicites ultérieures, c'est-à-dire celles de première et de deuxième années du primaire. Les résultats de cette deuxième étude indiquent que les préalables nécessaires à l’acquisition des connaissances orthographiques lexicales sont les capacités de traitement phonologique ainsi que les capacités de la mémoire à court et à long terme. La troisième étude de cette thèse a pour but de mettre en lumière le rôle prédictif que joue le niveau des connaissances orthographiques des enfants de maternelle quant au niveau ultérieur de leurs connaissances orthographiques en première et deuxième années, en lien avec les capacités cognitives qui sous-tendent l’apprentissage du langage écrit, en particulier le traitement phonologique, le traitement visuoattentionnel et la mémoire lexicale orthographique. Les résultats de cette dernière étude permettent de montrer que, parmi les facteurs évalués en maternelle, le niveau des connaissances orthographiques implicites apporte une contribution unique à l’ensemble du niveau des connaissances orthographiques ultérieures. L’influence des connaissances orthographiques précoces sur l’acquisition ultérieure n’est pas surprenante. En effet, la première étude avait montré que le niveau de ces connaissances est fonction non seulement de la capacité de mémoire orthographique lexicale mais également de la capacité de traitement phonologique et visuottentionnel. Les résultats issus de ces trois études présentent un intérêt non négligeable dans la compréhension de l’acquisition du langage écrit. En effet, ces recherches ont permis de montrer qu’avant même l’apprentissage formel de l’écrit, l’enfant témoigne de connaissances implicites non négligeables sur la langue écrite et que c’est à partir de ces connaissances que s’élaboreront ses connaissances explicites ultérieures. Ces connaissances sont tributaires de multiples facteurs parmi lesquels la capacité de mémoire lexicale orthographique, facteur cognitif dont la contribution n’avait pas été démontrée jusqu’à présent. Les résultats de cette recherche montrent qu’il est possible d’envisager des outils de dépistage précoce qui permettront d’identifier les enfants à risque de présenter des difficultés spécifiques d’apprentissage du langage écrit. Ce dépistage permettrait de mettre en place des interventions mieux ciblées et précoces, ce qui réduirait ainsi l’impact des difficultés sur les apprentissages scolaires.
Resumo:
L'amélioration de la maitrise du français langue première chez les élèves du primaire au Québec dépend de plusieurs facteurs. L'enseignant peut jouer un rôle dans ce processus, sa formation universitaire lui fournissant les connaissances nécessaires afin d'encadrer le développement des compétences langagières de l'élève. Une de ces compétences joue un rôle privilégié dans l'utilisation et la maitrise de la langue, il s'agit de la compétence lexicale, la capacité à comprendre et à utiliser les unités du lexique, aussi bien à l'oral qu'à l'écrit. Afin d'encadrer le développement de la compétence lexicale en français langue première des élèves du primaire, les enseignants doivent eux-mêmes posséder un bon niveau de compétence lexicale, mais aussi détenir un certain nombre de connaissances sur le fonctionnement du lexique lui-même, c'est-à-dire des connaissances métalexicales. Le référentiel québécois de la profession enseignante (MEQ, 2001b) ne détaille pas les connaissances métalexicales que doit posséder l'enseignant pour mener les tâches associées à ses activités d'enseignement/apprentissage du lexique. En outre, la plupart des universités québécoises n'offrent pas de cours dédiés explicitement à la didactique du lexique. Pourtant, ce sont dans les cours de didactique que sont dispensées les connaissances théoriques et pratiques nécessaires au futur enseignant pour assumer les tâches de planification et de pilotage des activités d'apprentissage et d'évaluation des compétences des élèves. La relative absence de cours de didactique du lexique en formation initiale pourrait s'expliquer par le fait qu'il s'agit d'une discipline encore jeune dont les fondements théoriques et pratiques sont en cours de développement. Cette thèse en didactique du français langue première s’intéresse donc aux contenus linguistiques de référence de la didactique du lexique, ainsi qu’à la formation des maitres au primaire dans cette même discipline. Le travail de recherche effectué afin de tenter de remédier au problème soulevé a permis la réalisation de deux objectifs complémentaires. Le premier a consisté en la construction d’une ontologie des savoirs lexicologiques, qui permet de représenter à l’intérieur d’une hiérarchie de notions l’ensemble des connaissances disciplinaires de référence de la didactique du lexique. Cette représentation a ensuite été utilisée pour spécifier et structurer les contenus d’un module de cours en didactique du lexique visant le développement des connaissances métalexicales chez les futurs enseignants du primaire au Québec. L’ontologie et le module de cours produits ont été évalués et validés par des experts de chacun des domaines concernés. L’évaluation de l’ontologie a permis de vérifier la méthode de construction de celle-ci, ainsi que différents aspects relatifs à la structuration des concepts dans l’ontologie. L’évaluation du module de cours a quant à elle montré que les contenus de cours étaient pertinents, les méthodes pédagogiques employées appropriées et le matériel de cours développé bien conçu. Cela nous permet d'affirmer que le module de cours en didactique du lexique se présente comme un apport intéressant à la formation des futurs enseignants du primaire en français langue première au Québec. La recherche dans son ensemble présente enfin une contribution pertinente à la didactique du lexique, son caractère original résidant entre autres dans le fait d’avoir développé un mécanisme d’exploitation d’une base de connaissances (ontologie des savoirs lexicologiques) pour la conception didactique (module de cours en didactique du lexique).
Resumo:
Cette recherche porte sur la lexicologie, la lexicographie et l’enseignement/apprentissage du lexique. Elle s’inscrit dans le cadre du projet Modélisation ontologique des savoirs lexicographiques en vue de leur application en linguistique appliquée, surnommé Lexitation, qui est, à notre connaissance, la première tentative d’extraction des savoirs lexicographiques — i.e. connaissances déclaratives et procédurales utilisées par des lexicographes — utilisant une méthode expérimentale. Le projet repose sur le constat que les savoirs lexicographiques ont un rôle crucial à jouer en lexicologie, mais aussi en enseignement/apprentissage du lexique. Dans ce mémoire, nous décrirons les méthodes et les résultats de nos premières expérimentations, effectuées à l’aide du Think Aloud Protocol (Ericsson et Simon, 1993). Nous expliquerons l’organisation générale des expérimentations et comment les savoirs lexicographiques extraits sont modélisés pour former une ontologie. Finalement, nous discuterons des applications possibles de nos travaux en enseignement du lexique, plus particulièrement pour la formation des maîtres.
Resumo:
L’approche psycholinguistique suggère que la rétention à court terme verbale et le langage dépendent de mécanismes communs. Elle prédit que les caractéristiques linguistiques des items verbaux (e.g. phonologiques, lexicales, sémantiques) influencent le rappel immédiat (1) et que la contribution des niveaux de représentations linguistiques dépend du contexte de rappel, certaines conditions expérimentales (e.g. format des stimuli) favorisant l’utilisation de codes spécifiques (2). Ces prédictions sont évaluées par le biais de deux études empiriques réalisées auprès d’une patiente cérébrolésée qui présente une atteinte du traitement phonologique (I.R.) et de participants contrôles. Une première étude (Article 1) teste l’impact des modes de présentation et de rappel sur les effets de similarité phonologique et de catégorie sémantique de listes de mots. Une seconde étude (Article 2) évalue la contribution du code orthographique en mémoire à court terme (MCT) verbale en testant l’effet de la densité du voisinage orthographique des mots sur le rappel sériel immédiat de mots présentés visuellement. Compte tenu du rôle déterminant du code phonologique en MCT et du type d’atteinte de I.R., des effets linguistiques distincts étaient attendus chez elle et chez les contrôles. Selon le contexte de rappel, des effets sémantiques (Article 1) et orthographiques (Article 2) plus importants étaient prédits chez I.R. et des effets phonologiques plus marqués étaient attendus chez les participants contrôles. Chez I.R., le rappel est influencé par les caractéristiques sémantiques et orthographiques des mots, mais peu par leurs caractéristiques phonologiques et le contexte de rappel module l’utilisation de différents niveaux de représentations linguistiques. Chez les contrôles, une contribution relativement plus stable des représentations phonologiques est observée. Les données appuient une approche psycholinguistique qui postule que des mécanismes communs régissent la rétention à court terme verbale et le langage. Les implications théoriques et cliniques des résultats sont discutées en regard de modèles psycholinguistiques actuels.
Resumo:
Notre mémoire porte sur l’attrition de la marque d’usage PROVERBIAL de la 7e (1878) à la 8e édition du Dictionnaire de l’Académie française (1932-35). L’informatisation des huit éditions achevées de l’ouvrage (Redon 2002), qui permet tant le relevé quantitatif que qualitatif des données, laisse voir que la marque jouit d’une grande stabilité dans les sept premières éditions, mais que son emploi chute considérablement de l’édition de 1878 à celle de 1932-35. Dans les limites notre projet, nous tâchons de comprendre le comment de cette érosion. Pour ce faire, nous avons recensé exhaustivement les lexies touchées de la 7e à la 8e édition, en tenant compte des cas de figure logiquement possibles : retrait d’un article ou d’une lexie dans la 8e édition, lexies partagées avec la 7e édition mais a) dépouillées de la marque, b) marquées différemment ou c) héritières du marquage d’origine. Dans l’édition de 1878, PROVERBIAL s’applique à 4 674 lexies distribuées dans 1 645 articles. Au terme de notre recherche, nous identifions les expressions proverbiales disparues ou maintenues dans le passage crucial de la 7e à la 8e édition du Dictionnaire de l’Académie française. Nous en tirons des résultats qui portent, entre autres, sur la transformation du système de marquage dans la tradition du Dictionnaire de l’institution.
Resumo:
Thèse réalisée en cotutelle avec l'Université Paris Diderot (Paris 7)
Resumo:
Ce mémoire présente une évaluation des différentes méthodes utilisées en lexicographie afin d’identifier les liens lexicaux dans les dictionnaires où sont répertoriées des collocations. Nous avons ici comparé le contenu de fiches du DiCo, un dictionnaire de dérivés sémantiques et de collocations créé selon les principes de la lexicologie explicative et combinatoire, avec les listes de cooccurrents générées automatiquement à partir du corpus Le Monde 2002. Notre objectif est ici de proposer des améliorations méthodologiques à la création de fiches de dictionnaire du type du DiCo, c’est-à-dire, des dictionnaires d’approche qualitative, où la collocation est définie comme une association récurrente et arbitraire entre deux items lexicaux et où les principaux outils méthodologiques utilisés sont la compétence linguistique de ses lexicographes et la consultation manuelle de corpus de textes. La consultation de listes de cooccurrents est une pratique associée habituellement à une approche lexicographique quantitative, qui définit la collocation comme une association entre deux items lexicaux qui est plus fréquente, dans un corpus, que ce qui pourrait être attendu si ces deux items lexicaux y étaient distribués de façon aléatoire. Nous voulons mesurer ici dans quelle mesure les outils utilisés traditionnellement dans une approche quantitative peuvent être utiles à la création de fiches lexicographiques d’approche qualitative, et de quelle façon leur utilisation peut être intégrée à la méthodologie actuelle de création de ces fiches.
Resumo:
Il est connu que les problèmes d'ambiguïté de la langue ont un effet néfaste sur les résultats des systèmes de Recherche d'Information (RI). Toutefois, les efforts de recherche visant à intégrer des techniques de Désambiguisation de Sens (DS) à la RI n'ont pas porté fruit. La plupart des études sur le sujet obtiennent effectivement des résultats négatifs ou peu convaincants. De plus, des investigations basées sur l'ajout d'ambiguïté artificielle concluent qu'il faudrait une très haute précision de désambiguation pour arriver à un effet positif. Ce mémoire vise à développer de nouvelles approches plus performantes et efficaces, se concentrant sur l'utilisation de statistiques de cooccurrence afin de construire des modèles de contexte. Ces modèles pourront ensuite servir à effectuer une discrimination de sens entre une requête et les documents d'une collection. Dans ce mémoire à deux parties, nous ferons tout d'abord une investigation de la force de la relation entre un mot et les mots présents dans son contexte, proposant une méthode d'apprentissage du poids d'un mot de contexte en fonction de sa distance du mot modélisé dans le document. Cette méthode repose sur l'idée que des modèles de contextes faits à partir d'échantillons aléatoires de mots en contexte devraient être similaires. Des expériences en anglais et en japonais montrent que la force de relation en fonction de la distance suit généralement une loi de puissance négative. Les poids résultant des expériences sont ensuite utilisés dans la construction de systèmes de DS Bayes Naïfs. Des évaluations de ces systèmes sur les données de l'atelier Semeval en anglais pour la tâche Semeval-2007 English Lexical Sample, puis en japonais pour la tâche Semeval-2010 Japanese WSD, montrent que les systèmes ont des résultats comparables à l'état de l'art, bien qu'ils soient bien plus légers, et ne dépendent pas d'outils ou de ressources linguistiques. La deuxième partie de ce mémoire vise à adapter les méthodes développées à des applications de Recherche d'Information. Ces applications ont la difficulté additionnelle de ne pas pouvoir dépendre de données créées manuellement. Nous proposons donc des modèles de contextes à variables latentes basés sur l'Allocation Dirichlet Latente (LDA). Ceux-ci seront combinés à la méthodes de vraisemblance de requête par modèles de langue. En évaluant le système résultant sur trois collections de la conférence TREC (Text REtrieval Conference), nous observons une amélioration proportionnelle moyenne de 12% du MAP et 23% du GMAP. Les gains se font surtout sur les requêtes difficiles, augmentant la stabilité des résultats. Ces expériences seraient la première application positive de techniques de DS sur des tâches de RI standard.