927 resultados para Multilingual lexical
Resumo:
Cette recherche porte sur la lexicologie, la lexicographie et l’enseignement/apprentissage du lexique. Elle s’inscrit dans le cadre du projet Modélisation ontologique des savoirs lexicographiques en vue de leur application en linguistique appliquée, surnommé Lexitation, qui est, à notre connaissance, la première tentative d’extraction des savoirs lexicographiques — i.e. connaissances déclaratives et procédurales utilisées par des lexicographes — utilisant une méthode expérimentale. Le projet repose sur le constat que les savoirs lexicographiques ont un rôle crucial à jouer en lexicologie, mais aussi en enseignement/apprentissage du lexique. Dans ce mémoire, nous décrirons les méthodes et les résultats de nos premières expérimentations, effectuées à l’aide du Think Aloud Protocol (Ericsson et Simon, 1993). Nous expliquerons l’organisation générale des expérimentations et comment les savoirs lexicographiques extraits sont modélisés pour former une ontologie. Finalement, nous discuterons des applications possibles de nos travaux en enseignement du lexique, plus particulièrement pour la formation des maîtres.
Resumo:
L’approche psycholinguistique suggère que la rétention à court terme verbale et le langage dépendent de mécanismes communs. Elle prédit que les caractéristiques linguistiques des items verbaux (e.g. phonologiques, lexicales, sémantiques) influencent le rappel immédiat (1) et que la contribution des niveaux de représentations linguistiques dépend du contexte de rappel, certaines conditions expérimentales (e.g. format des stimuli) favorisant l’utilisation de codes spécifiques (2). Ces prédictions sont évaluées par le biais de deux études empiriques réalisées auprès d’une patiente cérébrolésée qui présente une atteinte du traitement phonologique (I.R.) et de participants contrôles. Une première étude (Article 1) teste l’impact des modes de présentation et de rappel sur les effets de similarité phonologique et de catégorie sémantique de listes de mots. Une seconde étude (Article 2) évalue la contribution du code orthographique en mémoire à court terme (MCT) verbale en testant l’effet de la densité du voisinage orthographique des mots sur le rappel sériel immédiat de mots présentés visuellement. Compte tenu du rôle déterminant du code phonologique en MCT et du type d’atteinte de I.R., des effets linguistiques distincts étaient attendus chez elle et chez les contrôles. Selon le contexte de rappel, des effets sémantiques (Article 1) et orthographiques (Article 2) plus importants étaient prédits chez I.R. et des effets phonologiques plus marqués étaient attendus chez les participants contrôles. Chez I.R., le rappel est influencé par les caractéristiques sémantiques et orthographiques des mots, mais peu par leurs caractéristiques phonologiques et le contexte de rappel module l’utilisation de différents niveaux de représentations linguistiques. Chez les contrôles, une contribution relativement plus stable des représentations phonologiques est observée. Les données appuient une approche psycholinguistique qui postule que des mécanismes communs régissent la rétention à court terme verbale et le langage. Les implications théoriques et cliniques des résultats sont discutées en regard de modèles psycholinguistiques actuels.
Resumo:
Notre mémoire porte sur l’attrition de la marque d’usage PROVERBIAL de la 7e (1878) à la 8e édition du Dictionnaire de l’Académie française (1932-35). L’informatisation des huit éditions achevées de l’ouvrage (Redon 2002), qui permet tant le relevé quantitatif que qualitatif des données, laisse voir que la marque jouit d’une grande stabilité dans les sept premières éditions, mais que son emploi chute considérablement de l’édition de 1878 à celle de 1932-35. Dans les limites notre projet, nous tâchons de comprendre le comment de cette érosion. Pour ce faire, nous avons recensé exhaustivement les lexies touchées de la 7e à la 8e édition, en tenant compte des cas de figure logiquement possibles : retrait d’un article ou d’une lexie dans la 8e édition, lexies partagées avec la 7e édition mais a) dépouillées de la marque, b) marquées différemment ou c) héritières du marquage d’origine. Dans l’édition de 1878, PROVERBIAL s’applique à 4 674 lexies distribuées dans 1 645 articles. Au terme de notre recherche, nous identifions les expressions proverbiales disparues ou maintenues dans le passage crucial de la 7e à la 8e édition du Dictionnaire de l’Académie française. Nous en tirons des résultats qui portent, entre autres, sur la transformation du système de marquage dans la tradition du Dictionnaire de l’institution.
Resumo:
Thèse réalisée en cotutelle avec l'Université Paris Diderot (Paris 7)
Resumo:
Ce mémoire présente une évaluation des différentes méthodes utilisées en lexicographie afin d’identifier les liens lexicaux dans les dictionnaires où sont répertoriées des collocations. Nous avons ici comparé le contenu de fiches du DiCo, un dictionnaire de dérivés sémantiques et de collocations créé selon les principes de la lexicologie explicative et combinatoire, avec les listes de cooccurrents générées automatiquement à partir du corpus Le Monde 2002. Notre objectif est ici de proposer des améliorations méthodologiques à la création de fiches de dictionnaire du type du DiCo, c’est-à-dire, des dictionnaires d’approche qualitative, où la collocation est définie comme une association récurrente et arbitraire entre deux items lexicaux et où les principaux outils méthodologiques utilisés sont la compétence linguistique de ses lexicographes et la consultation manuelle de corpus de textes. La consultation de listes de cooccurrents est une pratique associée habituellement à une approche lexicographique quantitative, qui définit la collocation comme une association entre deux items lexicaux qui est plus fréquente, dans un corpus, que ce qui pourrait être attendu si ces deux items lexicaux y étaient distribués de façon aléatoire. Nous voulons mesurer ici dans quelle mesure les outils utilisés traditionnellement dans une approche quantitative peuvent être utiles à la création de fiches lexicographiques d’approche qualitative, et de quelle façon leur utilisation peut être intégrée à la méthodologie actuelle de création de ces fiches.
Resumo:
Il est connu que les problèmes d'ambiguïté de la langue ont un effet néfaste sur les résultats des systèmes de Recherche d'Information (RI). Toutefois, les efforts de recherche visant à intégrer des techniques de Désambiguisation de Sens (DS) à la RI n'ont pas porté fruit. La plupart des études sur le sujet obtiennent effectivement des résultats négatifs ou peu convaincants. De plus, des investigations basées sur l'ajout d'ambiguïté artificielle concluent qu'il faudrait une très haute précision de désambiguation pour arriver à un effet positif. Ce mémoire vise à développer de nouvelles approches plus performantes et efficaces, se concentrant sur l'utilisation de statistiques de cooccurrence afin de construire des modèles de contexte. Ces modèles pourront ensuite servir à effectuer une discrimination de sens entre une requête et les documents d'une collection. Dans ce mémoire à deux parties, nous ferons tout d'abord une investigation de la force de la relation entre un mot et les mots présents dans son contexte, proposant une méthode d'apprentissage du poids d'un mot de contexte en fonction de sa distance du mot modélisé dans le document. Cette méthode repose sur l'idée que des modèles de contextes faits à partir d'échantillons aléatoires de mots en contexte devraient être similaires. Des expériences en anglais et en japonais montrent que la force de relation en fonction de la distance suit généralement une loi de puissance négative. Les poids résultant des expériences sont ensuite utilisés dans la construction de systèmes de DS Bayes Naïfs. Des évaluations de ces systèmes sur les données de l'atelier Semeval en anglais pour la tâche Semeval-2007 English Lexical Sample, puis en japonais pour la tâche Semeval-2010 Japanese WSD, montrent que les systèmes ont des résultats comparables à l'état de l'art, bien qu'ils soient bien plus légers, et ne dépendent pas d'outils ou de ressources linguistiques. La deuxième partie de ce mémoire vise à adapter les méthodes développées à des applications de Recherche d'Information. Ces applications ont la difficulté additionnelle de ne pas pouvoir dépendre de données créées manuellement. Nous proposons donc des modèles de contextes à variables latentes basés sur l'Allocation Dirichlet Latente (LDA). Ceux-ci seront combinés à la méthodes de vraisemblance de requête par modèles de langue. En évaluant le système résultant sur trois collections de la conférence TREC (Text REtrieval Conference), nous observons une amélioration proportionnelle moyenne de 12% du MAP et 23% du GMAP. Les gains se font surtout sur les requêtes difficiles, augmentant la stabilité des résultats. Ces expériences seraient la première application positive de techniques de DS sur des tâches de RI standard.
Resumo:
Les modèles de compréhension statistiques appliqués à des applications vocales nécessitent beaucoup de données pour être entraînés. Souvent, une même application doit pouvoir supporter plusieurs langues, c’est le cas avec les pays ayant plusieurs langues officielles. Il s’agit donc de gérer les mêmes requêtes des utilisateurs, lesquelles présentent une sémantique similaire, mais dans plusieurs langues différentes. Ce projet présente des techniques pour déployer automatiquement un modèle de compréhension statistique d’une langue source vers une langue cible. Ceci afin de réduire le nombre de données nécessaires ainsi que le temps relié au déploiement d’une application dans une nouvelle langue. Premièrement, une approche basée sur les techniques de traduction automatique est présentée. Ensuite une approche utilisant un espace sémantique commun pour comparer plusieurs langues a été développée. Ces deux méthodes sont comparées pour vérifier leurs limites et leurs faisabilités. L’apport de ce projet se situe dans l’amélioration d’un modèle de traduction grâce à l’ajout de données très proche de l’application ainsi que d’une nouvelle façon d’inférer un espace sémantique multilingue.
Resumo:
L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.
Resumo:
Le nombre d'unions où les deux conjoints n'ont pas la même langue maternelle est en augmentation depuis les dernières décennies au Québec. Sachant que les enfants issus de ces unions gravitent dans un univers familial plurilingue, l'objectif de ce mémoire est de connaître les langues qui leur sont transmises. En utilisant les données du questionnaire long du recensement canadien de 2006, nous avons procédé à différentes analyses descriptives nous permettant de cerner les langues maternelles véhiculées aux enfants issus d'une union mixte, de vérifier si ces enfants héritent davantage de la langue maternelle de leur mère ou de leur père et s'ils opèrent des substitutions linguistiques avant l'âge de 18 ans, c'est-à-dire si leur langue maternelle diffère de leur langue d'usage. De plus, par le biais de régressions logistiques, nous avons étudié les déterminants contextuel, ethno-culturel et socio-économique les plus susceptibles d'expliquer le choix de la langue transmise aux enfants. Les résultats obtenus démontrent la place prédominante des langues officielles canadiennes, au détriment des langues non officielles, chez les familles exogames. De plus, le choix de la langue maternelle transmise s'avère principalement conditionné par le lieu de résidence, le parcours migratoire des parents et le pays de naissance des enfants.
Resumo:
« Il va sans dire que c’est l’expérience du traduire qui constitue le centre de gravité de mon rapport général à la traduction. Je ne suis traductologue que parce que je suis, primordialement, traducteur » (Berman 2001, p. 16). La théorie de la traduction d’Antoine Berman serait donc enracinée dans sa pratique. Bien que son nom soit devenu incontournable en traductologie et que ses idées aient suscité de nombreux débats, peu de chercheurs ont étudié le lien entre la théorie et la pratique de ce traductologue. Le présent mémoire tente de combler cette lacune. Au moyen d’une analyse de la traduction de El juguete rabioso de Roberto Arlt faite par les époux Berman, il explore comment la pratique et la théorie de la traduction d’Antoine Berman se sont nourries l’une de l’autre. Le premier chapitre retrace le parcours d’Antoine Berman : son travail de traducteur, ses influences, sa théorie de la traduction, l’impact de celle-ci et les critiques qui lui ont été adressées. Dans le chapitre deux, nous découvrons Roberto Arlt et son œuvre afin de bien cerner les enjeux de sa traduction. Le chapitre trois analyse, selon la méthode bermanienne, la traduction française de ce roman publiée pour la première fois en 1984. Deux éléments du texte sont mis en relief : la diversité de registres discursifs, dont les sociolectes argentins, et la richesse lexicale qui en découle. En conclusion, l’étude montre que Le jouet enragé est marqué par une certaine inhibition et une rigidité sans doute inhérentes à toute traduction-introduction. Trop attachée aux normes, cette première version restitue timidement la diversité narrative de l’original. Ainsi, on peut supposer que les préceptes de Berman, et plus exactement sa liste de « tendances déformantes » (Berman 1999) reflètent, en partie, et avant tout, les limites et les difficultés qu’il a pu rencontrer dans l’exercice de sa pratique.
Resumo:
Cette recherche vise à décrire 1) les erreurs lexicales commises en production écrite par des élèves francophones de 3e secondaire et 2) le rapport à l’erreur lexicale d’enseignants de français (conception de l’erreur lexicale, pratiques d’évaluation du vocabulaire en production écrite, modes de rétroaction aux erreurs lexicales). Le premier volet de la recherche consiste en une analyse d’erreurs à trois niveaux : 1) une description linguistique des erreurs à l’aide d’une typologie, 2) une évaluation de la gravité des erreurs et 3) une explication de leurs sources possibles. Le corpus analysé est constitué de 300 textes rédigés en classe de français par des élèves de 3e secondaire. L’analyse a révélé 1144 erreurs lexicales. Les plus fréquentes sont les problèmes sémantiques (30%), les erreurs liées aux propriétés morphosyntaxiques des unités lexicales (21%) et l’utilisation de termes familiers (17%). Cette répartition démontre que la moitié des erreurs lexicales sont attribuables à une méconnaissance de propriétés des mots autres que le sens et la forme. L’évaluation de la gravité des erreurs repose sur trois critères : leur acceptation linguistique selon les dictionnaires, leur impact sur la compréhension et leur degré d’intégration à l’usage. Les problèmes liés aux registres de langue sont généralement ceux qui sont considérés comme les moins graves et les erreurs sémantiques représentent la quasi-totalité des erreurs graves. Le troisième axe d’analyse concerne la source des erreurs et fait ressortir trois sources principales : l’influence de la langue orale, la proximité sémantique et la parenté formelle entre le mot utilisé et celui visé. Le second volet de la thèse concerne le rapport des enseignants de français à l’erreur lexicale et repose sur l’analyse de 224 rédactions corrigées ainsi que sur une série de huit entrevues menées avec des enseignants de 3e secondaire. Lors de la correction, les enseignants relèvent surtout les erreurs orthographiques ainsi que celles relevant des propriétés morphosyntaxiques des mots (genre, invariabilité, régime), qu’ils classent parmi les erreurs de grammaire. Les erreurs plus purement lexicales, c’est-à-dire les erreurs sémantiques, l’emploi de termes familiers et les erreurs de collocation, demeurent peu relevées, et les annotations des enseignants concernant ces types d’erreurs sont vagues et peu systématiques, donnant peu de pistes aux élèves pour la correction. L’évaluation du vocabulaire en production écrite est toujours soumise à une appréciation qualitative, qui repose sur l’impression générale des enseignants plutôt que sur des critères précis, le seul indicateur clair étant la répétition. Les explications des enseignants concernant les erreurs lexicales reposent beaucoup sur l’intuition, ce qui témoigne de certaines lacunes dans leur formation en lien avec le vocabulaire. Les enseignants admettent enseigner très peu le vocabulaire en classe au secondaire et expliquent ce choix par le manque de temps et d’outils adéquats. L’enseignement du vocabulaire est toujours subordonné à des tâches d’écriture ou de lecture et vise davantage l’acquisition de mots précis que le développement d’une réelle compétence lexicale.
Resumo:
Cette recherche se construit autour d’un travail de terrain réalisé dans trois communautés autochtones quichuas vivant au nord de l’Équateur. Il prétend étudier l’incidence que devrait avoir la diversité culturelle et linguistique dans les politiques éducatives en milieu plurilingue et multiculturel. En Amérique hispanique, l’éducation des peuples autochtones n’a jamais été très attentive à leurs besoins spécifiques en ce qui a trait à l’apprentissage de l’espagnol comme langue seconde. En effet, les motivations des apprenants, plus instrumentales qu’intégratives, prouvent que les autochtones apprennent la langue espagnole presqu’exclusivement pour communiquer, sans vraiment être intéressés au groupe natif de cette langue. De plus, notre recherche sur le terrain avec les apprenants du peuple Otavalo nous a démontré que leur très forte identification ethnique influence l’acquisition de l’espagnol. D’une part, ils sont plus enclins à se distinguer des autres, spécialement des hispano parlants, et de l’autre, ils réussissent plus difficilement à atteindre une compétence élevée dans la langue seconde. Notre recherche conclut donc que l’éducation, qu’elle soit issue du système national ou bilingue, devrait davantage prendre en considération l’identité ethnolinguistique des nombreux enfants indigènes, afin de ne pas préjudicier leurs droits. Ceci permettrait de favoriser un apprentissage positif et significatif de l’espagnol comme langue seconde ou langue maternelle, mais tout en consolidant l’identité autochtone des apprenants.
Resumo:
Le Sénégal est confronté à plusieurs enjeux environnementaux accentués par l’exode rural, la croissance démographique et l’urbanisation galopante. Dans la capitale de Dakar, les populations sont exposées à des risques industriels, sanitaires et environnementaux importants. Face aux conséquences néfastes des phénomènes de la dégradation de l’environnement en milieu urbain, il convient de chercher à mieux comprendre ce que l’environnement représente pour les populations notamment chez la jeune génération qui aura à vivre avec les conséquences liées à la détérioration de l'environnement léguée par les générations précédentes. S’appuyant sur la théorie des représentations sociales, cette recherche a comme objectifs 1) d’explorer les représentations sociales de l’environnement chez les jeunes sénégalais âgés de 9 à 16 ans en milieu scolaire situé en milieu urbain, et ce, dans différentes écoles de la ville de Dakar ; 2) d’étudier les connaissances, les sensibilités et les comportements des jeunes en matière écologique et environnementale; 3) finalement de déterminer les principaux agents responsables de la socialisation des jeunes dakarois en matière d’environnement. Le tout analysé en fonction de trois variables soit l’âge, le genre et le type d’école. La méthodologie de notre recherche est essentiellement qualitative de type exploratoire et elle s’appui principalement sur des questionnaires et des dessins. Les résultats montrent qu’en ce qui concerne les représentations sociales de l’environnement des jeunes dakarois, à travers l’analyse du discours, que l’environnement est représenté par les catégories typologiques dites « négative » « utilitariste » et « milieu de vie ». Ces représentations sociales varient à divers degrés en fonction du groupe d’âge, du genre et du type d’école. Les jeunes sont également nombreux à utiliser un vocabulaire associé aux notions liées à l’environnement naturel. De son côté, l’analyse picturale, qui concorde avec l’analyse lexicale, montre que les catégories typologiques de l’environnement sont liées au « milieu de vie », à l’« environnement ressource » et à l’« environnement nature » et ce, peu importe l’âge, le type d’école et le genre.
Resumo:
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
Brown (1973) a proposé la « longueur moyenne des énoncés » (LME) comme indice standard du développement langagier. La LME se calcule selon le nombre moyen de morphèmes dans 100 énoncés de parole spontanée. L’hypothèse sous-jacente à cet indice est que la complexité syntaxique croît avec le nombre de morphèmes dans les énoncés. Selon Brown, l’indice permet d’estimer le développement d’une « compétence grammaticale » jusqu’à environ quatre morphèmes. Certains auteurs ont toutefois critiqué le manque de fiabilité de la LME et la limite de quatre morphèmes. Des rapports démontrent des variations de la LME avec l’âge, ce qui suggère que des facteurs comme la croissance des capacités respiratoires peuvent influencer l’indice de Brown. La présente étude fait état de ces problèmes et examine comment la LME et certaines mesures de diversité lexicale varient selon le développement des capacités respiratoires. On a calculé la LME et la diversité lexicale dans la parole spontanée de 50 locuteurs mâles âgés de 5 à 27 ans. On a également mesuré, au moyen d’un pneumotachographe, la capacité vitale (CV) des locuteurs. Les résultats démontrent que la LME et des mesures de diversité lexicale corrèlent fortement avec la croissance de la CV. Ainsi, la croissance des fonctions respiratoires contraint le développement morphosyntaxique et lexical. Notre discussion fait valoir la nécessité de réévaluer l’indice de la LME et la conception « linguistique » du développement langagier comme une compétence mentale qui émerge séparément de la croissance des structures de performance.