30 resultados para chromatic phrases
em Université de Montréal, Canada
Resumo:
Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique.
Resumo:
La traduction statistique requiert des corpus parallèles en grande quantité. L’obtention de tels corpus passe par l’alignement automatique au niveau des phrases. L’alignement des corpus parallèles a reçu beaucoup d’attention dans les années quatre vingt et cette étape est considérée comme résolue par la communauté. Nous montrons dans notre mémoire que ce n’est pas le cas et proposons un nouvel aligneur que nous comparons à des algorithmes à l’état de l’art. Notre aligneur est simple, rapide et permet d’aligner une très grande quantité de données. Il produit des résultats souvent meilleurs que ceux produits par les aligneurs les plus élaborés. Nous analysons la robustesse de notre aligneur en fonction du genre des textes à aligner et du bruit qu’ils contiennent. Pour cela, nos expériences se décomposent en deux grandes parties. Dans la première partie, nous travaillons sur le corpus BAF où nous mesurons la qualité d’alignement produit en fonction du bruit qui atteint les 60%. Dans la deuxième partie, nous travaillons sur le corpus EuroParl où nous revisitons la procédure d’alignement avec laquelle le corpus Europarl a été préparé et montrons que de meilleures performances au niveau des systèmes de traduction statistique peuvent être obtenues en utilisant notre aligneur.
Resumo:
Ce mémoire de maîtrise propose une séquence didactique travaillant l’enchaînement de phrases par subordination et coordination en vue de favoriser le transfert de connaissances grammaticales en situation de production écrite. Nous avons d’abord fait ressortir que les élèves apprennent et revoient diverses règles de grammaire, mais qu’ils ont une grande difficulté à transférer ces connaissances en contexte d’écriture. Plusieurs chercheurs soulignent la pertinence de décloisonner l’enseignement de la grammaire et de l’écriture (Paret, 1992; Chartrand, 2003; Bilodeau, 2005) pour favoriser le transfert, notamment au moyen de la démarche active de découverte (Chartrand, 1996). Nous nous sommes intéressée à la syntaxe de la phrase, plus précisément à la construction de phrases complexes par enchaînement. Nous considérons les notions grammaticales qui en découlent difficiles pour plusieurs élèves et nous constatons que cet enseignement se fait peu fréquemment et souvent de manière magistrale, sans travailler l’écriture en parallèle. Nous avons donc élaboré une séquence didactique travaillant ces concepts grammaticaux, tout en ayant en tête de favoriser le transfert des notions grammaticales vers un contexte d’écriture. Nous avons ensuite mis à l’essai cette séquence dans un groupe de première secondaire et avons vérifié son efficacité à l’aide d’un prétest et d’un posttest (production écrite). Nous avons pu constater que la séquence didactique expérimentée dans le cadre de ce mémoire produit de bons résultats. Il y a une amélioration notable dans les enchaînements de phrases dans les textes produits par les élèves. Par contre, nous n’avons pas pu conclure que ceux-ci étaient significatifs d’un point de vue statistique. La séquence didactique semble toutefois aider les élèves, même les plus faibles, puisque les entretiens métagraphiques montrent qu’ils ont meilleure compréhension des enchaînements de phrases.
Resumo:
Communication présentée au congrès de l’ACFAS, Mai 2001
Resumo:
Cette thèse examine le développement du langage des enfants sourds qui ont reçu un implant cochléaire (IC) en bas âge. Une première étude rapporte une revue systématique qui avait pour but d’évaluer les connaissances actuelles concernant le développement du vocabulaire et de la grammaire chez les enfants qui ont reçu un IC avant l’âge de trois ans. Vingt-huit études ont été sélectionnées; une analyse descriptive de même qu’une méta-analyse ont été effectuées séparément pour chaque aspect du langage évalué (vocabulaire et grammaire, aspect réceptif et expressif). Au résultat, en dépit de la variabilité observée dans les études, il appert que l’implant cochléaire influence positivement le développement langagier; toutefois, seule une minorité de participants aux études a atteint des niveaux de langage comparables à ceux d’enfants entendants de même âge chronologique. La majorité des enfants continuent de présenter divers degrés de retard de langage, tant au plan réceptif qu’expressif, et ce, après jusqu’à cinq années de port de l’appareil. Les résultats suggèrent aussi, malgré la variabilité observée dans les études, que les bénéfices langagiers sont influencés par le fait de recevoir l’implant à deux ans plutôt qu’à trois ans. À partir des tendances retrouvées dans la littérature, les habiletés de vocabulaire et de grammaire chez 27 enfants qui ont reçu l’implant cochléaire en bas âge (entre 8 et 28 mois) ont été comparées avec celles d’un groupe d’enfants entendants, en utilisant des outils d’évaluation standardisés. Alors que les résultats de groupe montrent que les enfants qui reçoivent un IC autour de l’âge de deux ans atteignent des niveaux de langage dans les limites de la normale, les résultats individuels d’un sous-groupe formé de enfants les plus âgés font état de quatre profils de développement, soit des niveaux de langage dans les limites de la normale pour l’ensemble des composantes, un retard généralisé à l’ensemble des composantes, des habiletés lexicales dans la norme assorti d’un retard morphosyntaxique et enfin un profil atypique montrant des disparités importantes à travers les composantes du langage. Dans trois des quatre profils, la compréhension des phrases était particulièrement faible. Ces résultats suggèrent que le fait de recevoir un implant cochléaire entre l’âge d’un et deux ans ne garantit pas l’atteinte de niveaux de langage dans les limites de la normale malgré une expérience de port de l’appareil d’une durée appréciable. Une étape antérieure du développement linguistique a été examinée de plus près dans la troisième étude. La taille et la composition du vocabulaire expressif de onze enfants ayant reçu un IC à un âge moyen de 15 mois ont été comparées à celles de l’échantillon d’enfants entendants ayant servi à établir les normes en français québécois pour le questionnaire Mots et énoncés des Inventaires MacArthur-Bates du développement de la communication (IMBDC). Les scores d’âge équivalent selon la taille totale du vocabulaire des enfants avec IC étaient supérieurs à l’âge auditif (correspondant à la durée de port de l’appareil) mais inférieurs à l’âge chronologique. La représentation grammaticale en fonction de la taille du vocabulaire des enfants avec IC suit la tendance observée dans la norme. Ces résultats suggèrent que le profil lexical des enfants avec implant est très similaire à celui des enfants entendants lorsque le nombre total de mots acquis est le même. Les résultats de cette thèse suggèrent que l’implant peut, de manière générale, avoir un effet « normalisant » sur le langage ; toutefois, il semble que l’amélioration de l’accès auditif ne suffise pas pour rattraper à coup sûr le niveau de langage des pairs entendants dans l’ensemble des composantes du langage. Alors que les habiletés lexicales se rapprochent du profil typique, les habiletés de compréhension morphosyntaxique sont fortement atteintes chez une majorité d’enfants, suggérant un profil apparenté à un trouble de langage.
Resumo:
Il est bien connu que les enfants qui présentent un trouble de traitement auditif (TTA) ont de la difficulté à percevoir la parole en présence de bruit de fond. Cependant, il n’existe aucun consensus quant à l’origine de ces difficultés d’écoute. Ce programme de recherche est consacré à l’étude des incapacités sous-jacentes aux problèmes de perception de la parole dans le bruit chez les enfants présentant un TTA. Le Test de Phrases dans le Bruit (TPB) a été développé afin d’examiner si les difficultés de perception de la parole dans le bruit d’enfants ayant un TTA relèvent d’incapacités auditives, d’incapacités cognitivo-linguistiques ou des deux à la fois. Il comprend cinq listes de 40 phrases, composées de 20 phrases hautement prévisibles (HP) et de 20 phrases faiblement prévisibles (FP), de même qu’un bruit de verbiage. Le niveau de connaissance du mot clé (mot final) de chaque phrase a été vérifié auprès d’un groupe d’enfants âgés entre 5 et 7 ans. De plus, le degré d’intelligibilité des phrases dans le bruit et le niveau de prévisibilité ont été mesurées auprès d’adultes pour assurer l’équivalence entre les listes. Enfin, le TPB a été testé auprès d’un groupe de 15 adultes et d’un groupe de 69 enfants sans trouble auditif avant de l’administrer à des enfants ayant un TTA. Pour répondre à l’objectif général du programme de recherche, dix enfants présentant un TTA (groupe TTA) et dix enfants jumelés selon le genre et l’âge sans difficulté auditive (groupe témoin) ont été soumis aux listes de phrases du TPB selon différentes conditions sonores. Le groupe TTA a obtenu des performances significativement plus faibles comparativement au groupe témoin à la tâche de reconnaissance du mot final des phrases présentées en même temps qu’un bruit de verbiage compétitif, aux rapports signal-sur-bruit de 0, +3 et +4 dB. La moyenne de la différence des scores obtenue entre les phrases HP et FP à chaque condition expérimentale de bruit était similaire entre les deux groupes. Ces résultats suggèrent que les enfants ayant un TTA ne se distinguent pas des enfants du groupe témoin au plan de la compétence cognitivo-linguistique. L’origine des difficultés d’écoute de la parole dans le bruit dans le cas de TTA serait de nature auditive. Toutefois, les résultats des analyses de groupe diffèrent de ceux des analyses individuelles. Les divers profils de difficultés d’écoute identifiés auprès de cette cohorte appuient l’importance de continuer les investigations afin de mieux comprendre l’origine des problèmes de perception de la parole dans le bruit dans le cas de TTA. En connaissant mieux la nature de ces difficultés, il sera possible d’identifier les stratégies d’intervention de réadaptation spécifiques et efficaces.
Resumo:
Cette recherche-action vise à déterminer par quels moyens les enseignants de français peuvent contribuer à favoriser le transfert de connaissances grammaticales en situation d’écriture chez leurs élèves de niveau secondaire. Nous avons d’abord constaté que, chez les élèves du secondaire en général, les accords sont plus facilement réussis en contexte d’exercice qu’en contexte de production écrite. Sur la base de propositions didactiques pertinentes concernant l’orthographe grammaticale et/ou le transfert de connaissances, propositions fondées notamment sur une approche inductive, centrée sur le questionnement de l’élève et sur l’analyse de phrases, nous avons conçu et élaboré une séquence didactique portant sur l’accord du participe passé employé avec être ou avec un verbe attributif. Dans un deuxième temps, nous l’avons mise à l’essai auprès d’un groupe d’élèves de troisième secondaire, puis nous en avons vérifié les effets à l’aide d’un prétest et d’un posttest composés respectivement d’un questionnaire, d’un exercice et d’une production écrite. Les résultats révélés par l’analyse des données démontrent l’efficacité de la série de cours. En effet, le taux moyen de réussite des accords en contexte d’exercice passe de 53% à 75%, alors que, pour les productions écrites, il est de 48% avant la série de cours contre 82% après. Les questionnaires recueillis nous portent à attribuer en partie cette forte augmentation du taux de réussite des accords en contexte de production écrite au bon déroulement du processus de transfert grâce au travail effectué en cours de séquence sur les connaissances conditionnelles.
Resumo:
Le présent projet vise à mieux comprendre les difficultés reliées à l’acquisition du subjonctif en français langue seconde chez les apprenants adultes. Nous tenterons plus particulièrement de déterminer les différents facteurs influant sur son acquisition. Nous présenterons dans un premier temps les théories de l’acquisition des langues, depuis ses débuts dans les années 50 jusqu’à aujourd’hui, afin de faire la lumière sur les différents facteurs impliqués dans l’acquisition d’une deuxième langue à l’âge adulte. Nous nous pencherons ensuite sur le cas spécifique du subjonctif en français. Dans la littérature, il est généralement accepté que ce mode est difficile à acquérir en raison de ses règles d’usage complexes et propres au français. Nous verrons par contre que certaines études contredisent le fait que le subjonctif se retrouve sous des formes complexes dans la langue parlée courante. Nous terminerons donc par une description du subjonctif et de ses règles d’usage. Cette description nous permettra de saisir le vaste éventail des emplois possibles et de le mettre, par la suite, en parallèle avec celui trouvé dans la langue parlée. Dans les deux dernières parties de ce travail, nous analyserons et discuterons des différents facteurs impliqués dans l’acquisition de ce mode. L’analyse de cinq études traitant du subjonctif en français langue première et seconde nous permettra d’abord de démontrer que, contrairement aux idées reçues dans la littérature, la complexité des règles d’usage du subjonctif n’affecte pas son acquisition. Nous verrons en fait que les occurrences du subjonctif en français parlé sont rares et leurs formes, relativement simples. Nous montrerons ensuite que la cause principale des difficultés d’acquisition est l’incapacité à remarquer facilement ce mode dans la langue cible en raison de sa faible fréquence et saillance, c'est-à-dire sa capacité à ressortir par rapport aux autres éléments de la phrase. Nous verrons également que le subjonctif s’acquiert tardivement parce que son développement dépend de celui des phrases complexes dans lesquelles il se trouve obligatoirement.
Resumo:
Les systèmes de traduction statistique à base de segments traduisent les phrases un segment à la fois, en plusieurs étapes. À chaque étape, ces systèmes ne considèrent que très peu d’informations pour choisir la traduction d’un segment. Les scores du dictionnaire de segments bilingues sont calculés sans égard aux contextes dans lesquels ils sont utilisés et les modèles de langue ne considèrent que les quelques mots entourant le segment traduit.Dans cette thèse, nous proposons un nouveau modèle considérant la phrase en entier lors de la sélection de chaque mot cible. Notre modèle d’intégration du contexte se différentie des précédents par l’utilisation d’un ppc (perceptron à plusieurs couches). Une propriété intéressante des ppc est leur couche cachée, qui propose une représentation alternative à celle offerte par les mots pour encoder les phrases à traduire. Une évaluation superficielle de cette représentation alter- native nous a montré qu’elle est capable de regrouper certaines phrases sources similaires même si elles étaient formulées différemment. Nous avons d’abord comparé avantageusement les prédictions de nos ppc à celles d’ibm1, un modèle couramment utilisé en traduction. Nous avons ensuite intégré nos ppc à notre système de traduction statistique de l’anglais vers le français. Nos ppc ont amélioré les traductions de notre système de base et d’un deuxième système de référence auquel était intégré IBM1.
Resumo:
Ce mémoire examine les questions à mouvement multiple en bulgare, en accordant une importance particulière aux mécanismes qui régissent l’ordre des syntagmes interrogatifs antéposés. Outre la présentation d’un phénomène linguistique complexe et très intéressant, l’étude propose un aperçu critique des hypothèses les plus importantes émises au fil des ans à propos des interrogatives multiples. Dans un premier temps, nous discutons des différentes approches renfermant l’idée que l’ordre des mots interrogatifs au début de la proposition dépend entièrement des règles syntaxiques. Ensuite, nous présentons les analyses qui tentent d’expliquer la problématique en faisant appel à des traits spécifiques des syntagmes Qu-, tels que [animé] ou [lié au discours]. Le rôle de la topicalisation et de la focalisation dans la formation des questions multiples, les projections fonctionnelles de la « périphérie gauche » en bulgare accueillant différents syntagmes, ainsi que la résomption comptent également parmi les sujets traités dans ce mémoire.
Resumo:
L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.
Resumo:
L’objectif principal de cette thèse est d’examiner et d’intervenir auprès des déficits de la mémoire de travail (MdeT) à l’intérieur de deux populations cliniques : la maladie d’Alzheimer (MA) et le trouble cognitif léger (TCL). La thèse se compose de trois articles empiriques. Le but de la première expérimentation était d’examiner les déficits de MdeT dans le vieillissement normal, le TCL et la MA à l’aide de deux versions de l’empan complexe : l’empan de phrases et l’empan arithmétique. De plus, l’effet de «l’oubli» (forgetting) a été mesuré en manipulant la longueur de l’intervalle de rétention. Les résultats aux tâches d’empan complexe indiquent que la MdeT est déficitaire chez les individus atteints de TCL et encore plus chez les gens ayant la MA. Les données recueillies supportent également le rôle de l’oubli à l’intérieur de la MdeT. L’augmentation de l’intervalle de rétention exacerbait le déficit dans la MA et permettait de prédire un pronostic négatif dans le TCL. L’objectif de la deuxième étude était d’examiner la faisabilité d’un programme d’entraînement cognitif à l’ordinateur pour la composante de contrôle attentionnel à l’intérieur de la MdeT. Cette étude a été réalisée auprès de personnes âgées saines et de personnes âgées avec TCL. Les données de cette expérimentation ont révélé des effets positifs de l’entraînement pour les deux groupes de personnes. Toutefois, l’absence d’un groupe contrôle a limité l’interprétation des résultats. Sur la base de ces données, la troisième expérimentation visait à implémenter une étude randomisée à double-insu avec groupe contrôle d’un entraînement du contrôle attentionnel chez des personnes TCL avec atteinte exécutive. Ce protocole impliquait un paradigme de double-tâche composé d’une tâche de détection visuelle et d’une tâche de jugement alpha-arithmétique. Alors que le groupe contrôle pratiquait simplement la double-tâche sur six périodes d’une heure chacune, le groupe expérimental recevait un entraînement de type priorité variable dans lequel les participants devaient gérer leur contrôle attentionnel en variant la proportion de ressources attentionnelles allouée à chaque tâche. Les résultats montrent un effet significatif de l’intervention sur une des deux tâches impliquées (précision à la tâche de détection visuelle) ainsi qu’une tendance au transfert à une autre tâche d’attention divisée, mais peu d’effets de généralisation à d’autres tâches d’attention. En résumé, les données originales rapportées dans la présente thèse démontrent un déficit de la MdeT dans les maladies neurodégénératives liées à l’âge, avec un gradient entre le TCL et la MA. Elles suggèrent également une préservation de la plasticité des capacités attentionnelles chez les personnes à risque de développer une démence.
Resumo:
La version intégrale de ce mémoire est disponible uniquement pour consultation individuelle à la Bibliothèque de musique de l’Université de Montréal (http://www.bib.umontreal.ca/MU).
Resumo:
Ce mémoire est un des segments d'une recherche de plus grande envergure sur le service Info-Santé, et qui se déroule au Centre de Santé et de Services sociaux de Laval.
Resumo:
Les logiciels de correction grammaticale commettent parfois des détections illégitimes (fausses alertes), que nous appelons ici surdétections. La présente étude décrit les expériences de mise au point d’un système créé pour identifier et mettre en sourdine les surdétections produites par le correcteur du français conçu par la société Druide informatique. Plusieurs classificateurs ont été entraînés de manière supervisée sur 14 types de détections faites par le correcteur, en employant des traits couvrant di-verses informations linguistiques (dépendances et catégories syntaxiques, exploration du contexte des mots, etc.) extraites de phrases avec et sans surdétections. Huit des 14 classificateurs développés sont maintenant intégrés à la nouvelle version d’un correcteur commercial très populaire. Nos expériences ont aussi montré que les modèles de langue probabilistes, les SVM et la désambiguïsation sémantique améliorent la qualité de ces classificateurs. Ce travail est un exemple réussi de déploiement d’une approche d’apprentissage machine au service d’une application langagière grand public robuste.