55 resultados para Alignement de phrases
em Université de Montréal, Canada
Resumo:
La traduction statistique requiert des corpus parallèles en grande quantité. L’obtention de tels corpus passe par l’alignement automatique au niveau des phrases. L’alignement des corpus parallèles a reçu beaucoup d’attention dans les années quatre vingt et cette étape est considérée comme résolue par la communauté. Nous montrons dans notre mémoire que ce n’est pas le cas et proposons un nouvel aligneur que nous comparons à des algorithmes à l’état de l’art. Notre aligneur est simple, rapide et permet d’aligner une très grande quantité de données. Il produit des résultats souvent meilleurs que ceux produits par les aligneurs les plus élaborés. Nous analysons la robustesse de notre aligneur en fonction du genre des textes à aligner et du bruit qu’ils contiennent. Pour cela, nos expériences se décomposent en deux grandes parties. Dans la première partie, nous travaillons sur le corpus BAF où nous mesurons la qualité d’alignement produit en fonction du bruit qui atteint les 60%. Dans la deuxième partie, nous travaillons sur le corpus EuroParl où nous revisitons la procédure d’alignement avec laquelle le corpus Europarl a été préparé et montrons que de meilleures performances au niveau des systèmes de traduction statistique peuvent être obtenues en utilisant notre aligneur.
Resumo:
Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique.
Resumo:
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
Ce mémoire de maîtrise propose une séquence didactique travaillant l’enchaînement de phrases par subordination et coordination en vue de favoriser le transfert de connaissances grammaticales en situation de production écrite. Nous avons d’abord fait ressortir que les élèves apprennent et revoient diverses règles de grammaire, mais qu’ils ont une grande difficulté à transférer ces connaissances en contexte d’écriture. Plusieurs chercheurs soulignent la pertinence de décloisonner l’enseignement de la grammaire et de l’écriture (Paret, 1992; Chartrand, 2003; Bilodeau, 2005) pour favoriser le transfert, notamment au moyen de la démarche active de découverte (Chartrand, 1996). Nous nous sommes intéressée à la syntaxe de la phrase, plus précisément à la construction de phrases complexes par enchaînement. Nous considérons les notions grammaticales qui en découlent difficiles pour plusieurs élèves et nous constatons que cet enseignement se fait peu fréquemment et souvent de manière magistrale, sans travailler l’écriture en parallèle. Nous avons donc élaboré une séquence didactique travaillant ces concepts grammaticaux, tout en ayant en tête de favoriser le transfert des notions grammaticales vers un contexte d’écriture. Nous avons ensuite mis à l’essai cette séquence dans un groupe de première secondaire et avons vérifié son efficacité à l’aide d’un prétest et d’un posttest (production écrite). Nous avons pu constater que la séquence didactique expérimentée dans le cadre de ce mémoire produit de bons résultats. Il y a une amélioration notable dans les enchaînements de phrases dans les textes produits par les élèves. Par contre, nous n’avons pas pu conclure que ceux-ci étaient significatifs d’un point de vue statistique. La séquence didactique semble toutefois aider les élèves, même les plus faibles, puisque les entretiens métagraphiques montrent qu’ils ont meilleure compréhension des enchaînements de phrases.
Resumo:
Communication présentée au congrès de l’ACFAS, Mai 2001
Resumo:
Comprend une bibliographie.
Resumo:
Cette thèse examine le développement du langage des enfants sourds qui ont reçu un implant cochléaire (IC) en bas âge. Une première étude rapporte une revue systématique qui avait pour but d’évaluer les connaissances actuelles concernant le développement du vocabulaire et de la grammaire chez les enfants qui ont reçu un IC avant l’âge de trois ans. Vingt-huit études ont été sélectionnées; une analyse descriptive de même qu’une méta-analyse ont été effectuées séparément pour chaque aspect du langage évalué (vocabulaire et grammaire, aspect réceptif et expressif). Au résultat, en dépit de la variabilité observée dans les études, il appert que l’implant cochléaire influence positivement le développement langagier; toutefois, seule une minorité de participants aux études a atteint des niveaux de langage comparables à ceux d’enfants entendants de même âge chronologique. La majorité des enfants continuent de présenter divers degrés de retard de langage, tant au plan réceptif qu’expressif, et ce, après jusqu’à cinq années de port de l’appareil. Les résultats suggèrent aussi, malgré la variabilité observée dans les études, que les bénéfices langagiers sont influencés par le fait de recevoir l’implant à deux ans plutôt qu’à trois ans. À partir des tendances retrouvées dans la littérature, les habiletés de vocabulaire et de grammaire chez 27 enfants qui ont reçu l’implant cochléaire en bas âge (entre 8 et 28 mois) ont été comparées avec celles d’un groupe d’enfants entendants, en utilisant des outils d’évaluation standardisés. Alors que les résultats de groupe montrent que les enfants qui reçoivent un IC autour de l’âge de deux ans atteignent des niveaux de langage dans les limites de la normale, les résultats individuels d’un sous-groupe formé de enfants les plus âgés font état de quatre profils de développement, soit des niveaux de langage dans les limites de la normale pour l’ensemble des composantes, un retard généralisé à l’ensemble des composantes, des habiletés lexicales dans la norme assorti d’un retard morphosyntaxique et enfin un profil atypique montrant des disparités importantes à travers les composantes du langage. Dans trois des quatre profils, la compréhension des phrases était particulièrement faible. Ces résultats suggèrent que le fait de recevoir un implant cochléaire entre l’âge d’un et deux ans ne garantit pas l’atteinte de niveaux de langage dans les limites de la normale malgré une expérience de port de l’appareil d’une durée appréciable. Une étape antérieure du développement linguistique a été examinée de plus près dans la troisième étude. La taille et la composition du vocabulaire expressif de onze enfants ayant reçu un IC à un âge moyen de 15 mois ont été comparées à celles de l’échantillon d’enfants entendants ayant servi à établir les normes en français québécois pour le questionnaire Mots et énoncés des Inventaires MacArthur-Bates du développement de la communication (IMBDC). Les scores d’âge équivalent selon la taille totale du vocabulaire des enfants avec IC étaient supérieurs à l’âge auditif (correspondant à la durée de port de l’appareil) mais inférieurs à l’âge chronologique. La représentation grammaticale en fonction de la taille du vocabulaire des enfants avec IC suit la tendance observée dans la norme. Ces résultats suggèrent que le profil lexical des enfants avec implant est très similaire à celui des enfants entendants lorsque le nombre total de mots acquis est le même. Les résultats de cette thèse suggèrent que l’implant peut, de manière générale, avoir un effet « normalisant » sur le langage ; toutefois, il semble que l’amélioration de l’accès auditif ne suffise pas pour rattraper à coup sûr le niveau de langage des pairs entendants dans l’ensemble des composantes du langage. Alors que les habiletés lexicales se rapprochent du profil typique, les habiletés de compréhension morphosyntaxique sont fortement atteintes chez une majorité d’enfants, suggérant un profil apparenté à un trouble de langage.
Resumo:
Comprend une bibliographie.
Resumo:
Il est bien connu que les enfants qui présentent un trouble de traitement auditif (TTA) ont de la difficulté à percevoir la parole en présence de bruit de fond. Cependant, il n’existe aucun consensus quant à l’origine de ces difficultés d’écoute. Ce programme de recherche est consacré à l’étude des incapacités sous-jacentes aux problèmes de perception de la parole dans le bruit chez les enfants présentant un TTA. Le Test de Phrases dans le Bruit (TPB) a été développé afin d’examiner si les difficultés de perception de la parole dans le bruit d’enfants ayant un TTA relèvent d’incapacités auditives, d’incapacités cognitivo-linguistiques ou des deux à la fois. Il comprend cinq listes de 40 phrases, composées de 20 phrases hautement prévisibles (HP) et de 20 phrases faiblement prévisibles (FP), de même qu’un bruit de verbiage. Le niveau de connaissance du mot clé (mot final) de chaque phrase a été vérifié auprès d’un groupe d’enfants âgés entre 5 et 7 ans. De plus, le degré d’intelligibilité des phrases dans le bruit et le niveau de prévisibilité ont été mesurées auprès d’adultes pour assurer l’équivalence entre les listes. Enfin, le TPB a été testé auprès d’un groupe de 15 adultes et d’un groupe de 69 enfants sans trouble auditif avant de l’administrer à des enfants ayant un TTA. Pour répondre à l’objectif général du programme de recherche, dix enfants présentant un TTA (groupe TTA) et dix enfants jumelés selon le genre et l’âge sans difficulté auditive (groupe témoin) ont été soumis aux listes de phrases du TPB selon différentes conditions sonores. Le groupe TTA a obtenu des performances significativement plus faibles comparativement au groupe témoin à la tâche de reconnaissance du mot final des phrases présentées en même temps qu’un bruit de verbiage compétitif, aux rapports signal-sur-bruit de 0, +3 et +4 dB. La moyenne de la différence des scores obtenue entre les phrases HP et FP à chaque condition expérimentale de bruit était similaire entre les deux groupes. Ces résultats suggèrent que les enfants ayant un TTA ne se distinguent pas des enfants du groupe témoin au plan de la compétence cognitivo-linguistique. L’origine des difficultés d’écoute de la parole dans le bruit dans le cas de TTA serait de nature auditive. Toutefois, les résultats des analyses de groupe diffèrent de ceux des analyses individuelles. Les divers profils de difficultés d’écoute identifiés auprès de cette cohorte appuient l’importance de continuer les investigations afin de mieux comprendre l’origine des problèmes de perception de la parole dans le bruit dans le cas de TTA. En connaissant mieux la nature de ces difficultés, il sera possible d’identifier les stratégies d’intervention de réadaptation spécifiques et efficaces.
Resumo:
Le droit de la propriété intellectuelle présente, depuis quelques années, un intérêt particulier à l'évolution de la recherche sur les plantes. Ceci s'est traduit, au plan international, par l'adoption de plusieurs instruments visant à assurer une meilleure protection des investissements consentis dans ce domaine. Il s'agit notamment de la Convention de l'UPOV, qui s'inscrit dans une logique de protection par la voie sui generis avec la possibilité de délivrance de certificat d'obtention végétale aux sélectionneurs; de l'Accord ADPIC, qui, en plus de recommander un système sui generis efficace, ouvre l'option de protection par brevet ou en définitive par le cumul des deux systèmes; de la Convention sur la Diversité Biologique (CDB) et du Traité de la FAO portant sur les ressources phytogénétiques pour l'alimentation et l'agriculture, qui, favorables aux deux précédentes formes de protection, demandent que soient prises en compte des considérations relatives aux droits souverains des pays sur leurs ressources végétales, au partage des bénéfices, etc. Au plan régional, on distingue, entre autres, l'initiative de l'Afrique, visant à assurer la protection des plantes suivant une logique partagée entre l'alignement sur les normes internationales existantes (Accord de Bangui) ou l'institution d'une autre législation originale qui reflète les réalités et préoccupations du continent (Loi modèle). Il apparaît donc qu'il existe plusieurs instruments pour cerner la même réalité. Ceci est forcément la source de quelques difficultés qui sont d'ordre conceptuel, socioéconomique, environnemental et juridique. Pour les pallier, il est important que certaines conditions soient satisfaites afin d'harmoniser les points de vue entre les différents acteurs concernés par la question et d'assurer une appropriation conséquente des instruments adoptés.
Resumo:
Cette recherche-action vise à déterminer par quels moyens les enseignants de français peuvent contribuer à favoriser le transfert de connaissances grammaticales en situation d’écriture chez leurs élèves de niveau secondaire. Nous avons d’abord constaté que, chez les élèves du secondaire en général, les accords sont plus facilement réussis en contexte d’exercice qu’en contexte de production écrite. Sur la base de propositions didactiques pertinentes concernant l’orthographe grammaticale et/ou le transfert de connaissances, propositions fondées notamment sur une approche inductive, centrée sur le questionnement de l’élève et sur l’analyse de phrases, nous avons conçu et élaboré une séquence didactique portant sur l’accord du participe passé employé avec être ou avec un verbe attributif. Dans un deuxième temps, nous l’avons mise à l’essai auprès d’un groupe d’élèves de troisième secondaire, puis nous en avons vérifié les effets à l’aide d’un prétest et d’un posttest composés respectivement d’un questionnaire, d’un exercice et d’une production écrite. Les résultats révélés par l’analyse des données démontrent l’efficacité de la série de cours. En effet, le taux moyen de réussite des accords en contexte d’exercice passe de 53% à 75%, alors que, pour les productions écrites, il est de 48% avant la série de cours contre 82% après. Les questionnaires recueillis nous portent à attribuer en partie cette forte augmentation du taux de réussite des accords en contexte de production écrite au bon déroulement du processus de transfert grâce au travail effectué en cours de séquence sur les connaissances conditionnelles.
Resumo:
Le présent projet vise à mieux comprendre les difficultés reliées à l’acquisition du subjonctif en français langue seconde chez les apprenants adultes. Nous tenterons plus particulièrement de déterminer les différents facteurs influant sur son acquisition. Nous présenterons dans un premier temps les théories de l’acquisition des langues, depuis ses débuts dans les années 50 jusqu’à aujourd’hui, afin de faire la lumière sur les différents facteurs impliqués dans l’acquisition d’une deuxième langue à l’âge adulte. Nous nous pencherons ensuite sur le cas spécifique du subjonctif en français. Dans la littérature, il est généralement accepté que ce mode est difficile à acquérir en raison de ses règles d’usage complexes et propres au français. Nous verrons par contre que certaines études contredisent le fait que le subjonctif se retrouve sous des formes complexes dans la langue parlée courante. Nous terminerons donc par une description du subjonctif et de ses règles d’usage. Cette description nous permettra de saisir le vaste éventail des emplois possibles et de le mettre, par la suite, en parallèle avec celui trouvé dans la langue parlée. Dans les deux dernières parties de ce travail, nous analyserons et discuterons des différents facteurs impliqués dans l’acquisition de ce mode. L’analyse de cinq études traitant du subjonctif en français langue première et seconde nous permettra d’abord de démontrer que, contrairement aux idées reçues dans la littérature, la complexité des règles d’usage du subjonctif n’affecte pas son acquisition. Nous verrons en fait que les occurrences du subjonctif en français parlé sont rares et leurs formes, relativement simples. Nous montrerons ensuite que la cause principale des difficultés d’acquisition est l’incapacité à remarquer facilement ce mode dans la langue cible en raison de sa faible fréquence et saillance, c'est-à-dire sa capacité à ressortir par rapport aux autres éléments de la phrase. Nous verrons également que le subjonctif s’acquiert tardivement parce que son développement dépend de celui des phrases complexes dans lesquelles il se trouve obligatoirement.
Resumo:
Les systèmes de traduction statistique à base de segments traduisent les phrases un segment à la fois, en plusieurs étapes. À chaque étape, ces systèmes ne considèrent que très peu d’informations pour choisir la traduction d’un segment. Les scores du dictionnaire de segments bilingues sont calculés sans égard aux contextes dans lesquels ils sont utilisés et les modèles de langue ne considèrent que les quelques mots entourant le segment traduit.Dans cette thèse, nous proposons un nouveau modèle considérant la phrase en entier lors de la sélection de chaque mot cible. Notre modèle d’intégration du contexte se différentie des précédents par l’utilisation d’un ppc (perceptron à plusieurs couches). Une propriété intéressante des ppc est leur couche cachée, qui propose une représentation alternative à celle offerte par les mots pour encoder les phrases à traduire. Une évaluation superficielle de cette représentation alter- native nous a montré qu’elle est capable de regrouper certaines phrases sources similaires même si elles étaient formulées différemment. Nous avons d’abord comparé avantageusement les prédictions de nos ppc à celles d’ibm1, un modèle couramment utilisé en traduction. Nous avons ensuite intégré nos ppc à notre système de traduction statistique de l’anglais vers le français. Nos ppc ont amélioré les traductions de notre système de base et d’un deuxième système de référence auquel était intégré IBM1.
Resumo:
Le mécanisme menant à des déformations structurales suivant le bombardement d'échantillons de a-Si d'un faisceau d'ions lourds et rapides est sujet de controverses. Nous nous sommes penchés sur l'hypothèse de la formation d'une zone liquide causée par la déposition d'énergie des ions incidents dans le contexte de la théorie du pic thermique. Des échantillons de silicium amorphe furent préparés dans le but d'observer les indices d'une transition de phase l-Si/a-Si suivant la déposition locale d'énergie sur le parcours d'un ion lourd énergétique dans le a-Si. Les échantillons furent implantés d'impuretés de Cu ou d'Ag avant d'être exposés à un faisceau d'ions Ag12+ de 70 MeV. L'utilisation de l'analyse GISAXS est projetée afin d'observer une concentration locale d'impuretés suivant leur ségrégation sur la trace de l'ion. Des masques d'implantation nanométriques d'oxide d'aluminium ont été fabriqués afin d'augmenter la sensibilité de l'analyse GISAXS et une méthode d'alignement de ces masques selon la direction du faisceau fut développée. Le bombardement d'échantillons au travers de ces masques a donné lieu à un réseau de sites d'impacts isolés presque équidistants.
Resumo:
L’évolution des protéines est un domaine important de la recherche en bioinformatique et catalyse l'intérêt de trouver des outils d'alignement qui peuvent être utilisés de manière fiable et modéliser avec précision l'évolution d'une famille de protéines. TM-Align (Zhang and Skolnick, 2005) est considéré comme l'outil idéal pour une telle tâche, en termes de rapidité et de précision. Par conséquent, dans cette étude, TM-Align a été utilisé comme point de référence pour faciliter la détection des autres outils d'alignement qui sont en mesure de préciser l'évolution des protéines. En parallèle, nous avons élargi l'actuel outil d'exploration de structures secondaires de protéines, Helix Explorer (Marrakchi, 2006), afin qu'il puisse également être utilisé comme un outil pour la modélisation de l'évolution des protéines.