73 resultados para Corpora (Linguistics)
Resumo:
Récemment, nous avons pu observer un intérêt grandissant pour l'application de l'analogie formelle à l'analyse morphologique. L'intérêt premier de ce concept repose sur ses parallèles avec le processus mental impliqué dans la création de nouveaux termes basée sur les relations morphologiques préexistantes de la langue. Toutefois, l'utilisation de ce concept reste tout de même marginale due notamment à son coût de calcul élevé.Dans ce document, nous présenterons le système à base de graphe Moranapho fondé sur l'analogie formelle. Nous démontrerons par notre participation au Morpho Challenge 2009 (Kurimo:10) et nos expériences subséquentes, que la qualité des analyses obtenues par ce système rivalise avec l'état de l'art. Nous analyserons aussi l'influence de certaines de ses composantes sur la qualité des analyses morphologiques produites. Nous appuierons les conclusions tirées de nos analyses sur des théories bien établies dans le domaine de la linguistique. Ceci nous permet donc de fournir certaines prédictions sur les succès et les échecs de notre système, lorsqu'appliqué à d'autres langues que celles testées au cours de nos expériences.
Resumo:
Cette étude porte sur les différentes formalisations du sens linguistique dans le cadre de la théorie Sens-Texte (TST) ; elle s’intéresse notamment à la représentation sémantique, la représentation la plus importante dans la modélisation du sens d’énoncés et d’unités lexicales de la langue. Cette étude a trois objectifs : premièrement, décrire trois formalisations de la représentation sémantique existant dans la TST – les réseaux sémantiques, les définitions lexicographiques et les définitions de la BDéf (des définitions très formalisées) ; deuxièmement, identifier les disparités et les décalages entre les formalisations choisies ; troisièmement, proposer des modifications aux formalisations existantes pour réduire au maximum ces disparités.
Resumo:
Cette thèse constitue une étude systématique du lexique du déné sųłiné, une langue athabaskane du nord-ouest canadien. Elle présente les définitions et les patrons de combinatoire syntaxique et lexicale de plus de 200 unités lexicales, lexèmes et phrasèmes, qui représentent une partie importante du vocabulaire déné sųłiné dans sept domaines: les émotions, le caractère humain, la description physique des entités, le mouvement des êtres vivants, la position des entités, les conditions atmospheriques et les formations topologiques, en les comparant avec le vocubulaire équivalent de l'anglais. L’approche théorique choisie est la Théorie Sens-Texte (TST), une approche formelle qui met l’accent sur la description sémantique et lexicographique empiriques. La présente recherche relève d'importantes différences entre le lexique du déné sųłiné et celui de l'anglais à tous les niveaux: dans la correspondence entre la représentation conceptuelle, considérée (quasi-)extralinguistique, et la structure sémantique; dans les patrons de lexicalisation des unités lexicales, et dans les patrons de combinatoire syntaxique et lexicale, qui montrent parfois des traits propres au déné sųłiné intéressants.
Resumo:
L’étude présente l’élaboration du premier outil d’évaluation normalisée du langage destiné aux enfants francophones d’âge préscolaire des pays africains qui se caractérisent par l’absence de services publics en orthophonie et la méconnaissance des retards de langage. En s’inspirant des techniques psychométriques langagières utilisées en Amérique du nord et en se basant sur les théories d’acquisition du langage, on a construit un outil appelé Batterie de tests de dépistage approfondi (BATEDA) qui compte onze tests répartis en trois sous-batteries évaluant respectivement l’intégrité des modalités de transmission du langage (BATEM), les composantes langagières (BATEL) et la mémoire verbale (TMV). A partir d’un échantillon de 159 enfants camerounais francophones, on a normalisé la batterie suivant la cote z et les rangs en centile. Les tests présentent une fiabilité inter-juge et intra-juge (p<0,05), une cohérence interne globale d’environ 96% (α de Cronbach=0,958) et une validité prédictive de la réussite scolaire des enfants (r=0,700). Les stratégies d’application de la BATEDA visent à favoriser la pratique du dépistage systématique et la prise en charge des retards de langage au Cameroun, en mettant à contribution les enseignants et les parents comme principaux intervenants. Les implications de cette étude sont de trois ordres : (1) une meilleure connaissance des difficultés langagières, la revalorisation des personnes atteintes et une attitude de vigilance sociale; (2) l’instauration de la pratique de dépistage précoce favorable à l’intervention; (3) une potentielle diminution du taux d’exclusion et d’abandon scolaire d’enfants présentant des retards langagiers à travers un enseignement ciblé en leur faveur.
Resumo:
Ce mémoire examine les questions à mouvement multiple en bulgare, en accordant une importance particulière aux mécanismes qui régissent l’ordre des syntagmes interrogatifs antéposés. Outre la présentation d’un phénomène linguistique complexe et très intéressant, l’étude propose un aperçu critique des hypothèses les plus importantes émises au fil des ans à propos des interrogatives multiples. Dans un premier temps, nous discutons des différentes approches renfermant l’idée que l’ordre des mots interrogatifs au début de la proposition dépend entièrement des règles syntaxiques. Ensuite, nous présentons les analyses qui tentent d’expliquer la problématique en faisant appel à des traits spécifiques des syntagmes Qu-, tels que [animé] ou [lié au discours]. Le rôle de la topicalisation et de la focalisation dans la formation des questions multiples, les projections fonctionnelles de la « périphérie gauche » en bulgare accueillant différents syntagmes, ainsi que la résomption comptent également parmi les sujets traités dans ce mémoire.
Resumo:
Ce mémoire porte sur les compétences et les sous-compétences en traduction et en interprétation et vise à dégager les convergences et les divergences entre les compétences requises dans les deux professions. L’étude pose comme hypothèse que la traduction et l’interprétation demandent des compétences et des sous-compétences spécifiques à chacune de ces activités. Sur le plan théorique, l’accent est mis sur la comparaison des éléments suivants : les définitions de traduction et interprétation, les codes d’éthique des associations, les programmes universitaires, les outils utilisés par les traducteurs et les interprètes et le métalangage des deux professions. Sur le plan expérimental, une enquête par questionnaire en ligne a été menée auprès des traducteurs et des interprètes professionnels dans le but de déterminer, dans la pratique, les points communs et les différences entre les deux professions. Les résultats montrent que les différences sont minimes et sont liées à l’aspect pratique de chacune des professions.
Resumo:
L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.
Resumo:
Ce mémoire présente une étude de la morphologie de ce qui est généralement appelé le pluriel nominal du persan (parler de Téhéran) dans le cadre d’une théorie de la morphologie basée sur le mot : Whole Word Morphology, développée par Ford et Singh (1991). Ce modèle lexicaliste adopte une position plus forte que les modèles proposés par Aronoff (1976) et Anderson (1992) en n’admettant aucune opération morphologique sur des unités plus petites que le mot. Selon cette théorie, une description morphologique consiste en l’énumération des Stratégies de Formation de Mots (SFM), licencées chacunes par au moins deux paires de mots ayant la même covariation formelle et sémantique. Tous les SFM suit le même schéma. Nous avons répertorié 49 SFM regroupant les pluriels et les collectifs. Nous constatons qu’il est difficile de saisir le pluriel nominal du persan en tant que catégorie syntaxique et que les différentes « marques du pluriel » présentées dans la littérature ne constituent pas un ensemble homogène : elles partagent toutes un sens de pluralité qui cependant varie d’une interprétation référentielle à une interprétation collective non-référentielle. Cette étude vise la déscription de la compétence morphologique, ce qui ne dépend d’aucune considération extralinguistique. Nous argumentons notamment contre la dichotomie arabe/persan généralement admise dans la littérature. Nous avons également fourni des explications quant à la production des pluriels doubles et avons discuté de la variation supposée du fait d’un choix multiple de « marques du pluriel ».
Resumo:
Thèse réalisée en cotutelle avec l’Université Charles-de-Gaulle – Lille-3 pour l'obtention du diplôme de doctorat en Langue et littérature françaises.
Resumo:
Le présent travail est encadré dans le domaine de la linguistique appliquée de l'espagnol comme langue étrangère (ELE), et plus spécifiquement dans l'enseignement du genre grammatical en ELE. Notre intérêt en tant que enseignants c’est de pouvoir établir une méthode fiable selon les critères du Plan curricular de l'Institut Cervantès et la technique du consciousness-raising, ainsi que élaborer des activités destinées à l'enseignement du genre grammatical dans la classe d’ELE. L'enseignement d'ELE au Québec suit les mêmes méthodes qu'en Europe. En ce qui concerne l'enseignement du genre grammatical, les études consultées ratifient le manque d'instruction pertinente à propos du genre grammatical, ainsi que la difficulté dans la concordance même dans des niveaux avancés. Cependant, l'analyse de manuels d'ELE utilisés dans les diverses institutions de Montréal permet de conclure que ceux-ci ne suivent pas les règles établies par le Plan curricular en ce qui concerne l'enseignement du genre. Pour vérifier ces faits un travail de champ a été mis en place avec 84 étudiants et étudiantes de six institutions de Montréal pendant deux mois et deux semaines. Les résultats de la recherche et l'analyse d'erreurs nous montrent qu’il y a des problèmes avec le genre grammatical chez les étudiants de niveau intermédiaire et que les erreurs ne disparaissent pas avec les activités de renfort créées. Il est donc nécessaire d’adopter une méthode plus appropriée à l'apprentissage du genre grammatical dans une classe d’ELE et la présence du professeur pour la présenter. En effet, l'exécution d'activités créées n'est pas suffisant, car bien que les résultats montrent un léger progrès dans le cas du groupe B, ou d’expérience, en comparaison au groupe A, ou de control, on a constaté qu’une instruction formelle aurait entrainé un meilleur et plus complet apprentissage du genre grammatical dans le cas de nos étudiants; de là la nécessité d'établir une méthode fiable pour son enseignement.
Resumo:
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal.
Resumo:
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal.
Resumo:
Brown (1973) a proposé la « longueur moyenne des énoncés » (LME) comme indice standard du développement langagier. La LME se calcule selon le nombre moyen de morphèmes dans 100 énoncés de parole spontanée. L’hypothèse sous-jacente à cet indice est que la complexité syntaxique croît avec le nombre de morphèmes dans les énoncés. Selon Brown, l’indice permet d’estimer le développement d’une « compétence grammaticale » jusqu’à environ quatre morphèmes. Certains auteurs ont toutefois critiqué le manque de fiabilité de la LME et la limite de quatre morphèmes. Des rapports démontrent des variations de la LME avec l’âge, ce qui suggère que des facteurs comme la croissance des capacités respiratoires peuvent influencer l’indice de Brown. La présente étude fait état de ces problèmes et examine comment la LME et certaines mesures de diversité lexicale varient selon le développement des capacités respiratoires. On a calculé la LME et la diversité lexicale dans la parole spontanée de 50 locuteurs mâles âgés de 5 à 27 ans. On a également mesuré, au moyen d’un pneumotachographe, la capacité vitale (CV) des locuteurs. Les résultats démontrent que la LME et des mesures de diversité lexicale corrèlent fortement avec la croissance de la CV. Ainsi, la croissance des fonctions respiratoires contraint le développement morphosyntaxique et lexical. Notre discussion fait valoir la nécessité de réévaluer l’indice de la LME et la conception « linguistique » du développement langagier comme une compétence mentale qui émerge séparément de la croissance des structures de performance.
Criteria for the validation of specialized verb equivalents : application in bilingual terminography
Resumo:
Multilingual terminological resources do not always include valid equivalents of legal terms for two main reasons. Firstly, legal systems can differ from one language community to another and even from one country to another because each has its own history and traditions. As a result, the non-isomorphism between legal and linguistic systems may render the identification of equivalents a particularly challenging task. Secondly, by focusing primarily on the definition of equivalence, a notion widely discussed in translation but not in terminology, the literature does not offer solid and systematic methodologies for assigning terminological equivalents. As a result, there is a lack of criteria to guide both terminologists and translators in the search and validation of equivalent terms. This problem is even more evident in the case of predicative units, such as verbs. Although some terminologists (L‘Homme 1998; Lerat 2002; Lorente 2007) have worked on specialized verbs, terminological equivalence between units that belong to this part of speech would benefit from a thorough study. By proposing a novel methodology to assign the equivalents of specialized verbs, this research aims at defining validation criteria for this kind of predicative units, so as to contribute to a better understanding of the phenomenon of terminological equivalence as well as to the development of multilingual terminography in general, and to the development of legal terminography, in particular. The study uses a Portuguese-English comparable corpus that consists of a single genre of texts, i.e. Supreme Court judgments, from which 100 Portuguese and 100 English specialized verbs were selected. The description of the verbs is based on the theory of Frame Semantics (Fillmore 1976, 1977, 1982, 1985; Fillmore and Atkins 1992), on the FrameNet methodology (Ruppenhofer et al. 2010), as well as on the methodology for compiling specialized lexical resources, such as DiCoInfo (L‘Homme 2008), developed in the Observatoire de linguistique Sens-Texte at the Université de Montréal. The research reviews contributions that have adopted the same theoretical and methodological framework to the compilation of lexical resources and proposes adaptations to the specific objectives of the project. In contrast to the top-down approach adopted by FrameNet lexicographers, the approach described here is bottom-up, i.e. verbs are first analyzed and then grouped into frames for each language separately. Specialized verbs are said to evoke a semantic frame, a sort of conceptual scenario in which a number of mandatory elements (core Frame Elements) play specific roles (e.g. ARGUER, JUDGE, LAW), but specialized verbs are often accompanied by other optional information (non-core Frame Elements), such as the criteria and reasons used by the judge to reach a decision (statutes, codes, previous decisions). The information concerning the semantic frame that each verb evokes was encoded in an xml editor and about twenty contexts illustrating the specific way each specialized verb evokes a given frame were semantically and syntactically annotated. The labels attributed to each semantic frame (e.g. [Compliance], [Verdict]) were used to group together certain synonyms, antonyms as well as equivalent terms. The research identified 165 pairs of candidate equivalents among the 200 Portuguese and English terms that were grouped together into 76 frames. 71% of the pairs of equivalents were considered full equivalents because not only do the verbs evoke the same conceptual scenario but their actantial structures, the linguistic realizations of the actants and their syntactic patterns were similar. 29% of the pairs of equivalents did not entirely meet these criteria and were considered partial equivalents. Reasons for partial equivalence are provided along with illustrative examples. Finally, the study describes the semasiological and onomasiological entry points that JuriDiCo, the bilingual lexical resource compiled during the project, offers to future users.
Resumo:
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal