959 resultados para Lexical units
Resumo:
Cette étude porte sur les différentes formalisations du sens linguistique dans le cadre de la théorie Sens-Texte (TST) ; elle s’intéresse notamment à la représentation sémantique, la représentation la plus importante dans la modélisation du sens d’énoncés et d’unités lexicales de la langue. Cette étude a trois objectifs : premièrement, décrire trois formalisations de la représentation sémantique existant dans la TST – les réseaux sémantiques, les définitions lexicographiques et les définitions de la BDéf (des définitions très formalisées) ; deuxièmement, identifier les disparités et les décalages entre les formalisations choisies ; troisièmement, proposer des modifications aux formalisations existantes pour réduire au maximum ces disparités.
Resumo:
Cette thèse constitue une étude systématique du lexique du déné sųłiné, une langue athabaskane du nord-ouest canadien. Elle présente les définitions et les patrons de combinatoire syntaxique et lexicale de plus de 200 unités lexicales, lexèmes et phrasèmes, qui représentent une partie importante du vocabulaire déné sųłiné dans sept domaines: les émotions, le caractère humain, la description physique des entités, le mouvement des êtres vivants, la position des entités, les conditions atmospheriques et les formations topologiques, en les comparant avec le vocubulaire équivalent de l'anglais. L’approche théorique choisie est la Théorie Sens-Texte (TST), une approche formelle qui met l’accent sur la description sémantique et lexicographique empiriques. La présente recherche relève d'importantes différences entre le lexique du déné sųłiné et celui de l'anglais à tous les niveaux: dans la correspondence entre la représentation conceptuelle, considérée (quasi-)extralinguistique, et la structure sémantique; dans les patrons de lexicalisation des unités lexicales, et dans les patrons de combinatoire syntaxique et lexicale, qui montrent parfois des traits propres au déné sųłiné intéressants.
Resumo:
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Resumo:
Princeton WordNet (WN.Pr) lexical database has motivated efficient compilations of bulky relational lexicons since its inception in the 1980's. The EuroWordNet project, the first multilingual initiative built upon WN.Pr, opened up ways of building individual wordnets, and interrelating them by means of the so-called Inter-Lingual-Index, an unstructured list of the WN.Pr synsets. Other important initiative, relying on a slightly different method of building multilingual wordnets, is the MultiWordNet project, where the key strategy is building language specific wordnets keeping as much as possible of the semantic relations available in the WN.Pr. This paper, in particular, stresses that the additional advantage of using WN.Pr lexical database as a resource for building wordnets for other languages is to explore possibilities of implementing an automatic procedure to map the WN.Pr conceptual relations as hyponymy, co-hyponymy, troponymy, meronymy, cause, and entailment onto the lexical database of the wordnet under construction, a viable possibility, for those are language-independent relations that hold between lexicalized concepts, not between lexical units. Accordingly, combining methods from both initiatives, this paper presents the ongoing implementation of the WN.Br lexical database and the aforementioned automation procedure illustrated with a sample of the automatic encoding of the hyponymy and co-hyponymy relations.
Resumo:
The lexicon is the cultural heritage of a people. It is composed by the linguistic and extra-linguistic experience gained over the years and consists of different systems, among them the lexical set of colors that has collaborated on lexical expansion in common discourse as well as in specialized discourse, providing the interaction and equilibrium among the different levels of specialization of discourse. This work aims at talking about the role of the field of colors in formation of new lexical units in Botany and Zoology, as well as its performance in the intersection between the common and specialized discourse.
Resumo:
Esta tese, com o intuito de contribuir para uma reflexão em torno da história da formação da língua portuguesa no Brasil, propõe como objetivo geral realizar um estudo do léxico no município de Cáceres-MT, tendo como base a discussão sobre manutenção, tendência à manutenção, desuso, tendência ao desuso e neologismo semântico de unidades lexicais extraídas de um manuscrito oitocentista. Os objetivos específicos são os seguintes: (i) compreender a história social da Capitania de Mato Grosso e do município de Cáceres, a partir das informações constantes no manuscrito Memoria, e aspectos que envolvam as condições de produção do documento e a biografia do autor; (ii) levantar o léxico do manuscrito, com recorte nos substantivos e adjetivos para servir de base na seleção das unidades lexicais a serem testadas in loco, e investigar a acepção registrada no documento das unidades lexicais, caracterizando, assim, o léxico do período oitocentista; (iii), fazer um cotejo lexicográfico abrangendo dicionários gerais dos séculos XVIII ao XXI; (iv) testar e identificar, a partir do corpus oral constituído por meio de pesquisa de campo na região urbana cacerense, o grau de manutenção, tendência à manutenção, desuso, tendência ao desuso e neologismo semântico em relação às unidades lexicais e suas respectivas acepções registradas no manuscrito. Dessa forma, toma-se como corpus de língua escrita de análise o manuscrito oitocentista Memoria sobre o plano de guerra offensiva e deffensiva da Capitania de Matto Grosso e, a partir das unidades lexicais selecionadas e extraídas dele, realizou-se a pesquisa de campo para o recolhimento do corpus de língua oral. Antes dessa recolha, tendo como base teórico-metodológica as disciplinas de Dialetologia e de Geolinguística, selecionou-se a localidade (município de Cáceres - MT) e os informantes (total de dezesseis); elaborou-se o questionário semântico-lexical, considerando fundamentalmente a proposta apresentada pelo Comitê Nacional do Projeto ALiB (2001); e realizou-se a pesquisa de campo e as transcrições das entrevistas. Para análise de natureza semântico-lexical dos corpora, recorreu aos estudos lexicográficos e lexicológicos. Tomando por base os resultados do estudo realizado, constatou-se que na realidade linguística do informante cacerense encontram-se unidades que já integravam o léxico oitocentista da língua portuguesa escrita no Brasil, ou seja, há uma memória semântico-lexical que se mantém no sistema lexical, provavelmente, devido às condições sócioculturais do município de Cáceres, Mato Grosso, cuja população, em grande parte, por quase duzentos anos, viveu na área rural. Todavia, vislumbrou-se um certo equilíbrio entre a manutenção do léxico oitocentista sem deixar de lado a inovação e o mecanismo polissêmico constitutivo do léxico.
Resumo:
The automatic acquisition of lexical associations from corpora is a crucial issue for Natural Language Processing. A lexical association is a recurrent combination of words that co-occur together more often than expected by chance in a given domain. In fact, lexical associations define linguistic phenomena such as idiomes, collocations or compound words. Due to the fact that the sense of a lexical association is not compositionnal, their identification is fundamental for the realization of analysis and synthesis that take into account all the subtilities of the language. In this report, we introduce a new statistically-based architecture that extracts from naturally occurring texts contiguous and non contiguous. For that purpose, three new concepts have been defined : the positional N-gram models, the Mutual Expectation and the GenLocalMaxs algorithm. Thus, the initial text is fisrtly transformed in a set of positionnal N-grams i.e ordered vectors of simple lexical units. Then, an association measure, the Mutual Expectation, evaluates the degree of cohesion of each positional N-grams based on the identification of local maximum values of Mutual Expectation. Great efforts have also been carried out to evaluate our metodology. For that purpose, we have proposed the normalisation of five well-known association measures and shown that both the Mutual Expectation and the GenLocalMaxs algorithm evidence significant improvements comparing to existent metodologies.
Resumo:
No contexto de internacionalização de hoje, acompanhando os contactos cada vez mais intensos entre o mundo chinês e o mundo lusófono, é exigida a maior atenção à questão da lexicultura na comunicação interlingual e intercultural, pois o que preocupa as partes envolvidas não é apenas descodificar os signos meramente linguísticos, mas também perceber a cultura que a língua, nomeadamente as unidades lexicais transportam, visando um comportamento culturalmente correto e adequado nessa comunicação. Partindo desta preocupação, este trabalho tenta, através da abordagem e análise da língua, da escrita e do léxico chineses, comprovar que o chinês, devido às suas peculiaridades inexistentes em outras línguas do mundo, constitui o vivo exemplo que exemplifica e alarga o conceito de lexicultura, pois a própria língua, sobretudo a sua escrita e as suas unidades lexicais, além de refletirem a cultura popular e partilhada, também contam verdadeiras histórias da Humanidade e da China. Baseando-se nesta abordagem e análise, a tese apresenta um novo modelo de dicionário cultural chinês-português, com propostas concretas de seleção de vedetas para a sua macroestrutura e de definição de vedetas na sua microestrutura, ao serviço da comunicação entre os dois mundos em questão.
Resumo:
Lexical diversity measures are notoriously sensitive to variations of sample size and recent approaches to this issue typically involve the computation of the average variety of lexical units in random subsamples of fixed size. This methodology has been further extended to measures of inflectional diversity such as the average number of wordforms per lexeme, also known as the mean size of paradigm (MSP) index. In this contribution we argue that, while random sampling can indeed be used to increase the robustness of inflectional diversity measures, using a fixed subsample size is only justified under the hypothesis that the corpora that we compare have the same degree of lexematic diversity. In the more general case where they may have differing degrees of lexematic diversity, a more sophisticated strategy can and should be adopted. A novel approach to the measurement of inflectional diversity is proposed, aiming to cope not only with variations of sample size, but also with variations of lexematic diversity. The robustness of this new method is empirically assessed and the results show that while there is still room for improvement, the proposed methodology considerably attenuates the impact of lexematic diversity discrepancies on the measurement of inflectional diversity.
Resumo:
Département de linguistique et de traduction
Resumo:
Département de linguistique et de traduction
Resumo:
L'amélioration de la maitrise du français langue première chez les élèves du primaire au Québec dépend de plusieurs facteurs. L'enseignant peut jouer un rôle dans ce processus, sa formation universitaire lui fournissant les connaissances nécessaires afin d'encadrer le développement des compétences langagières de l'élève. Une de ces compétences joue un rôle privilégié dans l'utilisation et la maitrise de la langue, il s'agit de la compétence lexicale, la capacité à comprendre et à utiliser les unités du lexique, aussi bien à l'oral qu'à l'écrit. Afin d'encadrer le développement de la compétence lexicale en français langue première des élèves du primaire, les enseignants doivent eux-mêmes posséder un bon niveau de compétence lexicale, mais aussi détenir un certain nombre de connaissances sur le fonctionnement du lexique lui-même, c'est-à-dire des connaissances métalexicales. Le référentiel québécois de la profession enseignante (MEQ, 2001b) ne détaille pas les connaissances métalexicales que doit posséder l'enseignant pour mener les tâches associées à ses activités d'enseignement/apprentissage du lexique. En outre, la plupart des universités québécoises n'offrent pas de cours dédiés explicitement à la didactique du lexique. Pourtant, ce sont dans les cours de didactique que sont dispensées les connaissances théoriques et pratiques nécessaires au futur enseignant pour assumer les tâches de planification et de pilotage des activités d'apprentissage et d'évaluation des compétences des élèves. La relative absence de cours de didactique du lexique en formation initiale pourrait s'expliquer par le fait qu'il s'agit d'une discipline encore jeune dont les fondements théoriques et pratiques sont en cours de développement. Cette thèse en didactique du français langue première s’intéresse donc aux contenus linguistiques de référence de la didactique du lexique, ainsi qu’à la formation des maitres au primaire dans cette même discipline. Le travail de recherche effectué afin de tenter de remédier au problème soulevé a permis la réalisation de deux objectifs complémentaires. Le premier a consisté en la construction d’une ontologie des savoirs lexicologiques, qui permet de représenter à l’intérieur d’une hiérarchie de notions l’ensemble des connaissances disciplinaires de référence de la didactique du lexique. Cette représentation a ensuite été utilisée pour spécifier et structurer les contenus d’un module de cours en didactique du lexique visant le développement des connaissances métalexicales chez les futurs enseignants du primaire au Québec. L’ontologie et le module de cours produits ont été évalués et validés par des experts de chacun des domaines concernés. L’évaluation de l’ontologie a permis de vérifier la méthode de construction de celle-ci, ainsi que différents aspects relatifs à la structuration des concepts dans l’ontologie. L’évaluation du module de cours a quant à elle montré que les contenus de cours étaient pertinents, les méthodes pédagogiques employées appropriées et le matériel de cours développé bien conçu. Cela nous permet d'affirmer que le module de cours en didactique du lexique se présente comme un apport intéressant à la formation des futurs enseignants du primaire en français langue première au Québec. La recherche dans son ensemble présente enfin une contribution pertinente à la didactique du lexique, son caractère original résidant entre autres dans le fait d’avoir développé un mécanisme d’exploitation d’une base de connaissances (ontologie des savoirs lexicologiques) pour la conception didactique (module de cours en didactique du lexique).
Resumo:
L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.
Resumo:
Cette recherche porte sur l’interface entre la sémantique lexicale et la syntaxe, et elle s’inscrit dans le cadre du projet de base lexicale DiCo (acronyme pour Dictionnaire de combinatoire) à l’Observatoire de Linguistique Sens-Texte [OLST] de l’Université de Montréal. Le projet découle d'une volonté d'inscrire de façon concise et complète, à même le dictionnaire, le comportement syntaxique typique à chaque unité lexicale. Dans cette optique, nous encodons la cooccurrence des lexies nominales du DiCo avec leurs actants à l'intérieur d'un tableau de régime lexical (aussi connu sous le nom de schéma valenciel, structure argumentale, cadre de sous-catégorisation, structure prédicats-arguments, etc.), en notant entre autres les dépendances syntaxiques de surface impliquées. Dans ce mémoire, nous présentons les propriétés syntaxiques d'une dépendance nominale du français, celle que nous avons nommée attributive adnominale, de façon à exposer une méthodologie d'identification et de caractérisation des dépendances syntaxiques de surface. Nous donnons également la liste des dépendances nominales régies identifiées au cours de ce travail. Par la suite, nous exposons la création d'une base de données de régimes généralisés du français nommée CARNAVAL. Finalement, nous discutons des applications possibles de notre travail, particulièrement en ce qui a trait à la création d'une typologie des régimes lexicaux du français.
Resumo:
Almost all texts contain some complex lexical units, belonging to the phraseology of the language of a specialized field or of the general language. The translator must first identify this phraseologism, and then understand its meaning. However, it is not enough to propose an explanation in the target language: the translator has to establish its phraseologically equivalent lexical unit in meaning and in phraseological formulations.