15 resultados para Lexical Resources

em Université de Montréal, Canada


Relevância:

60.00% 60.00%

Publicador:

Resumo:

L’annotation en rôles sémantiques est une tâche qui permet d’attribuer des étiquettes de rôles telles que Agent, Patient, Instrument, Lieu, Destination etc. aux différents participants actants ou circonstants (arguments ou adjoints) d’une lexie prédicative. Cette tâche nécessite des ressources lexicales riches ou des corpus importants contenant des phrases annotées manuellement par des linguistes sur lesquels peuvent s’appuyer certaines approches d’automatisation (statistiques ou apprentissage machine). Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que PropBank, VerbNet et FrameNet, qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais. Une ressource telle que FrameNet de l’anglais est plus que nécessaire pour les systèmes d’annotation automatisé et l’annotation manuelle de milliers de phrases par des linguistes est une tâche fastidieuse et exigeante en temps. Nous avons proposé dans cette thèse un système automatique pour aider les linguistes dans cette tâche qui pourraient alors se limiter à la validation des annotations proposées par le système. Dans notre travail, nous ne considérons que les verbes qui sont plus susceptibles que les noms d’être accompagnés par des actants réalisés dans les phrases. Ces verbes concernent les termes de spécialité d’informatique et d’Internet (ex. accéder, configurer, naviguer, télécharger) dont la structure actancielle est enrichie manuellement par des rôles sémantiques. La structure actancielle des lexies verbales est décrite selon les principes de la Lexicologie Explicative et Combinatoire, LEC de Mel’čuk et fait appel partiellement (en ce qui concerne les rôles sémantiques) à la notion de Frame Element tel que décrit dans la théorie Frame Semantics (FS) de Fillmore. Ces deux théories ont ceci de commun qu’elles mènent toutes les deux à la construction de dictionnaires différents de ceux issus des approches traditionnelles. Les lexies verbales d’informatique et d’Internet qui ont été annotées manuellement dans plusieurs contextes constituent notre corpus spécialisé. Notre système qui attribue automatiquement des rôles sémantiques aux actants est basé sur des règles ou classificateurs entraînés sur plus de 2300 contextes. Nous sommes limités à une liste de rôles restreinte car certains rôles dans notre corpus n’ont pas assez d’exemples annotés manuellement. Dans notre système, nous n’avons traité que les rôles Patient, Agent et Destination dont le nombre d’exemple est supérieur à 300. Nous avons crée une classe que nous avons nommé Autre où nous avons rassemblé les autres rôles dont le nombre d’exemples annotés est inférieur à 100. Nous avons subdivisé la tâche d’annotation en sous-tâches : identifier les participants actants et circonstants et attribuer des rôles sémantiques uniquement aux actants qui contribuent au sens de la lexie verbale. Nous avons soumis les phrases de notre corpus à l’analyseur syntaxique Syntex afin d’extraire les informations syntaxiques qui décrivent les différents participants d’une lexie verbale dans une phrase. Ces informations ont servi de traits (features) dans notre modèle d’apprentissage. Nous avons proposé deux techniques pour l’identification des participants : une technique à base de règles où nous avons extrait une trentaine de règles et une autre technique basée sur l’apprentissage machine. Ces mêmes techniques ont été utilisées pour la tâche de distinguer les actants des circonstants. Nous avons proposé pour la tâche d’attribuer des rôles sémantiques aux actants, une méthode de partitionnement (clustering) semi supervisé des instances que nous avons comparée à la méthode de classification de rôles sémantiques. Nous avons utilisé CHAMÉLÉON, un algorithme hiérarchique ascendant.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Multilingual terminological resources do not always include valid equivalents of legal terms for two main reasons. Firstly, legal systems can differ from one language community to another and even from one country to another because each has its own history and traditions. As a result, the non-isomorphism between legal and linguistic systems may render the identification of equivalents a particularly challenging task. Secondly, by focusing primarily on the definition of equivalence, a notion widely discussed in translation but not in terminology, the literature does not offer solid and systematic methodologies for assigning terminological equivalents. As a result, there is a lack of criteria to guide both terminologists and translators in the search and validation of equivalent terms. This problem is even more evident in the case of predicative units, such as verbs. Although some terminologists (L‘Homme 1998; Lerat 2002; Lorente 2007) have worked on specialized verbs, terminological equivalence between units that belong to this part of speech would benefit from a thorough study. By proposing a novel methodology to assign the equivalents of specialized verbs, this research aims at defining validation criteria for this kind of predicative units, so as to contribute to a better understanding of the phenomenon of terminological equivalence as well as to the development of multilingual terminography in general, and to the development of legal terminography, in particular. The study uses a Portuguese-English comparable corpus that consists of a single genre of texts, i.e. Supreme Court judgments, from which 100 Portuguese and 100 English specialized verbs were selected. The description of the verbs is based on the theory of Frame Semantics (Fillmore 1976, 1977, 1982, 1985; Fillmore and Atkins 1992), on the FrameNet methodology (Ruppenhofer et al. 2010), as well as on the methodology for compiling specialized lexical resources, such as DiCoInfo (L‘Homme 2008), developed in the Observatoire de linguistique Sens-Texte at the Université de Montréal. The research reviews contributions that have adopted the same theoretical and methodological framework to the compilation of lexical resources and proposes adaptations to the specific objectives of the project. In contrast to the top-down approach adopted by FrameNet lexicographers, the approach described here is bottom-up, i.e. verbs are first analyzed and then grouped into frames for each language separately. Specialized verbs are said to evoke a semantic frame, a sort of conceptual scenario in which a number of mandatory elements (core Frame Elements) play specific roles (e.g. ARGUER, JUDGE, LAW), but specialized verbs are often accompanied by other optional information (non-core Frame Elements), such as the criteria and reasons used by the judge to reach a decision (statutes, codes, previous decisions). The information concerning the semantic frame that each verb evokes was encoded in an xml editor and about twenty contexts illustrating the specific way each specialized verb evokes a given frame were semantically and syntactically annotated. The labels attributed to each semantic frame (e.g. [Compliance], [Verdict]) were used to group together certain synonyms, antonyms as well as equivalent terms. The research identified 165 pairs of candidate equivalents among the 200 Portuguese and English terms that were grouped together into 76 frames. 71% of the pairs of equivalents were considered full equivalents because not only do the verbs evoke the same conceptual scenario but their actantial structures, the linguistic realizations of the actants and their syntactic patterns were similar. 29% of the pairs of equivalents did not entirely meet these criteria and were considered partial equivalents. Reasons for partial equivalence are provided along with illustrative examples. Finally, the study describes the semasiological and onomasiological entry points that JuriDiCo, the bilingual lexical resource compiled during the project, offers to future users.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Le dictionnaire LVF (Les Verbes Français) de J. Dubois et F. Dubois-Charlier représente une des ressources lexicales les plus importantes dans la langue française qui est caractérisée par une description sémantique et syntaxique très pertinente. Le LVF a été mis disponible sous un format XML pour rendre l’accès aux informations plus commode pour les applications informatiques telles que les applications de traitement automatique de la langue française. Avec l’émergence du web sémantique et la diffusion rapide de ses technologies et standards tels que XML, RDF/RDFS et OWL, il serait intéressant de représenter LVF en un langage plus formalisé afin de mieux l’exploiter par les applications du traitement automatique de la langue ou du web sémantique. Nous en présentons dans ce mémoire une version ontologique OWL en détaillant le processus de transformation de la version XML à OWL et nous en démontrons son utilisation dans le domaine du traitement automatique de la langue avec une application d’annotation sémantique développée dans GATE.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Dossier : In Memoriam, Iris Marion Young (1949-2006)

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Cette étude porte sur les différentes formalisations du sens linguistique dans le cadre de la théorie Sens-Texte (TST) ; elle s’intéresse notamment à la représentation sémantique, la représentation la plus importante dans la modélisation du sens d’énoncés et d’unités lexicales de la langue. Cette étude a trois objectifs : premièrement, décrire trois formalisations de la représentation sémantique existant dans la TST – les réseaux sémantiques, les définitions lexicographiques et les définitions de la BDéf (des définitions très formalisées) ; deuxièmement, identifier les disparités et les décalages entre les formalisations choisies ; troisièmement, proposer des modifications aux formalisations existantes pour réduire au maximum ces disparités.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il est connu que les problèmes d'ambiguïté de la langue ont un effet néfaste sur les résultats des systèmes de Recherche d'Information (RI). Toutefois, les efforts de recherche visant à intégrer des techniques de Désambiguisation de Sens (DS) à la RI n'ont pas porté fruit. La plupart des études sur le sujet obtiennent effectivement des résultats négatifs ou peu convaincants. De plus, des investigations basées sur l'ajout d'ambiguïté artificielle concluent qu'il faudrait une très haute précision de désambiguation pour arriver à un effet positif. Ce mémoire vise à développer de nouvelles approches plus performantes et efficaces, se concentrant sur l'utilisation de statistiques de cooccurrence afin de construire des modèles de contexte. Ces modèles pourront ensuite servir à effectuer une discrimination de sens entre une requête et les documents d'une collection. Dans ce mémoire à deux parties, nous ferons tout d'abord une investigation de la force de la relation entre un mot et les mots présents dans son contexte, proposant une méthode d'apprentissage du poids d'un mot de contexte en fonction de sa distance du mot modélisé dans le document. Cette méthode repose sur l'idée que des modèles de contextes faits à partir d'échantillons aléatoires de mots en contexte devraient être similaires. Des expériences en anglais et en japonais montrent que la force de relation en fonction de la distance suit généralement une loi de puissance négative. Les poids résultant des expériences sont ensuite utilisés dans la construction de systèmes de DS Bayes Naïfs. Des évaluations de ces systèmes sur les données de l'atelier Semeval en anglais pour la tâche Semeval-2007 English Lexical Sample, puis en japonais pour la tâche Semeval-2010 Japanese WSD, montrent que les systèmes ont des résultats comparables à l'état de l'art, bien qu'ils soient bien plus légers, et ne dépendent pas d'outils ou de ressources linguistiques. La deuxième partie de ce mémoire vise à adapter les méthodes développées à des applications de Recherche d'Information. Ces applications ont la difficulté additionnelle de ne pas pouvoir dépendre de données créées manuellement. Nous proposons donc des modèles de contextes à variables latentes basés sur l'Allocation Dirichlet Latente (LDA). Ceux-ci seront combinés à la méthodes de vraisemblance de requête par modèles de langue. En évaluant le système résultant sur trois collections de la conférence TREC (Text REtrieval Conference), nous observons une amélioration proportionnelle moyenne de 12% du MAP et 23% du GMAP. Les gains se font surtout sur les requêtes difficiles, augmentant la stabilité des résultats. Ces expériences seraient la première application positive de techniques de DS sur des tâches de RI standard.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Cette thèse constitue une étude systématique du lexique du déné sųłiné, une langue athabaskane du nord-ouest canadien. Elle présente les définitions et les patrons de combinatoire syntaxique et lexicale de plus de 200 unités lexicales, lexèmes et phrasèmes, qui représentent une partie importante du vocabulaire déné sųłiné dans sept domaines: les émotions, le caractère humain, la description physique des entités, le mouvement des êtres vivants, la position des entités, les conditions atmospheriques et les formations topologiques, en les comparant avec le vocubulaire équivalent de l'anglais. L’approche théorique choisie est la Théorie Sens-Texte (TST), une approche formelle qui met l’accent sur la description sémantique et lexicographique empiriques. La présente recherche relève d'importantes différences entre le lexique du déné sųłiné et celui de l'anglais à tous les niveaux: dans la correspondence entre la représentation conceptuelle, considérée (quasi-)extralinguistique, et la structure sémantique; dans les patrons de lexicalisation des unités lexicales, et dans les patrons de combinatoire syntaxique et lexicale, qui montrent parfois des traits propres au déné sųłiné intéressants.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Le Sénégal est confronté à plusieurs enjeux environnementaux accentués par l’exode rural, la croissance démographique et l’urbanisation galopante. Dans la capitale de Dakar, les populations sont exposées à des risques industriels, sanitaires et environnementaux importants. Face aux conséquences néfastes des phénomènes de la dégradation de l’environnement en milieu urbain, il convient de chercher à mieux comprendre ce que l’environnement représente pour les populations notamment chez la jeune génération qui aura à vivre avec les conséquences liées à la détérioration de l'environnement léguée par les générations précédentes. S’appuyant sur la théorie des représentations sociales, cette recherche a comme objectifs 1) d’explorer les représentations sociales de l’environnement chez les jeunes sénégalais âgés de 9 à 16 ans en milieu scolaire situé en milieu urbain, et ce, dans différentes écoles de la ville de Dakar ; 2) d’étudier les connaissances, les sensibilités et les comportements des jeunes en matière écologique et environnementale; 3) finalement de déterminer les principaux agents responsables de la socialisation des jeunes dakarois en matière d’environnement. Le tout analysé en fonction de trois variables soit l’âge, le genre et le type d’école. La méthodologie de notre recherche est essentiellement qualitative de type exploratoire et elle s’appui principalement sur des questionnaires et des dessins. Les résultats montrent qu’en ce qui concerne les représentations sociales de l’environnement des jeunes dakarois, à travers l’analyse du discours, que l’environnement est représenté par les catégories typologiques dites « négative » « utilitariste » et « milieu de vie ». Ces représentations sociales varient à divers degrés en fonction du groupe d’âge, du genre et du type d’école. Les jeunes sont également nombreux à utiliser un vocabulaire associé aux notions liées à l’environnement naturel. De son côté, l’analyse picturale, qui concorde avec l’analyse lexicale, montre que les catégories typologiques de l’environnement sont liées au « milieu de vie », à l’« environnement ressource » et à l’« environnement nature » et ce, peu importe l’âge, le type d’école et le genre.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

On étudie l'évolution du prix d'une ressource naturelle non renouvelable dans le cas où cette ressource est durable, c'est-à-dire qu'une fois extraite elle devient un actif productif détenu hors terre. On emprunte à la théorie de la détermination du prix des actifs pour ce faire. Le choix de portefeuille porte alors sur les actifs suivant : un stock de ressource non renouvelable détenu en terre, qui ne procure aucun service productif; un stock de ressource détenu hors terre, qui procure un flux de services productifs; un stock d'un bien composite, qui peut être détenu soit sous forme de capital productif, soit sous forme d'une obligation dont le rendement est donn e. Les productivités du secteur de production du bien composite et du secteur de l'extraction de la ressource évoluent de façon stochastique. On montre que la prédiction que l'on peut tirer quant au sentier de prix de la ressource diffère considérablement de celle qui découle de la règle d'Hotelling élémentaire et qu'aucune prédiction non ambiguë quant au comportement du sentier de prix ne peut être obtenue de façon analytique.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Le but de cette thèse est d'étudier les corrélats comportementaux et neuronaux du transfert inter-linguistique (TIL) dans l'apprentissage d’une langue seconde (L2). Compte tenu de nos connaissances sur l'influence de la distance linguistique sur le TIL (Paradis, 1987, 2004; Odlin, 1989, 2004, 2005; Gollan, 2005; Ringbom, 2007), nous avons examiné l'effet de facilitation de la similarité phonologique à l’aide de la résonance magnétique fonctionnelle entre des langues linguistiquement proches (espagnol-français) et des langues linguistiquement éloignées (persan-français). L'étude I rapporte les résultats obtenus pour des langues linguistiquement proches (espagnol-français), alors que l'étude II porte sur des langues linguistiquement éloignées (persan-français). Puis, les changements de connectivité fonctionnelle dans le réseau langagier (Price, 2010) et dans le réseau de contrôle supplémentaire impliqué dans le traitement d’une langue seconde (Abutalebi & Green, 2007) lors de l’apprentissage d’une langue linguistiquement éloignée (persan-français) sont rapportés dans l’étude III. Les résultats des analyses d’IRMF suivant le modèle linéaire général chez les bilingues de langues linguistiquement proches (français-espagnol) montrent que le traitement des mots phonologiquement similaires dans les deux langues (cognates et clangs) compte sur un réseau neuronal partagé par la langue maternelle (L1) et la L2, tandis que le traitement des mots phonologiquement éloignés (non-clang-non-cognates) active des structures impliquées dans le traitement de la mémoire de travail et d'attention. Toutefois, chez les personnes bilingues de L1-L2 linguistiquement éloignées (français-persan), même les mots phonologiquement similaires à travers les langues (cognates et clangs) activent des régions connues pour être impliquées dans l'attention et le contrôle cognitif. Par ailleurs, les mots phonologiquement éloignés (non-clang-non-cognates) activent des régions usuellement associées à la mémoire de travail et aux fonctions exécutives. Ainsi, le facteur de distance inter-linguistique entre L1 et L2 module la charge cognitive sur la base du degré de similarité phonologiques entres les items en L1 et L2. Des structures soutenant les processus impliqués dans le traitement exécutif sont recrutées afin de compenser pour des demandes cognitives. Lorsque la compétence linguistique en L2 augmente et que les tâches linguistiques exigent ainsi moins d’effort, la demande pour les ressources cognitives diminue. Tel que déjà rapporté (Majerus, et al, 2008; Prat, et al, 2007; Veroude, et al, 2010; Dodel, et al, 2005; Coynel, et al ., 2009), les résultats des analyses de connectivité fonctionnelle montrent qu’après l’entraînement la valeur d'intégration (connectivité fonctionnelle) diminue puisqu’il y a moins de circulation du flux d'information. Les résultats de cette recherche contribuent à une meilleure compréhension des aspects neurocognitifs et de plasticité cérébrale du TIL ainsi que l'impact de la distance linguistique dans l'apprentissage des langues. Ces résultats ont des implications dans les stratégies d'apprentissage d’une L2, les méthodes d’enseignement d’une L2 ainsi que le développement d'approches thérapeutiques chez des patients bilingues qui souffrent de troubles langagiers.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

We provide an analytical overview of the distortionary eff ects of some common forms of taxes faced by the nonrenewable resources sector of the economy. In the category of taxes meant speci fically to capture the resource rent, we look at a speci c severance tax, an 'ad valorem' severance tax, a profi t tax and a 'lump-sum' tax, with emphasis on their e ffects on the extraction decisions over time and on the initial reserves to be developed. In the category of taxes meant for all sectors of the economy, we look at the corporate income tax and its special provision for the resource sector in the form of a depletion allowance, with emphasis on the eff ects on the intra-industry resource extraction decisions and on the inter-industry allocation of investment.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This work describes a methodology for converting a specialized dictionary into a learner’s dictionary. The dictionary to which we apply our conversion method is the DiCoInfo, Dictionnaire fondamental de l’informatique et de l’Internet. We focus on changes affecting the presentation of data categories. What is meant by specialized dictionary for learners, in our case, is a dictionary covering the field of computer science and Internet meeting our users’ needs in communicative and cognitive situations. Our dictionary is aimed at learners’ of the computing language. We start by presenting a detailed description of four dictionaries for learners. We explain how the observations made on these resources have helped us in developing our methodology.In order to develop our methodology, first, based on Bergenholtz and Tarp’s works (Bergenholtz 2003; Tarp 2008; Fuertes Olivera and Tarp 2011), we defined the type of users who may use our dictionary. Translators are our first intended users. Other users working in the fields related to translation are also targeted: proofreaders, technical writers, interpreters. We also determined the use situations of our dictionary. It aims to assist the learners in solving text reception and text production problems (communicative situations) and in studying the terminology of computing (cognitive situations). Thus, we could establish its lexicographical functions: communicative and cognitive functions. Then, we extracted 50 articles from the DiCoInfo to which we applied a number of changes in different aspects: the layout, the presentation of data, the navigation and the use of multimedia. The changes were made according to two fundamental parameters: 1) simplification of the presentation; 2) lexicographic functions (which include the intended users and user’s situations). In this way, we exploited the widgets offered by the technology to update the interface and layout. Strategies have been developed to organize a large number of lexical links in a simpler way. We associated these links with examples showing their use in specific contexts. Multimedia as audio pronunciation and illustrations has been used.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Bien que le passage du temps altère le cerveau, la cognition ne suit pas nécessairement le même destin. En effet, il existe des mécanismes compensatoires qui permettent de préserver la cognition (réserve cognitive) malgré le vieillissement. Les personnes âgées peuvent utiliser de nouveaux circuits neuronaux (compensation neuronale) ou des circuits existants moins susceptibles aux effets du vieillissement (réserve neuronale) pour maintenir un haut niveau de performance cognitive. Toutefois, la façon dont ces mécanismes affectent l’activité corticale et striatale lors de tâches impliquant des changements de règles (set-shifting) et durant le traitement sémantique et phonologique n’a pas été extensivement explorée. Le but de cette thèse est d’explorer comment le vieillissement affecte les patrons d’activité cérébrale dans les processus exécutifs d’une part et dans l’utilisation de règles lexicales d’autre part. Pour cela nous avons utilisé l’imagerie par résonance magnétique fonctionnelle (IRMf) lors de la performance d’une tâche lexicale analogue à celle du Wisconsin. Cette tâche a été fortement liée à de l’activité fronto-stritale lors des changements de règles, ainsi qu’à la mobilisation de régions associées au traitement sémantique et phonologique lors de décisions sémantiques et phonologiques, respectivement. Par conséquent, nous avons comparé l’activité cérébrale de jeunes individus (18 à 35 ans) à celle d’individus âgés (55 à 75 ans) lors de l’exécution de cette tâche. Les deux groupes ont montré l’implication de boucles fronto-striatales associées à la planification et à l’exécution de changements de règle. Toutefois, alors que les jeunes semblaient activer une « boucle cognitive » (cortex préfrontal ventrolatéral, noyau caudé et thalamus) lorsqu’ils se voyaient indiquer qu’un changement de règle était requis, et une « boucle motrice » (cortex postérieur préfrontal et putamen) lorsqu’ils devaient effectuer le changement, les participants âgés montraient une activation des deux boucles lors de l’exécution des changements de règle seulement. Les jeunes adultes tendaient à présenter une augmentation de l’activité du cortex préfrontal ventrolatéral, du gyrus fusiforme, du lobe ventral temporale et du noyau caudé lors des décisions sémantiques, ainsi que de l’activité au niveau de l’aire de Broca postérieur, de la junction temporopariétale et du cortex moteur lors de décisions phonologiques. Les participants âgés ont montré de l’activité au niveau du cortex préfrontal latéral et moteur durant les deux types de décisions lexicales. De plus, lorsque les décisions sémantiques et phonologiques ont été comparées entre elles, les jeunes ont montré des différences significatives au niveau de plusieurs régions cérébrales, mais pas les âgés. En conclusion, notre première étude a montré, lors du set-shifting, un délai de l’activité cérébrale chez les personnes âgées. Cela nous a permis de conceptualiser l’Hypothèse Temporelle de Compensation (troisième manuscrit) qui consiste en l’existence d’un mécanisme compensatoire caractérisé par un délai d’activité cérébrale lié au vieillissement permettant de préserver la cognition au détriment de la vitesse d’exécution. En ce qui concerne les processus langagiers (deuxième étude), les circuits sémantiques et phonologiques semblent se fusionner dans un seul circuit chez les individus âgés, cela représente vraisemblablement des mécanismes de réserve et de compensation neuronales qui permettent de préserver les habilités langagières.