947 resultados para Traitement automatique des langues naturelles


Relevância:

100.00% 100.00%

Publicador:

Resumo:

En apprentissage automatique, domaine qui consiste à utiliser des données pour apprendre une solution aux problèmes que nous voulons confier à la machine, le modèle des Réseaux de Neurones Artificiels (ANN) est un outil précieux. Il a été inventé voilà maintenant près de soixante ans, et pourtant, il est encore de nos jours le sujet d'une recherche active. Récemment, avec l'apprentissage profond, il a en effet permis d'améliorer l'état de l'art dans de nombreux champs d'applications comme la vision par ordinateur, le traitement de la parole et le traitement des langues naturelles. La quantité toujours grandissante de données disponibles et les améliorations du matériel informatique ont permis de faciliter l'apprentissage de modèles à haute capacité comme les ANNs profonds. Cependant, des difficultés inhérentes à l'entraînement de tels modèles, comme les minima locaux, ont encore un impact important. L'apprentissage profond vise donc à trouver des solutions, en régularisant ou en facilitant l'optimisation. Le pré-entraînnement non-supervisé, ou la technique du ``Dropout'', en sont des exemples. Les deux premiers travaux présentés dans cette thèse suivent cette ligne de recherche. Le premier étudie les problèmes de gradients diminuants/explosants dans les architectures profondes. Il montre que des choix simples, comme la fonction d'activation ou l'initialisation des poids du réseaux, ont une grande influence. Nous proposons l'initialisation normalisée pour faciliter l'apprentissage. Le second se focalise sur le choix de la fonction d'activation et présente le rectifieur, ou unité rectificatrice linéaire. Cette étude a été la première à mettre l'accent sur les fonctions d'activations linéaires par morceaux pour les réseaux de neurones profonds en apprentissage supervisé. Aujourd'hui, ce type de fonction d'activation est une composante essentielle des réseaux de neurones profonds. Les deux derniers travaux présentés se concentrent sur les applications des ANNs en traitement des langues naturelles. Le premier aborde le sujet de l'adaptation de domaine pour l'analyse de sentiment, en utilisant des Auto-Encodeurs Débruitants. Celui-ci est encore l'état de l'art de nos jours. Le second traite de l'apprentissage de données multi-relationnelles avec un modèle à base d'énergie, pouvant être utilisé pour la tâche de désambiguation de sens.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Dans cet article, nous proposons d’appliquer une analyse des connecteurs pragmatiques issue de la théorie de la pertinence au traitement automatique des langues naturelles (TALN). Nous commencerons par montrer les conséquences de l’application de la théorie de la pertinence sur l’étude des connecteurs, en prenant pour exemple les connecteurs de l’anglais. Dans un deuxième temps, nous exposerons les contraintes imposées par les limites actuelles du TALN. Enfin, nous proposerons un schéma d’étude des connecteurs pragmatiques pour le TALN ainsi qu’une esquisse d’application de cette méthode.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Cette thèse présente le résultat de plusieurs années de recherche dans le domaine de la génération automatique de résumés. Trois contributions majeures, présentées sous la forme d'articles publiés ou soumis pour publication, en forment le coeur. Elles retracent un cheminement qui part des méthodes par extraction en résumé jusqu'aux méthodes par abstraction. L'expérience HexTac, sujet du premier article, a d'abord été menée pour évaluer le niveau de performance des êtres humains dans la rédaction de résumés par extraction de phrases. Les résultats montrent un écart important entre la performance humaine sous la contrainte d'extraire des phrases du texte source par rapport à la rédaction de résumés sans contrainte. Cette limite à la rédaction de résumés par extraction de phrases, observée empiriquement, démontre l'intérêt de développer d'autres approches automatiques pour le résumé. Nous avons ensuite développé un premier système selon l'approche Fully Abstractive Summarization, qui se situe dans la catégorie des approches semi-extractives, comme la compression de phrases et la fusion de phrases. Le développement et l'évaluation du système, décrits dans le second article, ont permis de constater le grand défi de générer un résumé facile à lire sans faire de l'extraction de phrases. Dans cette approche, le niveau de compréhension du contenu du texte source demeure insuffisant pour guider le processus de sélection du contenu pour le résumé, comme dans les approches par extraction de phrases. Enfin, l'approche par abstraction basée sur des connaissances nommée K-BABS est proposée dans un troisième article. Un repérage des éléments d'information pertinents est effectué, menant directement à la génération de phrases pour le résumé. Cette approche a été implémentée dans le système ABSUM, qui produit des résumés très courts mais riches en contenu. Ils ont été évalués selon les standards d'aujourd'hui et cette évaluation montre que des résumés hybrides formés à la fois de la sortie d'ABSUM et de phrases extraites ont un contenu informatif significativement plus élevé qu'un système provenant de l'état de l'art en extraction de phrases.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L’augmentation de la croissance des réseaux, des blogs et des utilisateurs des sites d’examen sociaux font d’Internet une énorme source de données, en particulier sur la façon dont les gens pensent, sentent et agissent envers différentes questions. Ces jours-ci, les opinions des gens jouent un rôle important dans la politique, l’industrie, l’éducation, etc. Alors, les gouvernements, les grandes et petites industries, les instituts universitaires, les entreprises et les individus cherchent à étudier des techniques automatiques fin d’extraire les informations dont ils ont besoin dans les larges volumes de données. L’analyse des sentiments est une véritable réponse à ce besoin. Elle est une application de traitement du langage naturel et linguistique informatique qui se compose de techniques de pointe telles que l’apprentissage machine et les modèles de langue pour capturer les évaluations positives, négatives ou neutre, avec ou sans leur force, dans des texte brut. Dans ce mémoire, nous étudions une approche basée sur les cas pour l’analyse des sentiments au niveau des documents. Notre approche basée sur les cas génère un classificateur binaire qui utilise un ensemble de documents classifies, et cinq lexiques de sentiments différents pour extraire la polarité sur les scores correspondants aux commentaires. Puisque l’analyse des sentiments est en soi une tâche dépendante du domaine qui rend le travail difficile et coûteux, nous appliquons une approche «cross domain» en basant notre classificateur sur les six différents domaines au lieu de le limiter à un seul domaine. Pour améliorer la précision de la classification, nous ajoutons la détection de la négation comme une partie de notre algorithme. En outre, pour améliorer la performance de notre approche, quelques modifications innovantes sont appliquées. Il est intéressant de mentionner que notre approche ouvre la voie à nouveaux développements en ajoutant plus de lexiques de sentiment et ensembles de données à l’avenir.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

RÉSUMÉ. La prise en compte des troubles de la communication dans l’utilisation des systèmes de recherche d’information tels qu’on peut en trouver sur le Web est généralement réalisée par des interfaces utilisant des modalités n’impliquant pas la lecture et l’écriture. Peu d’applications existent pour aider l’utilisateur en difficulté dans la modalité textuelle. Nous proposons la prise en compte de la conscience phonologique pour assister l’utilisateur en difficulté d’écriture de requêtes (dysorthographie) ou de lecture de documents (dyslexie). En premier lieu un système de réécriture et d’interprétation des requêtes entrées au clavier par l’utilisateur est proposé : en s’appuyant sur les causes de la dysorthographie et sur les exemples à notre disposition, il est apparu qu’un système combinant une approche éditoriale (type correcteur orthographique) et une approche orale (système de transcription automatique) était plus approprié. En second lieu une méthode d’apprentissage automatique utilise des critères spécifiques , tels que la cohésion grapho-phonémique, pour estimer la lisibilité d’une phrase, puis d’un texte. ABSTRACT. Most applications intend to help disabled users in the information retrieval process by proposing non-textual modalities. This paper introduces specific parameters linked to phonological awareness in the textual modality. This will enhance the ability of systems to deal with orthographic issues and with the adaptation of results to the reader when for example the reader is dyslexic. We propose a phonology based sentence level rewriting system that combines spelling correction, speech synthesis and automatic speech recognition. This has been evaluated on a corpus of questions we get from dyslexic children. We propose a specific sentence readability measure that involves phonetic parameters such as grapho-phonemic cohesion. This has been learned on a corpus of reading time of sentences read by dyslexic children.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La présente étude, de type métalexicographique, s'insère dans une perspective de recherche visant à dresser le bilan de la pratique lexicographique réservée aux noms d'espèces naturelles dans les dictionnaires usuels du français. Elle porte sur le traitement définitoire de tous les noms de plantes herbacées répertoriés dans le Petit Robert (édition électronique 1996). Son objectif principal est de décrire très précisément la pratique définitoire en cause. Nous commençons par passer rapidement en revue les différents procédés définitoires illustrés par notre corpus, avant de procéder à l'analyse détaillée du procédé le plus exploité, celui de la définition par inclusion. Notre méthode d'analyse est basée sur la segmentation et l'examen comparatif des différentes composantes sémantiques et formelles présentes dans les définitions par inclusion de notre corpus. Elle permet non seulement de mieux connaître la pratique du Petit Robert , mais aussi d'en extraire un certain savoir-faire. Nous étudions quatre grandes catégories d'éléments descriptifs bien représentées dans notre corpus: les éléments de classification, les éléments de localisation, les éléments de valorisation ainsi que les éléments de morphologie en lien avec ces derniers. Nous donnons, de la métalangue utilisée et des principaux modèles de description exploités, un portrait relativement précis qui pourra alimenter la réflexion des lexicographes et autres linguistes qui s'intéressent à la description des noms d'espèces naturelles en général et des noms de plantes en particulier.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L’agrobiodiversité est le résultat de la domestication, de l’amélioration des caractères génétiques, de la conservation et de l’échange des semences par les agriculteurs depuis la première révolution agricole, il y a près de 10 000 ans. Toutefois, cette diversification agricole s’amenuise, s’érode. Cette érosion touche désormais les espèces végétales majeures. Plusieurs variétés de plantes cultivées sont abandonnées au profit de variétés artificialisées et uniformisées. Suivant une logique plus économique, les ressources génétiques végétales ou phytogénétiques, d’abord qualifiées de patrimoine commun de l’humanité, deviennent rapidement des biens prisés par l’industrie biotechnologique confortant les pays riches en biodiversité, mais économiquement faibles, à subordonner cette richesse au principe de la souveraineté permanente sur les ressources naturelles. Ce principe à la base du droit international a permis aux États hôtes de contrôler l’accès aux ressources biologiques sur leur territoire, mettant ainsi fin au pillage de celles-ci, mais également au libre accès pour tous à la ressource. À l’évidence, la nature hybride des ressources phytogénétiques enclenche un processus complexe d’exclusivismes et de prérogatives. D’une part, ces ressources composent la base de notre alimentation et à ce titre elles intéressent l’humanité entière, d’autre part, elles sont la matière première utilisée par les oligopoles semenciers, une double vocation qui suscite un partage antagonique à plusieurs égards. Cette thèse analyse les perspectives offertes par le droit international public afin de réconcilier ces positions au bénéfice de la sécurité alimentaire mondiale durable, et s’interroge sur le meilleur cadre juridique que le droit international puisse attribuer aux ressources phytogénétiques afin d’améliorer la circulation et la disponibilité des denrées agricoles et alimentaires. À cet effet, l’entrée en vigueur du Traité international sur les ressources phytogénétiques pour l’alimentation et l’agriculture va créer une sorte de système compromissoire conciliant dans un même souffle, l’intérêt général et l’appropriation privative au profit de la sécurité alimentaire mondiale durable : le Système multilatéral d’accès et de partage des avantages. Un dispositif ad hoc exceptionnel qui facilite l’accès à une partie négociée de ces ressources ainsi que le partage juste et équitable des avantages qui découlent de leur utilisation entre tous les usagers. Le Système multilatéral est la clé de voûte du Traité. Par le truchement de ce système, le Traité matérialise un ordre juridique raffiné et complexe qui opère une récursivité des ressources phytogénétiques vers le domaine public international, et par incidence, invite à considérer ces ressources comme des biens communs libres d’accès pour la recherche, l’amélioration et le réensemencement. Outre cette requalification, ce système ouvrira la voie à une nouvelle forme de gestion fiduciaire octroyant des droits et impliquant des responsabilités à l’égard d’un groupe d’usagers particuliers.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Le dictionnaire LVF (Les Verbes Français) de J. Dubois et F. Dubois-Charlier représente une des ressources lexicales les plus importantes dans la langue française qui est caractérisée par une description sémantique et syntaxique très pertinente. Le LVF a été mis disponible sous un format XML pour rendre l’accès aux informations plus commode pour les applications informatiques telles que les applications de traitement automatique de la langue française. Avec l’émergence du web sémantique et la diffusion rapide de ses technologies et standards tels que XML, RDF/RDFS et OWL, il serait intéressant de représenter LVF en un langage plus formalisé afin de mieux l’exploiter par les applications du traitement automatique de la langue ou du web sémantique. Nous en présentons dans ce mémoire une version ontologique OWL en détaillant le processus de transformation de la version XML à OWL et nous en démontrons son utilisation dans le domaine du traitement automatique de la langue avec une application d’annotation sémantique développée dans GATE.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

info:eu-repo/semantics/published

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La tradition lexicographique de langue française opère, en théorie, une séparation stricte entre noms communs et noms propres. Or, dans les faits, cette séparation touche surtout les noms propres de lieux et de personnes. En effet, l'observation des articles du vocabulaire politique révèle un nombre important de noms propres d'une autre nature dans les pages de dictionnaires, comme des noms propres d'institutions, de partis politiques ou d'événements et de périodes historiques. Qui plus est, ces noms propres reçoivent souvent un traitement lexicographique comparable à celui des noms communs. Toutefois, ce traitement n'a pas encore fait l'objet d'une étude approfondie. Afin de faire la lumière sur le traitement lexicographique des noms propres du vocabulaire politique, nous avons procédé à une analyse de ces noms propres à travers quatre dictionnaires généraux de langue française : Le Nouveau Petit Robert 2007 (version électronique), Le Petit Larousse Illustré 2007 (version électronique), le Dictionnaire du français Plus - À l'intention des francophones d'Amérique (1988) et le Dictionnaire québécois d'aujourd'hui (1992). Nous avons d'abord mis sur pied une typologie des noms propres du vocabulaire politique susceptibles d'être définis dans les dictionnaires généraux de langue française; puis nous avons relevé ces noms propres dans les dictionnaires à l'étude. Il ressort de ce relevé que le nombre de noms propres du vocabulaire politique dans les dictionnaires est assez élevé pour nécessiter une caractérisation de la pratique lexicographique les entourant. En outre, la description du vocabulaire politique passe par une description de certains types de noms propres en plus des mots du lexique commun. Nous nous sommes penchée sur la manière dont sont présentés les noms propres dans les dictionnaires, pour conclure que leur intégration et leur identification n'obéissent pas à une méthode systématique.La majuscule initiale n'est pas systématiquement utilisée pour les noms propres de même type.La nomenclature des noms propres à inclure dans le dictionnaire de langue à été étudiée à travers l'exemple des noms de partis politiques.La méthode servant à dresser cette nomenclature devrait se baser sur l'observation d'un corpus (fréquence) et l'importance dans un système socioculturel de référence - pour les noms de partis politiques, les noms des partis représentés dans les instances officielles devraient être décrits dans les dictionnaires généraux. Nous avons ensuite analysé les catégories de noms propres les plus représentées dans notre corpus d'articles du vocabulaire politique (les noms propres d'événements et de périodes historiques, les noms de partis politiques, dont les sigles, et les noms propres d'institutions). À la suite de cette analyse, nous proposons une liste d'éléments que le traitement lexicographique devrait inclure afin de permettre une circonscription efficace du référent (c'est-à-dire les traits distinctifs que devrait contenir une définition suffisante pour ces types de noms propres). Un point commun à toutes les catégories concerne l'explicitation du contexte référentiel : en contexte francophone particulièrement, le lieu doit être précisé par le traitement lexicographique. L'étude se termine par une analyse de l'arrimage entre noms propres et lexique commun dans les dictionnaires où ils sont intégrés dans un même ouvrage (PLI) ou dans une même nomenclature ( Dictionnaire Hachette, Dixel ). Nous arrivons à la conclusion que ces particularités dictionnairiques n'ont pas pour l'instant permis de corriger certaines faiblesses dans l'intégration des noms propres du vocabulaire politique, surtout en ce qui a trait à leur présence (nomenclature) et à leur traitement en terme de définition suffisante.