198 resultados para Traitement automatique des langues naturelles

em Université de Montréal, Canada


Relevância:

100.00% 100.00%

Publicador:

Resumo:

En apprentissage automatique, domaine qui consiste à utiliser des données pour apprendre une solution aux problèmes que nous voulons confier à la machine, le modèle des Réseaux de Neurones Artificiels (ANN) est un outil précieux. Il a été inventé voilà maintenant près de soixante ans, et pourtant, il est encore de nos jours le sujet d'une recherche active. Récemment, avec l'apprentissage profond, il a en effet permis d'améliorer l'état de l'art dans de nombreux champs d'applications comme la vision par ordinateur, le traitement de la parole et le traitement des langues naturelles. La quantité toujours grandissante de données disponibles et les améliorations du matériel informatique ont permis de faciliter l'apprentissage de modèles à haute capacité comme les ANNs profonds. Cependant, des difficultés inhérentes à l'entraînement de tels modèles, comme les minima locaux, ont encore un impact important. L'apprentissage profond vise donc à trouver des solutions, en régularisant ou en facilitant l'optimisation. Le pré-entraînnement non-supervisé, ou la technique du ``Dropout'', en sont des exemples. Les deux premiers travaux présentés dans cette thèse suivent cette ligne de recherche. Le premier étudie les problèmes de gradients diminuants/explosants dans les architectures profondes. Il montre que des choix simples, comme la fonction d'activation ou l'initialisation des poids du réseaux, ont une grande influence. Nous proposons l'initialisation normalisée pour faciliter l'apprentissage. Le second se focalise sur le choix de la fonction d'activation et présente le rectifieur, ou unité rectificatrice linéaire. Cette étude a été la première à mettre l'accent sur les fonctions d'activations linéaires par morceaux pour les réseaux de neurones profonds en apprentissage supervisé. Aujourd'hui, ce type de fonction d'activation est une composante essentielle des réseaux de neurones profonds. Les deux derniers travaux présentés se concentrent sur les applications des ANNs en traitement des langues naturelles. Le premier aborde le sujet de l'adaptation de domaine pour l'analyse de sentiment, en utilisant des Auto-Encodeurs Débruitants. Celui-ci est encore l'état de l'art de nos jours. Le second traite de l'apprentissage de données multi-relationnelles avec un modèle à base d'énergie, pouvant être utilisé pour la tâche de désambiguation de sens.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Cette thèse présente le résultat de plusieurs années de recherche dans le domaine de la génération automatique de résumés. Trois contributions majeures, présentées sous la forme d'articles publiés ou soumis pour publication, en forment le coeur. Elles retracent un cheminement qui part des méthodes par extraction en résumé jusqu'aux méthodes par abstraction. L'expérience HexTac, sujet du premier article, a d'abord été menée pour évaluer le niveau de performance des êtres humains dans la rédaction de résumés par extraction de phrases. Les résultats montrent un écart important entre la performance humaine sous la contrainte d'extraire des phrases du texte source par rapport à la rédaction de résumés sans contrainte. Cette limite à la rédaction de résumés par extraction de phrases, observée empiriquement, démontre l'intérêt de développer d'autres approches automatiques pour le résumé. Nous avons ensuite développé un premier système selon l'approche Fully Abstractive Summarization, qui se situe dans la catégorie des approches semi-extractives, comme la compression de phrases et la fusion de phrases. Le développement et l'évaluation du système, décrits dans le second article, ont permis de constater le grand défi de générer un résumé facile à lire sans faire de l'extraction de phrases. Dans cette approche, le niveau de compréhension du contenu du texte source demeure insuffisant pour guider le processus de sélection du contenu pour le résumé, comme dans les approches par extraction de phrases. Enfin, l'approche par abstraction basée sur des connaissances nommée K-BABS est proposée dans un troisième article. Un repérage des éléments d'information pertinents est effectué, menant directement à la génération de phrases pour le résumé. Cette approche a été implémentée dans le système ABSUM, qui produit des résumés très courts mais riches en contenu. Ils ont été évalués selon les standards d'aujourd'hui et cette évaluation montre que des résumés hybrides formés à la fois de la sortie d'ABSUM et de phrases extraites ont un contenu informatif significativement plus élevé qu'un système provenant de l'état de l'art en extraction de phrases.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Le dictionnaire LVF (Les Verbes Français) de J. Dubois et F. Dubois-Charlier représente une des ressources lexicales les plus importantes dans la langue française qui est caractérisée par une description sémantique et syntaxique très pertinente. Le LVF a été mis disponible sous un format XML pour rendre l’accès aux informations plus commode pour les applications informatiques telles que les applications de traitement automatique de la langue française. Avec l’émergence du web sémantique et la diffusion rapide de ses technologies et standards tels que XML, RDF/RDFS et OWL, il serait intéressant de représenter LVF en un langage plus formalisé afin de mieux l’exploiter par les applications du traitement automatique de la langue ou du web sémantique. Nous en présentons dans ce mémoire une version ontologique OWL en détaillant le processus de transformation de la version XML à OWL et nous en démontrons son utilisation dans le domaine du traitement automatique de la langue avec une application d’annotation sémantique développée dans GATE.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Article publié avec l'autorisation de la Chambre des notaires du Québec et dans le cadre des cours de perfectionnement du notariat.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Le recours aux technologies de l’information et de la communication dans tous les domaines de la vie politique, économique et sociale doit s’accompagner d’une réflexion quant à la pertinence ou non de compléter, de réviser en tout ou en partie l’encadrement juridique applicable à un secteur donné. Cette orientation est particulièrement importante lorsqu’il s’agit d’informatiser le traitement des données relatives à la santé. Pour appréhender les éléments cruciaux de cette problématique, les auteurs s’intéressent à l’encadrement actuel et à certains enjeux inhérents à cette « nouvelle » façon d’envisager la gestion de ces données et ce dans une perspective europeo-canadienne.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L'application de classifieurs linéaires à l'analyse des données d'imagerie cérébrale (fMRI) a mené à plusieurs percées intéressantes au cours des dernières années. Ces classifieurs combinent linéairement les réponses des voxels pour détecter et catégoriser différents états du cerveau. Ils sont plus agnostics que les méthodes d'analyses conventionnelles qui traitent systématiquement les patterns faibles et distribués comme du bruit. Dans le présent projet, nous utilisons ces classifieurs pour valider une hypothèse portant sur l'encodage des sons dans le cerveau humain. Plus précisément, nous cherchons à localiser des neurones, dans le cortex auditif primaire, qui détecteraient les modulations spectrales et temporelles présentes dans les sons. Nous utilisons les enregistrements fMRI de sujets soumis à 49 modulations spectro-temporelles différentes. L'analyse fMRI au moyen de classifieurs linéaires n'est pas standard, jusqu'à maintenant, dans ce domaine. De plus, à long terme, nous avons aussi pour objectif le développement de nouveaux algorithmes d'apprentissage automatique spécialisés pour les données fMRI. Pour ces raisons, une bonne partie des expériences vise surtout à étudier le comportement des classifieurs. Nous nous intéressons principalement à 3 classifieurs linéaires standards, soient l'algorithme machine à vecteurs de support (linéaire), l'algorithme régression logistique (régularisée) et le modèle bayésien gaussien naïf (variances partagées).

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La prise optimale d’un traitement antirétroviral est la clé du succès de ces traitements. Cette prise devrait être d’au moins 95 % des médicaments antirétroviraux prescrits afin de supprimer à long terme la réplication virale et donc de restaurer et de préserver la fonction immunologique. Cependant, les personnes vivant avec le virus de l’immunodéficience humaine (PVVIH) éprouvent des difficultés à adopter et à maintenir ce niveau de prise dans le temps. Bien que certaines interventions aient démontré leur capacité à faciliter ce comportement, au Québec il n’y a pas d’intervention systématique pour soutenir ces personnes dans la prise quotidienne de ces traitements. Le but de cette étude était donc de développer et d’évaluer une intervention pour faciliter le comportement de prise optimale d’un traitement antirétroviral chez des personnes vivant avec le VIH. Pour guider le développement de l’intervention, la démarche appelée « intervention mapping » a été suivie. Le cadre théorique proposé par Godin et ses collègues (2005) qui inclut le sentiment d’efficacité personnelle et les attitudes positives face à la prise optimale d’un traitement antirétroviral a été ainsi utilisé non seulement pour prédire et expliquer le comportement de prise, mais aussi pour élaborer l’intervention. Selon ce modèle, le soutien social, la satisfaction envers les professionnels et le fait de ne pas ressentir d’effets indésirables sont autant de facteurs modifiables associés au sentiment d’efficacité personnelle et aux attitudes positives. L’intervention développée visait l’acquisition et la mobilisation des habiletés nécessaires pour influencer ces facteurs en vue de rehausser le sentiment d’efficacité personnelle et les attitudes positives ainsi que pour faciliter ce comportement. Cette intervention comportait quatre rencontres d’une durée de 45 à 75 minutes, s’échelonnant sur 12 semaines, avec une infirmière iii possédant une expertise en VIH. L’évaluation de l’effet de cette intervention sur le comportement et les variables explicatives a été effectuée à l’aide d’un essai clinique avec répartition aléatoire. La principale variable résultat a été mesurée à l’aide d’un questionnaire autoadministré, de la charge virale et du nombre de CD4. Autant la variable résultat principale que les variables explicatives ont été mesurées avant l’intervention et après celle-ci, soit à 12 et 24 semaines. L’échantillon était constitué de 51, personnes vivant avec le VIH et suivies dans une clinique à Montréal : 23 dans le groupe contrôle et 28 dans le groupe expérimental. Des analyses de variance (ANOVA) à mesures répétées ont été réalisées afin d’analyser l’effet de l’intervention sur la prise optimale d’un traitement antirétroviral et les autres variables intermédiaires dans le temps. Les résultats montrent une tendance positive (p = 0,056) quant à l’obtention d’une charge virale indétectable dans le groupe intervention. Ainsi, 43,8 % plus de personnes du groupe expérimental comparativement au groupe contrôle (78,6 % versus 34,8 %) avaient une charge virale indétectable à 12 semaines et 32,8 % de plus à 24 semaines (89,3 % versus 56,5 %). Bien qu’aucun effet significatif ait été trouvé en regard des variables explicatives, probablement à cause d’un manque de puissance statistique, les légères augmentations observées dans le groupe expérimental sont cohérentes avec le modèle théorique utilisé (Godin & al., 2005). Cette étude contribue à l’avancement des connaissances en proposant une intervention pour faciliter la prise optimale d’un traitement antirétroviral chez des personnes vivant avec le VIH.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Il est connu que les problèmes d'ambiguïté de la langue ont un effet néfaste sur les résultats des systèmes de Recherche d'Information (RI). Toutefois, les efforts de recherche visant à intégrer des techniques de Désambiguisation de Sens (DS) à la RI n'ont pas porté fruit. La plupart des études sur le sujet obtiennent effectivement des résultats négatifs ou peu convaincants. De plus, des investigations basées sur l'ajout d'ambiguïté artificielle concluent qu'il faudrait une très haute précision de désambiguation pour arriver à un effet positif. Ce mémoire vise à développer de nouvelles approches plus performantes et efficaces, se concentrant sur l'utilisation de statistiques de cooccurrence afin de construire des modèles de contexte. Ces modèles pourront ensuite servir à effectuer une discrimination de sens entre une requête et les documents d'une collection. Dans ce mémoire à deux parties, nous ferons tout d'abord une investigation de la force de la relation entre un mot et les mots présents dans son contexte, proposant une méthode d'apprentissage du poids d'un mot de contexte en fonction de sa distance du mot modélisé dans le document. Cette méthode repose sur l'idée que des modèles de contextes faits à partir d'échantillons aléatoires de mots en contexte devraient être similaires. Des expériences en anglais et en japonais montrent que la force de relation en fonction de la distance suit généralement une loi de puissance négative. Les poids résultant des expériences sont ensuite utilisés dans la construction de systèmes de DS Bayes Naïfs. Des évaluations de ces systèmes sur les données de l'atelier Semeval en anglais pour la tâche Semeval-2007 English Lexical Sample, puis en japonais pour la tâche Semeval-2010 Japanese WSD, montrent que les systèmes ont des résultats comparables à l'état de l'art, bien qu'ils soient bien plus légers, et ne dépendent pas d'outils ou de ressources linguistiques. La deuxième partie de ce mémoire vise à adapter les méthodes développées à des applications de Recherche d'Information. Ces applications ont la difficulté additionnelle de ne pas pouvoir dépendre de données créées manuellement. Nous proposons donc des modèles de contextes à variables latentes basés sur l'Allocation Dirichlet Latente (LDA). Ceux-ci seront combinés à la méthodes de vraisemblance de requête par modèles de langue. En évaluant le système résultant sur trois collections de la conférence TREC (Text REtrieval Conference), nous observons une amélioration proportionnelle moyenne de 12% du MAP et 23% du GMAP. Les gains se font surtout sur les requêtes difficiles, augmentant la stabilité des résultats. Ces expériences seraient la première application positive de techniques de DS sur des tâches de RI standard.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Cette thèse comprend trois essais en économie de l’environnement et des ressources naturelles sous incertitude. Le premier essai propose un modèle de jeu différentiel qui analyse la pollution globale à travers la quête à l’hégémonie politique entre pays. Le second essai utilise des données boursières pour estimer une version stochastique de la règle de Hotelling et ainsi inférer sur le rôle des ressources naturelles non renouvelables dans la diversification du risque. Le troisième essai montre comment la prise en compte des perspectives futures modifie la règle de Hotelling dans un contexte de diversification du risque.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Cette recherche porte sur les origines et les effets de la dégradation de l’environnement dans le désert de Thar, au Rajasthan en Inde. Elle expose les processus politico-économiques qui conditionnent la gestion des ressources naturelles dans la région du Marwar depuis l’indépendance de l’Inde à aujourd’hui. Les modes de gestion des ressources environnementales et agraires dans le contexte du système jagirdari, un système foncier domanial qui prévalait dans la région avant l’indépendance de l’Inde, sont d’abord présentés. S’en suit une analyse de la manière dont les diverses idéologies liées au développement postcolonial ont reconfiguré le paysage socio-administratif et environnemental de la région. Ces transformations ont engendré des désordres écologiques qui ont donné lieu à une crise environnementale et agraire qui connaît son paroxysme avec les nombreux déficits pluviométriques qui sévissent depuis la dernière décennie dans la région. À partir d’une recherche de terrain effectuée dans la communauté de Givas, l’impact – au plan physique et métaphysique – de ces problèmes environnementaux sur la population locale est examiné. L’étude porte également sur les réponses à ces changements, soit les stratégies de subsistance adoptées par la population locale, de même que les interventions déployées par une organisation non gouvernementale et par l’État indien – à travers le National Rural Employment Guarantee Act (NREGA). L’analyse démontre que l’expérience de la dégradation de l’environnement, à travers ses effets et les stratégies d’adaptation qui s’en suivent, est tributaire de facteurs politiques, économiques et socioculturels et donc différenciée selon le genre, la classe et la caste.