6 resultados para Extraction techniques

em Université de Montréal, Canada


Relevância:

60.00% 60.00%

Publicador:

Resumo:

Ce travail porte sur la construction d’un corpus étalon pour l’évaluation automatisée des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisés dans différentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur évaluation doit être faite en fonction d’une application précise. Une façon d’évaluer les extracteurs consiste à annoter toutes les occurrences des termes dans un corpus, ce qui nécessite un protocole de repérage et de découpage des unités terminologiques. À notre connaissance, il n’existe pas de corpus annoté bien documenté pour l’évaluation des extracteurs. Ce travail vise à construire un tel corpus et à décrire les problèmes qui doivent être abordés pour y parvenir. Le corpus étalon que nous proposons est un corpus entièrement annoté, construit en fonction d’une application précise, à savoir la compilation d’un dictionnaire spécialisé de la mécanique automobile. Ce corpus rend compte de la variété des réalisations des termes en contexte. Les termes sont sélectionnés en fonction de critères précis liés à l’application, ainsi qu’à certaines propriétés formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour évaluer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unités terminologiques du corpus et de comparer, au moyen de métriques, cette liste à la sortie de l’extracteur. On peut aussi créer une liste de référence sur mesure en extrayant des sous-ensembles de termes en fonction de différents critères. Ce travail permet une évaluation automatique des extracteurs qui tient compte du rôle de l’application. Cette évaluation étant reproductible, elle peut servir non seulement à mesurer la qualité d’un extracteur, mais à comparer différents extracteurs et à améliorer les techniques d’extraction.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

La documentation des programmes aide les développeurs à mieux comprendre le code source pendant les tâches de maintenance. Toutefois, la documentation n’est pas toujours disponible ou elle peut être de mauvaise qualité. Le recours à la redocumentation s’avère ainsi nécessaire. Dans ce contexte, nous proposons de faire la redocumentation en générant des commentaires par application de techniques de résumé par extraction. Pour mener à bien cette tâche, nous avons commencé par faire une étude empirique pour étudier les aspects quantitatifs et qualitatifs des commentaires. En particulier, nous nous sommes intéressés à l’étude de la distribution des commentaires par rapport aux différents types d’instructions et à la fréquence de documentation de chaque type. Aussi, nous avons proposé une taxonomie de commentaires pour classer les commentaires selon leur contenu et leur qualité. Suite aux résultats de l’étude empirique, nous avons décidé de résumer les classes Java par extraction des commentaires des méthodes/constructeurs. Nous avons défini plusieurs heuristiques pour déterminer les commentaires les plus pertinents à l’extraction. Ensuite, nous avons appliqué ces heuristiques sur les classes Java de trois projets pour en générer les résumés. Enfin, nous avons comparé les résumés produits (les commentaires produits) à des résumés références (les commentaires originaux) en utilisant la métrique ROUGE.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Les agents anti-infectieux sont utilisés pour traiter ou prévenir les infections chez les humains, les animaux, les insectes et les plantes. L’apparition de traces de ces substances dans les eaux usées, les eaux naturelles et même l’eau potable dans plusieurs pays du monde soulève l’inquiétude de la communauté scientifique surtout à cause de leur activité biologique. Le but de ces travaux de recherche a été d’étudier la présence d’anti-infectieux dans les eaux environnementales contaminées (c.-à-d. eaux usées, eaux naturelles et eau potable) ainsi que de développer de nouvelles méthodes analytiques capables de quantifier et confirmer leur présence dans ces matrices. Une méta-analyse sur l’occurrence des anti-infectieux dans les eaux environnementales contaminées a démontré qu’au moins 68 composés et 10 de leurs produits de transformation ont été quantifiés à ce jour. Les concentrations environnementales varient entre 0.1 ng/L et 1 mg/L, selon le composé, la matrice et la source de contamination. D’après cette étude, les effets nuisibles des anti-infectieux sur le biote aquatique sont possibles et ces substances peuvent aussi avoir un effet indirect sur la santé humaine à cause de sa possible contribution à la dissémination de la résistance aux anti-infecteiux chez les bactéries. Les premiers tests préliminaires de développement d’une méthode de détermination des anti-infectieux dans les eaux usées ont montré les difficultés à surmonter lors de l’extraction sur phase solide (SPE) ainsi que l’importance de la sélectivité du détecteur. On a décrit une nouvelle méthode de quantification des anti-infectieux utilisant la SPE en tandem dans le mode manuel et la chromatographie liquide couplée à la spectrométrie de masse en tandem (LC-MS/MS). Les six anti-infectieux ciblés (sulfaméthoxazole, triméthoprime, ciprofloxacin, levofloxacin, clarithromycin et azithromycin) ont été quantifiés à des concentrations entre 39 et 276 ng/L dans les échantillons d’affluent et d’effluent provenant d’une station d’épuration appliquant un traitement primaire et physico- chimique. Les concentrations retrouvées dans les effluents indiquent que la masse moyenne totale de ces substances, déversées hebdomadairement dans le fleuve St. Laurent, était de ~ 2 kg. En vue de réduire le temps total d’analyse et simplifier les manipulations, on a travaillé sur une nouvelle méthode de SPE couplée-LC-MS/MS. Cette méthode a utilisé une technique de permutation de colonnes pour préconcentrer 1.00 mL d’échantillon dans une colonne de SPE couplée. La performance analytique de la méthode a permis la quantification des six anti-infectieux dans les eaux usées municipales et les limites de détection étaient du même ordre de grandeur (13-60 ng/L) que les méthodes basées sur la SPE manuelle. Ensuite, l’application des colonnes de SPE couplée de chromatographie à débit turbulent pour la préconcentration de six anti-infectieux dans les eaux usées a été explorée pour diminuer les effets de matrice. Les résultats obtenus ont indiqué que ces colonnes sont une solution de réchange intéressante aux colonnes de SPE couplée traditionnelles. Finalement, en vue de permettre l’analyse des anti-infectieux dans les eaux de surface et l’eau potable, une méthode SPE couplée-LC-MS/MS utilisant des injections de grand volume (10 mL) a été développée. Le volume de fuite de plusieurs colonnes de SPE couplée a été estimé et la colonne ayant la meilleure rétention a été choisie. Les limites de détection et de confirmation de la méthode ont été entre 1 à 6 ng/L. L’analyse des échantillons réels a démontré que la concentration des trois anti-infectieux ciblés (sulfaméthoxazole, triméthoprime et clarithromycine) était au dessous de la limite de détection de la méthode. La mesure des masses exactes par spectrométrie de masse à temps d’envol et les spectres des ions produits utilisant une pente d’énergie de collision inverse dans un spectromètre de masse à triple quadripôle ont été explorés comme des méthodes de confirmation possibles.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Cette recherche porte sur la lexicologie, la lexicographie et l’enseignement/apprentissage du lexique. Elle s’inscrit dans le cadre du projet Modélisation ontologique des savoirs lexicographiques en vue de leur application en linguistique appliquée, surnommé Lexitation, qui est, à notre connaissance, la première tentative d’extraction des savoirs lexicographiques — i.e. connaissances déclaratives et procédurales utilisées par des lexicographes — utilisant une méthode expérimentale. Le projet repose sur le constat que les savoirs lexicographiques ont un rôle crucial à jouer en lexicologie, mais aussi en enseignement/apprentissage du lexique. Dans ce mémoire, nous décrirons les méthodes et les résultats de nos premières expérimentations, effectuées à l’aide du Think Aloud Protocol (Ericsson et Simon, 1993). Nous expliquerons l’organisation générale des expérimentations et comment les savoirs lexicographiques extraits sont modélisés pour former une ontologie. Finalement, nous discuterons des applications possibles de nos travaux en enseignement du lexique, plus particulièrement pour la formation des maîtres.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

S’insérant dans les domaines de la Lecture et de l’Analyse de Textes Assistées par Ordinateur (LATAO), de la Gestion Électronique des Documents (GÉD), de la visualisation de l’information et, en partie, de l’anthropologie, cette recherche exploratoire propose l’expérimentation d’une méthodologie descriptive en fouille de textes afin de cartographier thématiquement un corpus de textes anthropologiques. Plus précisément, nous souhaitons éprouver la méthode de classification hiérarchique ascendante (CHA) pour extraire et analyser les thèmes issus de résumés de mémoires et de thèses octroyés de 1985 à 2009 (1240 résumés), par les départements d’anthropologie de l’Université de Montréal et de l’Université Laval, ainsi que le département d’histoire de l’Université Laval (pour les résumés archéologiques et ethnologiques). En première partie de mémoire, nous présentons notre cadre théorique, c'est-à-dire que nous expliquons ce qu’est la fouille de textes, ses origines, ses applications, les étapes méthodologiques puis, nous complétons avec une revue des principales publications. La deuxième partie est consacrée au cadre méthodologique et ainsi, nous abordons les différentes étapes par lesquelles ce projet fut conduit; la collecte des données, le filtrage linguistique, la classification automatique, pour en nommer que quelques-unes. Finalement, en dernière partie, nous présentons les résultats de notre recherche, en nous attardant plus particulièrement sur deux expérimentations. Nous abordons également la navigation thématique et les approches conceptuelles en thématisation, par exemple, en anthropologie, la dichotomie culture ̸ biologie. Nous terminons avec les limites de ce projet et les pistes d’intérêts pour de futures recherches.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.