Biblioteca Digital

909 resultados para Extraction de donnée

Étude empirique des commentaires et application des techniques de résumé par extraction pour la redocumentation

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La documentation des programmes aide les développeurs à mieux comprendre le code source pendant les tâches de maintenance. Toutefois, la documentation n’est pas toujours disponible ou elle peut être de mauvaise qualité. Le recours à la redocumentation s’avère ainsi nécessaire. Dans ce contexte, nous proposons de faire la redocumentation en générant des commentaires par application de techniques de résumé par extraction. Pour mener à bien cette tâche, nous avons commencé par faire une étude empirique pour étudier les aspects quantitatifs et qualitatifs des commentaires. En particulier, nous nous sommes intéressés à l’étude de la distribution des commentaires par rapport aux différents types d’instructions et à la fréquence de documentation de chaque type. Aussi, nous avons proposé une taxonomie de commentaires pour classer les commentaires selon leur contenu et leur qualité. Suite aux résultats de l’étude empirique, nous avons décidé de résumer les classes Java par extraction des commentaires des méthodes/constructeurs. Nous avons défini plusieurs heuristiques pour déterminer les commentaires les plus pertinents à l’extraction. Ensuite, nous avons appliqué ces heuristiques sur les classes Java de trois projets pour en générer les résumés. Enfin, nous avons comparé les résumés produits (les commentaires produits) à des résumés références (les commentaires originaux) en utilisant la métrique ROUGE.

Espaces de timbre générés par des réseaux profonds convolutionnels

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il est avant-tout question, dans ce mémoire, de la modélisation du timbre grâce à des algorithmes d'apprentissage machine. Plus précisément, nous avons essayé de construire un espace de timbre en extrayant des caractéristiques du son à l'aide de machines de Boltzmann convolutionnelles profondes. Nous présentons d'abord un survol de l'apprentissage machine, avec emphase sur les machines de Boltzmann convolutionelles ainsi que les modèles dont elles sont dérivées. Nous présentons aussi un aperçu de la littérature concernant les espaces de timbre, et mettons en évidence quelque-unes de leurs limitations, dont le nombre limité de sons utilisés pour les construire. Pour pallier à ce problème, nous avons mis en place un outil nous permettant de générer des sons à volonté. Le système utilise à sa base des plug-ins qu'on peut combiner et dont on peut changer les paramètres pour créer une gamme virtuellement infinie de sons. Nous l'utilisons pour créer une gigantesque base de donnée de timbres générés aléatoirement constituée de vrais instruments et d'instruments synthétiques. Nous entrainons ensuite les machines de Boltzmann convolutionnelles profondes de façon non-supervisée sur ces timbres, et utilisons l'espace des caractéristiques produites comme espace de timbre. L'espace de timbre ainsi obtenu est meilleur qu'un espace semblable construit à l'aide de MFCC. Il est meilleur dans le sens où la distance entre deux timbres dans cet espace est plus semblable à celle perçue par un humain. Cependant, nous sommes encore loin d'atteindre les mêmes capacités qu'un humain. Nous proposons d'ailleurs quelques pistes d'amélioration pour s'en approcher.

Mesure du rapport d'embranchement de B → π⁰lv et extraction de l'élément |V[indice]u[indice]b| de la matrice CKM à l'expérience BABAR à l'aide de la technique des étiquettes B → D⁽*⁾lv

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Thèse diffusée initialement dans le cadre d'un projet pilote des Presses de l'Université de Montréal/Centre d'édition numérique UdeM (1997-2008) avec l'autorisation de l'auteur.

Extraction de motifs dans la rédaction collaborative sur les Wikis

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Comparaison des dimensions de l'arcade mandibulaire avant et après traitement orthodontique sans extraction

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Étude sur l'équivalence de termes extraits automatiquement d'un corpus parallèle : contribution à l'extraction terminologique bilingue

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Du document à la donnée et retour. La fourmilière ou les Lumières

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Même si le mot est ancien, la référence à la notion de document est récente dans l'Histoire, sans doute en résonance avec l'organisation de la société industrielle, sa régulation et ses valeurs. Au tournant du millénaire, le web s'est appuyé sur un renversement du circuit documentaire, jusqu'à, dans le web de données, un court-circuitage radical. S'agit-il de l'effacement d'une notion périmée au profit d'une autre ou d'un simple décalage ? Le succès du web accompagne des transformations sociales et économiques profondes. Quelles seront alors, sur nos régimes de vérité, de preuve et de transmission, les conséquences de l'éventuelle obsolescence de la notion de document ?

Quantitative functional neuroimaging of cerebral physiology in healthy aging

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les études d’imagerie par résonance magnétique fonctionnelle (IRMf) ont pour prémisse générale l’idée que le signal BOLD peut être utilisé comme un succédané direct de l’activation neurale. Les études portant sur le vieillissement cognitif souvent comparent directement l’amplitude et l’étendue du signal BOLD entre des groupes de personnes jeunes et âgés. Ces études comportent donc un a priori additionnel selon lequel la relation entre l’activité neurale et la réponse hémodynamique à laquelle cette activité donne lieu restent inchangée par le vieillissement. Cependant, le signal BOLD provient d’une combinaison ambiguë de changements de métabolisme oxydatif, de flux et de volume sanguin. De plus, certaines études ont démontré que plusieurs des facteurs influençant les propriétés du signal BOLD subissent des changements lors du vieillissement. L’acquisition d’information physiologiquement spécifique comme le flux sanguin cérébral et le métabolisme oxydatif permettrait de mieux comprendre les changements qui sous-tendent le contraste BOLD, ainsi que les altérations physiologiques et cognitives propres au vieillissement. Le travail présenté ici démontre l’application de nouvelles techniques permettant de mesurer le métabolisme oxydatif au repos, ainsi que pendant l’exécution d’une tâche. Ces techniques représentent des extensions de méthodes d’IRMf calibrée existantes. La première méthode présentée est une généralisation des modèles existants pour l’estimation du métabolisme oxydatif évoqué par une tâche, permettant de prendre en compte tant des changements arbitraires en flux sanguin que des changements en concentrations sanguine d’O2. Des améliorations en terme de robustesse et de précisions sont démontrées dans la matière grise et le cortex visuel lorsque cette méthode est combinée à une manipulation respiratoire incluant une composante d’hypercapnie et d’hyperoxie. Le seconde technique présentée ici est une extension de la première et utilise une combinaison de manipulations respiratoires incluant l’hypercapnie, l’hyperoxie et l’administration simultanée des deux afin d’obtenir des valeurs expérimentales de la fraction d’extraction d’oxygène et du métabolisme oxydatif au repos. Dans la deuxième partie de cette thèse, les changements vasculaires et métaboliques liés à l’âge sont explorés dans un groupe de jeunes et aînés, grâce au cadre conceptuel de l’IRMf calibrée, combiné à une manipulation respiratoire d’hypercapnie et une tâche modifiée de Stroop. Des changements de flux sanguin au repos, de réactivité vasculaire au CO2 et de paramètre de calibration M ont été identifiés chez les aînés. Les biais affectant les mesures de signal BOLD obtenues chez les participants âgés découlant de ces changements physiologiques sont de plus discutés. Finalement, la relation entre ces changements cérébraux et la performance dans la tâche de Stroop, la santé vasculaire centrale et la condition cardiovasculaire est explorée. Les résultats présentés ici sont en accord avec l’hypothèse selon laquelle une meilleure condition cardiovasculaire est associée à une meilleure fonction vasculaire centrale, contribuant ainsi à l’amélioration de la santé vasculaire cérébrale et cognitive.

Prévalence du VPH dans le cancer ORL localement avancé et impact sur le pronostic et l'efficacité de la chimio-radiothérapie concomitante

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Problématique : Bien que le tabac et l’alcool soient les facteurs causaux principaux des cancers épidermoïdes de l’oropharynx, le virus du papillome humain (VPH) serait responsable de l’augmentation récente de l’incidence de ces cancers, particulièrement chez les patients jeunes et/ou non-fumeurs. La prévalence du VPH à haut risque, essentiellement de type 16, est passée de 20% à plus de 60% au cours des vingt dernières années. Certaines études indiquent que les cancers VPH-positifs ont un meilleur pronostic que les VPH- négatifs, mais des données prospectives à cet égard sont rares dans la littérature, surtout pour les études de phase III avec stratification basée sur les risques. Hypothèses et objectifs : Il est présumé que la présence du VPH est un facteur de bon pronostic. L’étude vise à documenter la prévalence du VPH dans les cancers de l’oropharynx, et à établir son impact sur le pronostic, chez des patients traités avec un schéma thérapeutique incluant la chimio-radiothérapie. Méthodologie : Les tumeurs proviennent de cas traités au CHUM pour des cancers épidermoïdes de la sphère ORL à un stade localement avancé (III, IVA et IVB). Elles sont conservées dans une banque tumorale, et les données cliniques sur l’efficacité du traitement et les effets secondaires, recueillies prospectivement. La présence du VPH est établie par biologie moléculaire déterminant la présence du génome VPH et son génotype. Résultats: 255 spécimens ont été soumis au test de génotypage Linear Array HPV. Après amplification par PCR, de l’ADN viral a été détecté dans 175 (68.6%) échantillons tumoraux ; le VPH de type 16 était impliqué dans 133 cas (52.25 %). Conclusion: Une proportion grandissante de cancers ORL est liée au VPH. Notre étude confirme que la présence du VPH est fortement associée à une amélioration du pronostic chez les patients atteints de cancers ORL traités par chimio-radiothérapie, et devrait être un facteur de stratification dans les essais cliniques comprenant des cas de cancers ORL.

Analyse des agents de chimiothérapie par extraction sur phase solide automatisée couplée à la chromatographie liquide et la spectrométrie de masse en tandem (SPE-LC-ESI-MS/MS)

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les dernières décennies ont été marquées par une augmentation du nombre des cas de cancers, ce qui a subséquemment conduit à une augmentation dans la consommation des agents de chimiothérapie. La toxicité et le caractère cancérogène de ces molécules justifient l’intérêt crucial porté à leur égard. Quelques études ont fait l’objet de détection et de quantification des agents de chimiothérapie dans des matrices environnementales. Dans ce projet, une méthode utilisant la chromatographie liquide couplée à la spectrométrie de masse en tandem (LC-MS/MS) précédée d’une extraction sur phase solide (SPE) automatisée ou en ligne a été développée pour la détection et la quantification d’un groupe de six agents de chimiothérapie. Parmi ceux-ci figurent les plus utilisés au Québec (gemcitabine, méthotrexate, cyclophosphamide, ifosfamide, irinotécan, épirubicine) et présentant des propriétés physico-chimiques et des structures chimiques différentes. La méthode développée a été validée dans une matrice réelle représentant l’affluent d’une station d’épuration dans la région de Montréal. Deux des six composés cytotoxiques étudiés en l’occurrence (cyclophosphamide et méthotrexate) ont été détectés dans huit échantillons sur les neuf qui ont été recensés, essentiellement au niveau de l’affluent et l’effluent de quelques stations d’épuration de la région de Montréal. Les résultats des analyses effectuées sur les échantillons réels ont montré qu’il n’y avait pas de différence significative dans la concentration entre l’affluent et l’effluent, et donc que les systèmes d’épuration semblent inefficaces pour la dégradation de ces molécules.

Text Summarization by Sentence Extraction and Syntactic Pruning

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Nous présentons une méthode hybride pour le résumé de texte, en combinant l'extraction de phrases et l'élagage syntaxique des phrases extraites. L'élagage syntaxique est effectué sur la base d’une analyse complète des phrases selon un parseur de dépendances, analyse réalisée par la grammaire développée au sein d'un logiciel commercial de correction grammaticale, le Correcteur 101. Des sous-arbres de l'analyse syntaxique sont supprimés quand ils sont identifiés par les relations ciblées. L'analyse est réalisée sur un corpus de divers textes. Le taux de réduction des phrases extraites est d’en moyenne environ 74%, tout en conservant la grammaticalité ou la lisibilité dans une proportion de plus de 64%. Étant donné ces premiers résultats sur un ensemble limité de relations syntaxiques, cela laisse entrevoir des possibilités pour une application de résumé automatique de texte.

Étude sur l'utilisation de liquides ioniques à base imidazolium pour l'extraction sélective de phosphopeptides

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La phosphorylation des protéines constitue l’une des plus importantes modifications post-traductionnelles (PTMs) et intervient dans de multiples processus physiologiques tels, la croissance, la différenciation cellulaire, l’apoptose, etc. En dépit de son importance, l’analyse des phosphoprotéines demeure une tâche difficile en raison de leur nature dynamique (car la phosphorylation des protéines est un processus réversible) et de leur faible abondance relative. En effet, la détermination des sites de phosphorylation est souvent difficile car les phosphopeptides sont souvent difficiles à détecter par des méthodes d’analyse chromatographique classique et par spectrométrie de masse (MS). De récentes études ont démontré que les nombreuses méthodes d’enrichissement de phosphopeptides existantes ne sont pas complètes, et que le nombre total de phosphopeptides détectés ne chevauchent pas complètement ces méthodes. C’est pour cela qu’il existe une nécessité de combler les lacunes des méthodes d’enrichissement existantes afin d’avoir des analyses phosphoprotéomiques plus complètes. Dans cette étude, nous avons utilisé les liquides ioniques (LI), plus particulièrement les sels d’imidazolium, comme une technique d’enrichissement alternative, dans le but de favoriser une extraction sélective de phosphopeptides présents en solution. Les sels d’imidazolium ont donc été utilisés en raison de leurs propriétés physico-chimiques "facilement" ajustables selon la nature des substituants sur le noyau imidazolium et la nature de l’anion. Les sels de monoimidazolium et de bis-imidazolium possédant respectivement des chaînes linéaires à 4, 12 et 16 atomes de carbone et ayant différents anions ont été synthétisés et utilisés pour effectuer des extractions liquide-liquide et solide-liquide des phosphopeptides en solution. Dans un premier temps, des extractions liquide-liquide ont été réalisées en utilisant un liquide ionique (LI) ayant une chaine linéaire de 4 atomes de carbone. Ces extractions réalisées avec le bis(trifluoromethanesulfonyl) amide de 3-butyl-1-methylimidazolium (BMIM-NTf2) et l’hexafluorophosphate de 3-butyl-1-methylimidazolium (BMIM-PF6) n’ont pas montré une extraction notable du PPS comparativement au PN. Dans un deuxième temps, des extractions solide-liquide ont été réalisées en fonctionnalisant des particules solides avec des sels d’imidazolium possédant des chaines linéaires de 12 ou 16 atomes de carbone. Ces extractions ont été faites en utilisant un phosphopentapeptide Ac-Ile-pTyr-Gly-Glu-Phe-NH2 (PPS) en présence de 2 analogues acides non-phosphorylés. Il a été démontré que les sels d’imidazolium à chaine C12 étaient meilleurs pour extraire le PPS que les deux autres peptides PN (Ac-Ile-Tyr-Gly-Glu-Phe-NH2) et PE (Ac-Glu-Tyr-Gly-Glu-Phe-NH2) L’électrophorèse capillaire (CE) et la chromatographie liquide à haute performance couplée à la spectrométrie de masse (LC-MS) ont été utilisées pour quantifier le mélange des trois peptides avant et après extraction ; dans le but de mesurer la sélectivité et l’efficacité d’extraction de ces peptides par rapport à la composition chimique du liquide ionique utilisé.

Extraction automatique et visualisation des thèmes abordés dans des résumés de mémoires et de thèses en anthropologie au Québec, de 1985 à 2009

Relevância:

20.00% 20.00%

Publicador:

Resumo:

S’insérant dans les domaines de la Lecture et de l’Analyse de Textes Assistées par Ordinateur (LATAO), de la Gestion Électronique des Documents (GÉD), de la visualisation de l’information et, en partie, de l’anthropologie, cette recherche exploratoire propose l’expérimentation d’une méthodologie descriptive en fouille de textes afin de cartographier thématiquement un corpus de textes anthropologiques. Plus précisément, nous souhaitons éprouver la méthode de classification hiérarchique ascendante (CHA) pour extraire et analyser les thèmes issus de résumés de mémoires et de thèses octroyés de 1985 à 2009 (1240 résumés), par les départements d’anthropologie de l’Université de Montréal et de l’Université Laval, ainsi que le département d’histoire de l’Université Laval (pour les résumés archéologiques et ethnologiques). En première partie de mémoire, nous présentons notre cadre théorique, c'est-à-dire que nous expliquons ce qu’est la fouille de textes, ses origines, ses applications, les étapes méthodologiques puis, nous complétons avec une revue des principales publications. La deuxième partie est consacrée au cadre méthodologique et ainsi, nous abordons les différentes étapes par lesquelles ce projet fut conduit; la collecte des données, le filtrage linguistique, la classification automatique, pour en nommer que quelques-unes. Finalement, en dernière partie, nous présentons les résultats de notre recherche, en nous attardant plus particulièrement sur deux expérimentations. Nous abordons également la navigation thématique et les approches conceptuelles en thématisation, par exemple, en anthropologie, la dichotomie culture ̸ biologie. Nous terminons avec les limites de ce projet et les pistes d’intérêts pour de futures recherches.

The Search for New Resonances in Strong Symmetry Breaking Scenarios with the ATLAS Detector

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Utilisant les plus récentes données recueillies par le détecteur ATLAS lors de collisions pp à 7 et 8 TeV au LHC, cette thèse établira des contraintes sévères sur une multitude de modèles allant au-delà du modèle standard (MS) de la physique des particules. Plus particulièrement, deux types de particules hypothétiques, existant dans divers modèles théoriques et qui ne sont pas présentes dans le MS, seront étudiés et sondés. Le premier type étudié sera les quarks-vectoriels (QV) produits lors de collisions pp par l’entremise de couplages électrofaibles avec les quarks légers u et d. On recherchera ces QV lorsqu’ils se désintègrent en un boson W ou Z, et un quark léger. Des arguments théoriques établissent que sous certaines conditions raisonnables la production simple dominerait la production en paires des QV. La topologie particulière des évènements en production simple des QV permettra alors la mise en oeuvre de techniques d’optimisation efficaces pour leur extraction des bruits de fond électrofaibles. Le deuxième type de particules recherché sera celles qui se désintègrent en WZ lorsque ces bosons de jauges W, et Z se désintègrent leptoniquement. Les états finaux détectés par ATLAS seront par conséquent des évènements ayant trois leptons et de l’énergie transverse manquante. La distribution de la masse invariante de ces objets sera alors examinée pour déterminer la présence ou non de nouvelles résonances qui se manifesterait par un excès localisé. Malgré le fait qu’à première vue ces deux nouveaux types de particules n’ont que très peu en commun, ils ont en réalité tous deux un lien étroit avec la brisure de symétrie électrofaible. Dans plusieurs modèles théoriques, l’existence hypothétique des QV est proposé pour annuler les contributions du quark top aux corrections radiatives de la masse du Higgs du MS. Parallèlement, d’autres modèles prédisent quant à eux des résonances en WZ tout en suggérant que le Higgs est une particule composite, chambardant ainsi tout le sector Higgs du MS. Ainsi, les deux analyses présentées dans cette thèse ont un lien fondamental avec la nature même du Higgs, élargissant par le fait même nos connaissances sur l’origine de la masse intrinsèque des particules. En fin de compte, les deux analyses n’ont pas observé d’excès significatif dans leurs régions de signal respectives, ce qui permet d’établir des limites sur la section efficace de production en fonction de la masse des résonances.

Improving sampling, optimization and feature extraction in Boltzmann machines

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.

«
1
2
...
37
38
39
40
41
42
43
...
60
61
»