909 resultados para Extraction de donnée


Relevância:

20.00% 20.00%

Publicador:

Resumo:

La documentation des programmes aide les développeurs à mieux comprendre le code source pendant les tâches de maintenance. Toutefois, la documentation n’est pas toujours disponible ou elle peut être de mauvaise qualité. Le recours à la redocumentation s’avère ainsi nécessaire. Dans ce contexte, nous proposons de faire la redocumentation en générant des commentaires par application de techniques de résumé par extraction. Pour mener à bien cette tâche, nous avons commencé par faire une étude empirique pour étudier les aspects quantitatifs et qualitatifs des commentaires. En particulier, nous nous sommes intéressés à l’étude de la distribution des commentaires par rapport aux différents types d’instructions et à la fréquence de documentation de chaque type. Aussi, nous avons proposé une taxonomie de commentaires pour classer les commentaires selon leur contenu et leur qualité. Suite aux résultats de l’étude empirique, nous avons décidé de résumer les classes Java par extraction des commentaires des méthodes/constructeurs. Nous avons défini plusieurs heuristiques pour déterminer les commentaires les plus pertinents à l’extraction. Ensuite, nous avons appliqué ces heuristiques sur les classes Java de trois projets pour en générer les résumés. Enfin, nous avons comparé les résumés produits (les commentaires produits) à des résumés références (les commentaires originaux) en utilisant la métrique ROUGE.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il est avant-tout question, dans ce mémoire, de la modélisation du timbre grâce à des algorithmes d'apprentissage machine. Plus précisément, nous avons essayé de construire un espace de timbre en extrayant des caractéristiques du son à l'aide de machines de Boltzmann convolutionnelles profondes. Nous présentons d'abord un survol de l'apprentissage machine, avec emphase sur les machines de Boltzmann convolutionelles ainsi que les modèles dont elles sont dérivées. Nous présentons aussi un aperçu de la littérature concernant les espaces de timbre, et mettons en évidence quelque-unes de leurs limitations, dont le nombre limité de sons utilisés pour les construire. Pour pallier à ce problème, nous avons mis en place un outil nous permettant de générer des sons à volonté. Le système utilise à sa base des plug-ins qu'on peut combiner et dont on peut changer les paramètres pour créer une gamme virtuellement infinie de sons. Nous l'utilisons pour créer une gigantesque base de donnée de timbres générés aléatoirement constituée de vrais instruments et d'instruments synthétiques. Nous entrainons ensuite les machines de Boltzmann convolutionnelles profondes de façon non-supervisée sur ces timbres, et utilisons l'espace des caractéristiques produites comme espace de timbre. L'espace de timbre ainsi obtenu est meilleur qu'un espace semblable construit à l'aide de MFCC. Il est meilleur dans le sens où la distance entre deux timbres dans cet espace est plus semblable à celle perçue par un humain. Cependant, nous sommes encore loin d'atteindre les mêmes capacités qu'un humain. Nous proposons d'ailleurs quelques pistes d'amélioration pour s'en approcher.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Thèse diffusée initialement dans le cadre d'un projet pilote des Presses de l'Université de Montréal/Centre d'édition numérique UdeM (1997-2008) avec l'autorisation de l'auteur.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Même si le mot est ancien, la référence à la notion de document est récente dans l'Histoire, sans doute en résonance avec l'organisation de la société industrielle, sa régulation et ses valeurs. Au tournant du millénaire, le web s'est appuyé sur un renversement du circuit documentaire, jusqu'à, dans le web de données, un court-circuitage radical. S'agit-il de l'effacement d'une notion périmée au profit d'une autre ou d'un simple décalage ? Le succès du web accompagne des transformations sociales et économiques profondes. Quelles seront alors, sur nos régimes de vérité, de preuve et de transmission, les conséquences de l'éventuelle obsolescence de la notion de document ?

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les études d’imagerie par résonance magnétique fonctionnelle (IRMf) ont pour prémisse générale l’idée que le signal BOLD peut être utilisé comme un succédané direct de l’activation neurale. Les études portant sur le vieillissement cognitif souvent comparent directement l’amplitude et l’étendue du signal BOLD entre des groupes de personnes jeunes et âgés. Ces études comportent donc un a priori additionnel selon lequel la relation entre l’activité neurale et la réponse hémodynamique à laquelle cette activité donne lieu restent inchangée par le vieillissement. Cependant, le signal BOLD provient d’une combinaison ambiguë de changements de métabolisme oxydatif, de flux et de volume sanguin. De plus, certaines études ont démontré que plusieurs des facteurs influençant les propriétés du signal BOLD subissent des changements lors du vieillissement. L’acquisition d’information physiologiquement spécifique comme le flux sanguin cérébral et le métabolisme oxydatif permettrait de mieux comprendre les changements qui sous-tendent le contraste BOLD, ainsi que les altérations physiologiques et cognitives propres au vieillissement. Le travail présenté ici démontre l’application de nouvelles techniques permettant de mesurer le métabolisme oxydatif au repos, ainsi que pendant l’exécution d’une tâche. Ces techniques représentent des extensions de méthodes d’IRMf calibrée existantes. La première méthode présentée est une généralisation des modèles existants pour l’estimation du métabolisme oxydatif évoqué par une tâche, permettant de prendre en compte tant des changements arbitraires en flux sanguin que des changements en concentrations sanguine d’O2. Des améliorations en terme de robustesse et de précisions sont démontrées dans la matière grise et le cortex visuel lorsque cette méthode est combinée à une manipulation respiratoire incluant une composante d’hypercapnie et d’hyperoxie. Le seconde technique présentée ici est une extension de la première et utilise une combinaison de manipulations respiratoires incluant l’hypercapnie, l’hyperoxie et l’administration simultanée des deux afin d’obtenir des valeurs expérimentales de la fraction d’extraction d’oxygène et du métabolisme oxydatif au repos. Dans la deuxième partie de cette thèse, les changements vasculaires et métaboliques liés à l’âge sont explorés dans un groupe de jeunes et aînés, grâce au cadre conceptuel de l’IRMf calibrée, combiné à une manipulation respiratoire d’hypercapnie et une tâche modifiée de Stroop. Des changements de flux sanguin au repos, de réactivité vasculaire au CO2 et de paramètre de calibration M ont été identifiés chez les aînés. Les biais affectant les mesures de signal BOLD obtenues chez les participants âgés découlant de ces changements physiologiques sont de plus discutés. Finalement, la relation entre ces changements cérébraux et la performance dans la tâche de Stroop, la santé vasculaire centrale et la condition cardiovasculaire est explorée. Les résultats présentés ici sont en accord avec l’hypothèse selon laquelle une meilleure condition cardiovasculaire est associée à une meilleure fonction vasculaire centrale, contribuant ainsi à l’amélioration de la santé vasculaire cérébrale et cognitive.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Problématique : Bien que le tabac et l’alcool soient les facteurs causaux principaux des cancers épidermoïdes de l’oropharynx, le virus du papillome humain (VPH) serait responsable de l’augmentation récente de l’incidence de ces cancers, particulièrement chez les patients jeunes et/ou non-fumeurs. La prévalence du VPH à haut risque, essentiellement de type 16, est passée de 20% à plus de 60% au cours des vingt dernières années. Certaines études indiquent que les cancers VPH-positifs ont un meilleur pronostic que les VPH- négatifs, mais des données prospectives à cet égard sont rares dans la littérature, surtout pour les études de phase III avec stratification basée sur les risques. Hypothèses et objectifs : Il est présumé que la présence du VPH est un facteur de bon pronostic. L’étude vise à documenter la prévalence du VPH dans les cancers de l’oropharynx, et à établir son impact sur le pronostic, chez des patients traités avec un schéma thérapeutique incluant la chimio-radiothérapie. Méthodologie : Les tumeurs proviennent de cas traités au CHUM pour des cancers épidermoïdes de la sphère ORL à un stade localement avancé (III, IVA et IVB). Elles sont conservées dans une banque tumorale, et les données cliniques sur l’efficacité du traitement et les effets secondaires, recueillies prospectivement. La présence du VPH est établie par biologie moléculaire déterminant la présence du génome VPH et son génotype. Résultats: 255 spécimens ont été soumis au test de génotypage Linear Array HPV. Après amplification par PCR, de l’ADN viral a été détecté dans 175 (68.6%) échantillons tumoraux ; le VPH de type 16 était impliqué dans 133 cas (52.25 %). Conclusion: Une proportion grandissante de cancers ORL est liée au VPH. Notre étude confirme que la présence du VPH est fortement associée à une amélioration du pronostic chez les patients atteints de cancers ORL traités par chimio-radiothérapie, et devrait être un facteur de stratification dans les essais cliniques comprenant des cas de cancers ORL.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les dernières décennies ont été marquées par une augmentation du nombre des cas de cancers, ce qui a subséquemment conduit à une augmentation dans la consommation des agents de chimiothérapie. La toxicité et le caractère cancérogène de ces molécules justifient l’intérêt crucial porté à leur égard. Quelques études ont fait l’objet de détection et de quantification des agents de chimiothérapie dans des matrices environnementales. Dans ce projet, une méthode utilisant la chromatographie liquide couplée à la spectrométrie de masse en tandem (LC-MS/MS) précédée d’une extraction sur phase solide (SPE) automatisée ou en ligne a été développée pour la détection et la quantification d’un groupe de six agents de chimiothérapie. Parmi ceux-ci figurent les plus utilisés au Québec (gemcitabine, méthotrexate, cyclophosphamide, ifosfamide, irinotécan, épirubicine) et présentant des propriétés physico-chimiques et des structures chimiques différentes. La méthode développée a été validée dans une matrice réelle représentant l’affluent d’une station d’épuration dans la région de Montréal. Deux des six composés cytotoxiques étudiés en l’occurrence (cyclophosphamide et méthotrexate) ont été détectés dans huit échantillons sur les neuf qui ont été recensés, essentiellement au niveau de l’affluent et l’effluent de quelques stations d’épuration de la région de Montréal. Les résultats des analyses effectuées sur les échantillons réels ont montré qu’il n’y avait pas de différence significative dans la concentration entre l’affluent et l’effluent, et donc que les systèmes d’épuration semblent inefficaces pour la dégradation de ces molécules.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Nous présentons une méthode hybride pour le résumé de texte, en combinant l'extraction de phrases et l'élagage syntaxique des phrases extraites. L'élagage syntaxique est effectué sur la base d’une analyse complète des phrases selon un parseur de dépendances, analyse réalisée par la grammaire développée au sein d'un logiciel commercial de correction grammaticale, le Correcteur 101. Des sous-arbres de l'analyse syntaxique sont supprimés quand ils sont identifiés par les relations ciblées. L'analyse est réalisée sur un corpus de divers textes. Le taux de réduction des phrases extraites est d’en moyenne environ 74%, tout en conservant la grammaticalité ou la lisibilité dans une proportion de plus de 64%. Étant donné ces premiers résultats sur un ensemble limité de relations syntaxiques, cela laisse entrevoir des possibilités pour une application de résumé automatique de texte.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La phosphorylation des protéines constitue l’une des plus importantes modifications post-traductionnelles (PTMs) et intervient dans de multiples processus physiologiques tels, la croissance, la différenciation cellulaire, l’apoptose, etc. En dépit de son importance, l’analyse des phosphoprotéines demeure une tâche difficile en raison de leur nature dynamique (car la phosphorylation des protéines est un processus réversible) et de leur faible abondance relative. En effet, la détermination des sites de phosphorylation est souvent difficile car les phosphopeptides sont souvent difficiles à détecter par des méthodes d’analyse chromatographique classique et par spectrométrie de masse (MS). De récentes études ont démontré que les nombreuses méthodes d’enrichissement de phosphopeptides existantes ne sont pas complètes, et que le nombre total de phosphopeptides détectés ne chevauchent pas complètement ces méthodes. C’est pour cela qu’il existe une nécessité de combler les lacunes des méthodes d’enrichissement existantes afin d’avoir des analyses phosphoprotéomiques plus complètes. Dans cette étude, nous avons utilisé les liquides ioniques (LI), plus particulièrement les sels d’imidazolium, comme une technique d’enrichissement alternative, dans le but de favoriser une extraction sélective de phosphopeptides présents en solution. Les sels d’imidazolium ont donc été utilisés en raison de leurs propriétés physico-chimiques "facilement" ajustables selon la nature des substituants sur le noyau imidazolium et la nature de l’anion. Les sels de monoimidazolium et de bis-imidazolium possédant respectivement des chaînes linéaires à 4, 12 et 16 atomes de carbone et ayant différents anions ont été synthétisés et utilisés pour effectuer des extractions liquide-liquide et solide-liquide des phosphopeptides en solution. Dans un premier temps, des extractions liquide-liquide ont été réalisées en utilisant un liquide ionique (LI) ayant une chaine linéaire de 4 atomes de carbone. Ces extractions réalisées avec le bis(trifluoromethanesulfonyl) amide de 3-butyl-1-methylimidazolium (BMIM-NTf2) et l’hexafluorophosphate de 3-butyl-1-methylimidazolium (BMIM-PF6) n’ont pas montré une extraction notable du PPS comparativement au PN. Dans un deuxième temps, des extractions solide-liquide ont été réalisées en fonctionnalisant des particules solides avec des sels d’imidazolium possédant des chaines linéaires de 12 ou 16 atomes de carbone. Ces extractions ont été faites en utilisant un phosphopentapeptide Ac-Ile-pTyr-Gly-Glu-Phe-NH2 (PPS) en présence de 2 analogues acides non-phosphorylés. Il a été démontré que les sels d’imidazolium à chaine C12 étaient meilleurs pour extraire le PPS que les deux autres peptides PN (Ac-Ile-Tyr-Gly-Glu-Phe-NH2) et PE (Ac-Glu-Tyr-Gly-Glu-Phe-NH2) L’électrophorèse capillaire (CE) et la chromatographie liquide à haute performance couplée à la spectrométrie de masse (LC-MS) ont été utilisées pour quantifier le mélange des trois peptides avant et après extraction ; dans le but de mesurer la sélectivité et l’efficacité d’extraction de ces peptides par rapport à la composition chimique du liquide ionique utilisé.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

S’insérant dans les domaines de la Lecture et de l’Analyse de Textes Assistées par Ordinateur (LATAO), de la Gestion Électronique des Documents (GÉD), de la visualisation de l’information et, en partie, de l’anthropologie, cette recherche exploratoire propose l’expérimentation d’une méthodologie descriptive en fouille de textes afin de cartographier thématiquement un corpus de textes anthropologiques. Plus précisément, nous souhaitons éprouver la méthode de classification hiérarchique ascendante (CHA) pour extraire et analyser les thèmes issus de résumés de mémoires et de thèses octroyés de 1985 à 2009 (1240 résumés), par les départements d’anthropologie de l’Université de Montréal et de l’Université Laval, ainsi que le département d’histoire de l’Université Laval (pour les résumés archéologiques et ethnologiques). En première partie de mémoire, nous présentons notre cadre théorique, c'est-à-dire que nous expliquons ce qu’est la fouille de textes, ses origines, ses applications, les étapes méthodologiques puis, nous complétons avec une revue des principales publications. La deuxième partie est consacrée au cadre méthodologique et ainsi, nous abordons les différentes étapes par lesquelles ce projet fut conduit; la collecte des données, le filtrage linguistique, la classification automatique, pour en nommer que quelques-unes. Finalement, en dernière partie, nous présentons les résultats de notre recherche, en nous attardant plus particulièrement sur deux expérimentations. Nous abordons également la navigation thématique et les approches conceptuelles en thématisation, par exemple, en anthropologie, la dichotomie culture ̸ biologie. Nous terminons avec les limites de ce projet et les pistes d’intérêts pour de futures recherches.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Utilisant les plus récentes données recueillies par le détecteur ATLAS lors de collisions pp à 7 et 8 TeV au LHC, cette thèse établira des contraintes sévères sur une multitude de modèles allant au-delà du modèle standard (MS) de la physique des particules. Plus particulièrement, deux types de particules hypothétiques, existant dans divers modèles théoriques et qui ne sont pas présentes dans le MS, seront étudiés et sondés. Le premier type étudié sera les quarks-vectoriels (QV) produits lors de collisions pp par l’entremise de couplages électrofaibles avec les quarks légers u et d. On recherchera ces QV lorsqu’ils se désintègrent en un boson W ou Z, et un quark léger. Des arguments théoriques établissent que sous certaines conditions raisonnables la production simple dominerait la production en paires des QV. La topologie particulière des évènements en production simple des QV permettra alors la mise en oeuvre de techniques d’optimisation efficaces pour leur extraction des bruits de fond électrofaibles. Le deuxième type de particules recherché sera celles qui se désintègrent en WZ lorsque ces bosons de jauges W, et Z se désintègrent leptoniquement. Les états finaux détectés par ATLAS seront par conséquent des évènements ayant trois leptons et de l’énergie transverse manquante. La distribution de la masse invariante de ces objets sera alors examinée pour déterminer la présence ou non de nouvelles résonances qui se manifesterait par un excès localisé. Malgré le fait qu’à première vue ces deux nouveaux types de particules n’ont que très peu en commun, ils ont en réalité tous deux un lien étroit avec la brisure de symétrie électrofaible. Dans plusieurs modèles théoriques, l’existence hypothétique des QV est proposé pour annuler les contributions du quark top aux corrections radiatives de la masse du Higgs du MS. Parallèlement, d’autres modèles prédisent quant à eux des résonances en WZ tout en suggérant que le Higgs est une particule composite, chambardant ainsi tout le sector Higgs du MS. Ainsi, les deux analyses présentées dans cette thèse ont un lien fondamental avec la nature même du Higgs, élargissant par le fait même nos connaissances sur l’origine de la masse intrinsèque des particules. En fin de compte, les deux analyses n’ont pas observé d’excès significatif dans leurs régions de signal respectives, ce qui permet d’établir des limites sur la section efficace de production en fonction de la masse des résonances.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.