40 resultados para Unsupervised techniques
Resumo:
L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.
Resumo:
Ce mémoire présente une analyse comparative des paramètres atmosphériques obtenus à l’aide des techniques photométrique et spectroscopique. Pour y parvenir, les données photométriques et spectroscopiques de 1375 naines blanches de type DA tirées du Sloan Digital Sky Survey (SDSS) ainsi que les données spectroscopiques du Villanova White Dwarf Catalog ont été utilisées. Il a d’abord fallu s’assurer que les données photométriques et spectroscopiques étaient bien calibrées. L’analyse photométrique a démontré que la photométrie ugriz ne semblait pas avoir de problème de calibration autre que le décalage des points zéro, qui est compensé en appliquant les corrections photométriques appropriées. De plus, le fait que le filtre u laisse passer le flux à certaines longueurs d’onde dans le rouge ne semble pas affecter la détermination des paramètres atmosphériques. L’analyse spectroscopique a ensuite confirmé que l’application de fonctions de correction permettant de tenir compte des effets hydrodynamiques 3D est la solution au problème de log g élevés. La comparaison des informations tirées des données spectroscopiques des deux différentes sources suggère que la calibration des spectres du SDSS n’est toujours pas au point. Les paramètres atmosphériques déterminés à l’aide des deux techniques ont ensuite été comparés et les températures photométriques sont systématiquement plus faibles que celles obtenues à partir des données spectroscopiques. Cet effet systématique pourrait être causé par les profils de raies utilisés dans les modèles d’atmosphère. Une méthode permettant d’obtenir une estimation de la gravité de surface d’une naine blanche à partir de sa photométrie a aussi été développée.
Resumo:
Nous présentons dans cette thèse notre travail dans le domaine de la visualisation. Nous nous sommes intéressés au problème de la génération des bulletins météorologiques. Étant donné une masse énorme d’information générée par Environnement Canada et un utilisateur, il faut lui générer une visualisation personnalisée qui répond à ses besoins et à ses préférences. Nous avons développé MeteoVis, un générateur de bulletin météorologique. Comme nous avons peu d’information sur le profil de l’utilisateur, nous nous sommes basés sur les utilisateurs similaires pour lui calculer ses besoins et ses préférences. Nous utilisons l'apprentissage non supervisé pour regrouper les utilisateurs similaires. Nous calculons le taux de similarité des profils utilisateurs dans le même cluster pour pondérer les besoins et les préférences. Nous avons mené, avec l’aide d'utilisateurs n’ayant aucun rapport avec le projet, des expériences d'évaluation et de comparaison de notre outil par rapport à celui utilisé actuellement par Environnement Canada. Les résultats de cette évaluation montrent que les visualisation générées par MeteoVis sont de loin meilleures que les bulletins actuels préparés par EC.
Resumo:
Malgré le progrès technologique et nos connaissances pharmaceutiques et médicales croissantes, le développement du médicament demeure un processus difficile, dispendieux, long et très risqué. Ce processus mérite d'être amélioré pour faciliter le développement de nouveaux traitements. À cette fin, cette thèse vise à démontrer l’utilité de principes avancés et d’outils élaborés en pharmacocinétique (PK), actuels et nouveaux. Ces outils serviront à répondre efficacement à des questions importantes lors du développement d’un médicament, sauvant ainsi du temps et des coûts. Le premier volet de la thèse porte sur l’utilisation de la modélisation et des simulations et la création d’un nouveau modèle afin d’établir la bioéquivalence entre deux formulations de complexe de gluconate ferrique de sodium en solution de sucrose pour injection. Comparé aux méthodes courantes, cette nouvelle approche proposée se libère de plusieurs présuppositions, et requiert moins de données. Cette technique bénéficie d’une robustesse scientifique tout en étant associée à des économies de temps et de coûts. Donc, même si développé pour produits génériques, elle pourra également s’avérer utile dans le développement de molécules innovatrices et « biosimilaires ». Le deuxième volet décrit l’emploi de la modélisation pour mieux comprendre et quantifier les facteurs influençant la PK et la pharmacodynamie (PD) d’une nouvelle protéine thérapeutique, la pegloticase. L’analyse a démontré qu’aucun ajustement posologique n’était nécessaire et ces résultats sont inclus dans la monographie officielle du produit. Grâce à la modélisation, on pouvait répondre à des questions importantes concernant le dosage d’un médicament sans passer par des nouvelles études ni d'évaluations supplémentaires sur les patients. Donc, l’utilisation de cet outil a permis de réduire les dépenses sans prolonger le processus de développement. Le modèle développé dans le cadre de cette analyse pourrait servir à mieux comprendre d’autres protéines thérapeutiques, incluant leurs propriétés immunogènes. Le dernier volet démontre l’utilité de la modélisation et des simulations dans le choix des régimes posologiques d’un antibiotique (TP-434) pour une étude de Phase 2. Des données provenant d’études de Phase 1 ont été modélisées au fur et à mesure qu’elles devenaient disponibles, afin de construire un modèle décrivant le profil pharmacocinétique du TP-434. Ce processus de modélisation exemplifiait les cycles exploratoires et confirmatoires décrits par Sheiner. Ainsi, en se basant sur des relations PK/PD d’un antibiotique de classe identique, des simulations ont été effectuées avec le modèle PK final, afin de proposer de nouveaux régimes posologiques susceptibles d’être efficace chez les patients avant même d'effectuer des études. Cette démarche rationnelle a mené à l’utilisation de régimes posologiques avec une possibilité accrue d’efficacité, sans le dosage inutile des patients. Ainsi, on s’est dispensé d’études ou de cohortes supplémentaires coûteuses qui auraient prolongé le processus de développement. Enfin, cette analyse est la première à démontrer l’application de ces techniques dans le choix des doses d’antibiotique pour une étude de Phase 2. En conclusion, cette recherche démontre que des outils de PK avancés comme la modélisation et les simulations ainsi que le développement de nouveaux modèles peuvent répondre efficacement et souvent de manière plus robuste à des questions essentielles lors du processus de développement du médicament, tout en réduisant les coûts et en épargnant du temps.
Resumo:
L’utilisation des mesures subjectives en épidémiologie s’est intensifiée récemment, notamment avec la volonté de plus en plus affirmée d’intégrer la perception qu’ont les sujets de leur santé dans l’étude des maladies et l’évaluation des interventions. La psychométrie regroupe les méthodes statistiques utilisées pour la construction des questionnaires et l’analyse des données qui en sont issues. Ce travail de thèse avait pour but d’explorer différents problèmes méthodologiques soulevés par l’utilisation des techniques psychométriques en épidémiologie. Trois études empiriques sont présentées et concernent 1/ la phase de validation de l’instrument : l’objectif était de développer, à l’aide de données simulées, un outil de calcul de la taille d’échantillon pour la validation d’échelle en psychiatrie ; 2/ les propriétés mathématiques de la mesure obtenue : l’objectif était de comparer les performances de la différence minimale cliniquement pertinente d’un questionnaire calculée sur des données de cohorte, soit dans le cadre de la théorie classique des tests (CTT), soit dans celui de la théorie de réponse à l’item (IRT) ; 3/ son utilisation dans un schéma longitudinal : l’objectif était de comparer, à l’aide de données simulées, les performances d’une méthode statistique d’analyse de l’évolution longitudinale d’un phénomène subjectif mesuré à l’aide de la CTT ou de l’IRT, en particulier lorsque certains items disponibles pour la mesure différaient à chaque temps. Enfin, l’utilisation de graphes orientés acycliques a permis de discuter, à l’aide des résultats de ces trois études, la notion de biais d’information lors de l’utilisation des mesures subjectives en épidémiologie.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
La série Body Techniques (2007) a été réalisée par l’artiste britannique Carey Young dans le cadre d’une résidence offerte par la biennale de Sharjah, aux Émirats Arabes Unis. Les huit photographies de format tableau constituant la série montrent l’artiste qui, portant l’uniforme d’une femme d’affaires, réinterprète huit œuvres célèbres associées à la mouvance de l’art conceptuel. Des paysages singuliers, situés aux abords des villes de Sharjah et Dubaï, servent de toile de fond à ces actions et leur confèrent une aura futuriste. La présente analyse tâche de démontrer que la série est habitée par un paradoxe remettant en question le statut d’art engagé que l’artiste revendique pour son œuvre. Ce paradoxe se manifeste à travers trois axes, autour desquels s’articule notre réflexion : les médiations se glissant entre Body Techniques et les œuvres que la série réinterprète, la déconstruction du « médium » du paysage, et le rôle actif occupé par le dispositif photographique. Cet examen attentif de chacune des occurrences du paradoxe permet de révéler Body Techniques comme une incarnation exemplaire de la double contrainte traversant toute œuvre d’art contemporain engagé : celle permettant aux artistes de critiquer le système auquel ils participent, mais les forçant en retour à participer au système qu’ils critiquent.
Resumo:
Dans les dernières décennies, les changements morphologiques des maisons iraniennes, l’arrivage de l'éclairage artificiel et le manque de connaissance suffisante de la valeur de la lumière du jour pour le bien-être des occupants ont résulté une diminution de l'utilisation de la lumière du jour dans les habitations iraniennes contemporaines. En conséquence, le niveau du bien-être des occupants a décru ce qui peut être corrélée avec la diminution de l'utilisation de la lumière du jour. Considérant l'architecture traditionnelle iranienne et l'importance de la lumière du jour dans les habitations traditionnelles, cette recherche étudie l’utilisation de la lumière du jour dans les habitations traditionnelles et explore comment extrapoler ces techniques dans les maisons contemporaines pourrait augmenter l'utilisation de la lumière du jour et par conséquence améliorer le bien-être des occupants. Une revue de littérature, une enquête des experts iraniens et une étude de cas des maisons à cour traditionnelles à la ville de Kashan ont permis de recueillir les données nécessaires pour cette recherche. De par le contexte de recherche, la ville de Kashan a été choisie particulièrement grâce à sa texture historique intacte. L’analyse de la lumière du jour a été faite par un logiciel de simulation pour trois maisons à cour de la ville de Kashan ayant les mêmes caractéristiques de salon d’hiver. Cette étude se concentre sur l’analyse de la lumière du jour dans les salons d'hiver du fait de la priorité obtenue de l'enquête des experts et de la revue de littérature. Les résultats de cette recherche montrent que l’extrapolation des techniques traditionnelles de l'utilisation de lumière du jour dans les habitations modernes peut être considéré comme une option de conception alternative. Cette dernière peut optimiser l'utilisation de lumière du jour et par conséquence améliorer le bien-être des occupants. L'approche utilisée dans cette recherche a fourni une occasion d’étudier l'architecture du passé et d’évaluer plus précisément son importance. Cette recherche contribue ainsi à définir un modèle en tirant les leçons du passé pour résoudre les problèmes actuels.
Resumo:
Dans cette dissertation, nous présentons plusieurs techniques d’apprentissage d’espaces sémantiques pour plusieurs domaines, par exemple des mots et des images, mais aussi à l’intersection de différents domaines. Un espace de représentation est appelé sémantique si des entités jugées similaires par un être humain, ont leur similarité préservée dans cet espace. La première publication présente un enchaînement de méthodes d’apprentissage incluant plusieurs techniques d’apprentissage non supervisé qui nous a permis de remporter la compétition “Unsupervised and Transfer Learning Challenge” en 2011. Le deuxième article présente une manière d’extraire de l’information à partir d’un contexte structuré (177 détecteurs d’objets à différentes positions et échelles). On montrera que l’utilisation de la structure des données combinée à un apprentissage non supervisé permet de réduire la dimensionnalité de 97% tout en améliorant les performances de reconnaissance de scènes de +5% à +11% selon l’ensemble de données. Dans le troisième travail, on s’intéresse à la structure apprise par les réseaux de neurones profonds utilisés dans les deux précédentes publications. Plusieurs hypothèses sont présentées et testées expérimentalement montrant que l’espace appris a de meilleures propriétés de mixage (facilitant l’exploration de différentes classes durant le processus d’échantillonnage). Pour la quatrième publication, on s’intéresse à résoudre un problème d’analyse syntaxique et sémantique avec des réseaux de neurones récurrents appris sur des fenêtres de contexte de mots. Dans notre cinquième travail, nous proposons une façon d’effectuer de la recherche d’image ”augmentée” en apprenant un espace sémantique joint où une recherche d’image contenant un objet retournerait aussi des images des parties de l’objet, par exemple une recherche retournant des images de ”voiture” retournerait aussi des images de ”pare-brises”, ”coffres”, ”roues” en plus des images initiales.
Resumo:
La rétroaction corrective (RC) se définit comme étant un indice permettant à l’apprenant de savoir que son utilisation de la L2 est incorrecte (Lightbown et Spada, 2006). Les chercheurs reconnaissent de plus en plus l’importance de la RC à l’écrit (Ferris, 2010). La recherche sur la RC écrite s’est grandement concentrée sur l’évaluation des différentes techniques de RC sans pour autant commencer par comprendre comment les enseignants corrigent les textes écrits de leurs élèves et à quel point ces derniers sont en mesure d’utiliser cette RC pour réviser leurs productions écrites. Cette étude vise à décrire quelles techniques de RC sont utilisées par les enseignants de francisation ainsi que comment les étudiants incorporent cette RC dans leur révision. De plus, elle veut aussi vérifier si les pratiques des enseignants et des étudiants varient selon le type d’erreur corrigée (lexicale, syntaxique et morphologique), la technique utilisée (RC directe, indirecte, combinée) et la compétence des étudiants à l’écrit (faible ou fort). Trois classes de francisation ont participé à cette étude : 3 enseignants et 24 étudiants (12 jugés forts et 12 faibles). Les étudiants ont rédigé un texte qui a été corrigé par les enseignants selon leur méthode habituelle. Puis les étudiants ont réécrit leur texte en incorporant la RC de leur enseignant. Des entrevues ont aussi été réalisées auprès des 3 enseignants et des 24 étudiants. Les résultats indiquent l’efficacité générale de la RC à l’écrit en langue seconde. En outre, cette efficacité varie en fonction de la technique utilisée, des types d’erreurs ainsi que du niveau de l’apprenant. Cette étude démontre que ces trois variables ont un rôle à jouer et que les enseignants devraient varier leur RC lorsqu’ils corrigent.