485 resultados para Réseaux de neurones récurrents
Resumo:
L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.
Resumo:
Ce mémoire est composé de trois articles et présente les résultats de travaux de recherche effectués dans le but d'améliorer les techniques actuelles permettant d'utiliser des données associées à certaines tâches dans le but d'aider à l'entraînement de réseaux de neurones sur une tâche différente. Les deux premiers articles présentent de nouveaux ensembles de données créés pour permettre une meilleure évaluation de ce type de techniques d'apprentissage machine. Le premier article introduit une suite d'ensembles de données pour la tâche de reconnaissance automatique de chiffres écrits à la main. Ces ensembles de données ont été générés à partir d'un ensemble de données déjà existant, MNIST, auquel des nouveaux facteurs de variation ont été ajoutés. Le deuxième article introduit un ensemble de données pour la tâche de reconnaissance automatique d'expressions faciales. Cet ensemble de données est composé d'images de visages qui ont été collectées automatiquement à partir du Web et ensuite étiquetées. Le troisième et dernier article présente deux nouvelles approches, dans le contexte de l'apprentissage multi-tâches, pour tirer avantage de données pour une tâche donnée afin d'améliorer les performances d'un modèle sur une tâche différente. La première approche est une généralisation des neurones Maxout récemment proposées alors que la deuxième consiste en l'application dans un contexte supervisé d'une technique permettant d'inciter des neurones à apprendre des fonctions orthogonales, à l'origine proposée pour utilisation dans un contexte semi-supervisé.
Resumo:
Le risque de chute est une problématique bien présente chez les personnes âgées ou ayant une atteinte neurologique et reflète un déficit des mécanismes neuronaux assurant l’équilibre. De précédentes études démontrent que l’intégration des informations sensorielles est essentielle au contrôle de l’équilibre et que l’inhibition présynaptique (IP) serait un mécanisme important dans le contrôle de la transmission sensorielle. Ainsi, le but de cette étude était d’identifier la contribution du mécanisme d’IP à l’induction de réponses posturales efficaces suite à une perturbation d’équilibre. Notre hypothèse est qu’une diminution d’IP contribuerait à l’induction des ces réponses, en augmentant l’influence de la rétroaction sensorielle sur les réseaux de neurones spinaux. Afin de démontrer cette hypothèse, nous avons d’abord évalué l’excitabilité spinale pendant les perturbations vers l’avant ou vers l’arrière, à l’aide du réflexe H. L’excitabilité spinale était modulée selon la direction de la perturbation et cette modulation survenait dès 75 ou 100 ms (p<0.05), soit avant l’induction des réactions posturales. Puis, à l’aide de techniques plus précises de convergence spinale, nous avons démontré que l’IP était diminuée dès 75 et 100 ms dans les deux directions, suggérant que la transmission des informations sensorielles vers la moelle épinière est accrue juste avant le déclenchement de la réponse posturale. Cette étude met en évidence un mécanisme-clé permettant d’augmenter la rétroaction des informations sensorielles nécessaires à l’induction de réponses posturales appropriées. L’évaluation de ce mécanisme pourrait mener à une meilleure identification des individus à risque de chute.
Resumo:
Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.
Resumo:
Dans l'apprentissage machine, la classification est le processus d’assigner une nouvelle observation à une certaine catégorie. Les classifieurs qui mettent en œuvre des algorithmes de classification ont été largement étudié au cours des dernières décennies. Les classifieurs traditionnels sont basés sur des algorithmes tels que le SVM et les réseaux de neurones, et sont généralement exécutés par des logiciels sur CPUs qui fait que le système souffre d’un manque de performance et d’une forte consommation d'énergie. Bien que les GPUs puissent être utilisés pour accélérer le calcul de certains classifieurs, leur grande consommation de puissance empêche la technologie d'être mise en œuvre sur des appareils portables tels que les systèmes embarqués. Pour rendre le système de classification plus léger, les classifieurs devraient être capable de fonctionner sur un système matériel plus compact au lieu d'un groupe de CPUs ou GPUs, et les classifieurs eux-mêmes devraient être optimisés pour ce matériel. Dans ce mémoire, nous explorons la mise en œuvre d'un classifieur novateur sur une plate-forme matérielle à base de FPGA. Le classifieur, conçu par Alain Tapp (Université de Montréal), est basé sur une grande quantité de tables de recherche qui forment des circuits arborescents qui effectuent les tâches de classification. Le FPGA semble être un élément fait sur mesure pour mettre en œuvre ce classifieur avec ses riches ressources de tables de recherche et l'architecture à parallélisme élevé. Notre travail montre que les FPGAs peuvent implémenter plusieurs classifieurs et faire les classification sur des images haute définition à une vitesse très élevée.
Resumo:
Les informations sensorielles sont traitées dans le cortex par des réseaux de neurones co-activés qui forment des assemblées neuronales fonctionnelles. Le traitement visuel dans le cortex est régit par différents aspects des caractéristiques neuronales tels que l’aspect anatomique, électrophysiologique et moléculaire. Au sein du cortex visuel primaire, les neurones sont sélectifs à divers attributs des stimuli tels que l’orientation, la direction, le mouvement et la fréquence spatiale. Chacun de ces attributs conduit à une activité de décharge maximale pour une population neuronale spécifique. Les neurones du cortex visuel ont cependant la capacité de changer leur sélectivité en réponse à une exposition prolongée d’un stimulus approprié appelée apprentissage visuel ou adaptation visuelle à un stimulus non préférentiel. De ce fait, l’objectif principal de cette thèse est d’investiguer les mécanismes neuronaux qui régissent le traitement visuel durant une plasticité induite par adaptation chez des animaux adultes. Ces mécanismes sont traités sous différents aspects : la connectivité neuronale, la sélectivité neuronale, les propriétés électrophysiologiques des neurones et les effets des drogues (sérotonine et fluoxétine). Le modèle testé se base sur les colonnes d’orientation du cortex visuel primaire. La présente thèse est subdivisée en quatre principaux chapitres. Le premier chapitre (A) traite de la réorganisation du cortex visuel primaire suite à une plasticité induite par adaptation visuelle. Le second chapitre (B) examine la connectivité neuronale fonctionnelle en se basant sur des corrélations croisées entre paires neuronales ainsi que sur des corrélations d’activités de populations neuronales. Le troisième chapitre (C) met en liaison les aspects cités précédemment (les effets de l’adaptation visuelle et la connectivité fonctionnelle) aux propriétés électrophysiologiques des neurones (deux classes de neurones sont traitées : les neurones à décharge régulière et les neurones à décharge rapide ou burst). Enfin, le dernier chapitre (D) a pour objectif l’étude de l’effet du couplage de l’adaptation visuelle à l’administration de certaines drogues, notamment la sérotonine et la fluoxétine (inhibiteur sélectif de recapture de la sérotonine). Méthodes En utilisant des enregistrements extracellulaires d’activités neuronales dans le cortex visuel primaire (V1) combinés à un processus d’imagerie cérébrale optique intrinsèque, nous enregistrons l’activité de décharge de populations neuronales et nous examinons l’activité de neurones individuels extraite des signaux multi-unitaires. L’analyse de l’activité cérébrale se base sur différents algorithmes : la distinction des propriétés électrophysiologiques des neurones se fait par calcul de l’intervalle de temps entre la vallée et le pic maximal du potentiel d’action (largeur du potentiel d’action), la sélectivité des neurones est basée sur leur taux de décharge à différents stimuli, et la connectivité fonctionnelle utilise des calculs de corrélations croisées. L’utilisation des drogues se fait par administration locale sur la surface du cortex (après une craniotomie et une durotomie). Résultats et conclusions Dans le premier chapitre, nous démontrons la capacité des neurones à modifier leur sélectivité après une période d’adaptation visuelle à un stimulus particulier, ces changements aboutissent à une réorganisation des cartes corticales suivant un patron spécifique. Nous attribuons ce résultat à la flexibilité de groupes fonctionnels de neurones qui étaient longtemps considérés comme des unités anatomiques rigides. En effet, nous observons une restructuration extensive des domaines d’orientation dans le but de remodeler les colonnes d’orientation où chaque stimulus est représenté de façon égale. Ceci est d’autant plus confirmé dans le second chapitre où dans ce cas, les cartes de connectivité fonctionnelle sont investiguées. En accord avec les résultats énumérés précédemment, les cartes de connectivité montrent également une restructuration massive mais de façon intéressante, les neurones utilisent une stratégie de sommation afin de stabiliser leurs poids de connectivité totaux. Ces dynamiques de connectivité sont examinées dans le troisième chapitre en relation avec les propriétés électrophysiologiques des neurones. En effet, deux modes de décharge neuronale permettent la distinction entre deux classes neuronales. Leurs dynamiques de corrélations distinctes suggèrent que ces deux classes jouent des rôles clés différents dans l’encodage et l’intégration des stimuli visuels au sein d’une population neuronale. Enfin, dans le dernier chapitre, l’adaptation visuelle est combinée avec l’administration de certaines substances, notamment la sérotonine (neurotransmetteur) et la fluoxétine (inhibiteur sélectif de recapture de la sérotonine). Ces deux substances produisent un effet similaire en facilitant l’acquisition des stimuli imposés par adaptation. Lorsqu’un stimulus non optimal est présenté en présence de l’une des deux substances, nous observons une augmentation du taux de décharge des neurones en présentant ce stimulus. Nous présentons un modèle neuronal basé sur cette recherche afin d’expliquer les fluctuations du taux de décharge neuronale en présence ou en absence des drogues. Cette thèse présente de nouvelles perspectives quant à la compréhension de l’adaptation des neurones du cortex visuel primaire adulte dans le but de changer leur sélectivité dans un environnement d’apprentissage. Nous montrons qu’il y a un parfait équilibre entre leurs habiletés plastiques et leur dynamique d’homéostasie.
Resumo:
La recherche d'informations s'intéresse, entre autres, à répondre à des questions comme: est-ce qu'un document est pertinent à une requête ? Est-ce que deux requêtes ou deux documents sont similaires ? Comment la similarité entre deux requêtes ou documents peut être utilisée pour améliorer l'estimation de la pertinence ? Pour donner réponse à ces questions, il est nécessaire d'associer chaque document et requête à des représentations interprétables par ordinateur. Une fois ces représentations estimées, la similarité peut correspondre, par exemple, à une distance ou une divergence qui opère dans l'espace de représentation. On admet généralement que la qualité d'une représentation a un impact direct sur l'erreur d'estimation par rapport à la vraie pertinence, jugée par un humain. Estimer de bonnes représentations des documents et des requêtes a longtemps été un problème central de la recherche d'informations. Le but de cette thèse est de proposer des nouvelles méthodes pour estimer les représentations des documents et des requêtes, la relation de pertinence entre eux et ainsi modestement avancer l'état de l'art du domaine. Nous présentons quatre articles publiés dans des conférences internationales et un article publié dans un forum d'évaluation. Les deux premiers articles concernent des méthodes qui créent l'espace de représentation selon une connaissance à priori sur les caractéristiques qui sont importantes pour la tâche à accomplir. Ceux-ci nous amènent à présenter un nouveau modèle de recherche d'informations qui diffère des modèles existants sur le plan théorique et de l'efficacité expérimentale. Les deux derniers articles marquent un changement fondamental dans l'approche de construction des représentations. Ils bénéficient notamment de l'intérêt de recherche dont les techniques d'apprentissage profond par réseaux de neurones, ou deep learning, ont fait récemment l'objet. Ces modèles d'apprentissage élicitent automatiquement les caractéristiques importantes pour la tâche demandée à partir d'une quantité importante de données. Nous nous intéressons à la modélisation des relations sémantiques entre documents et requêtes ainsi qu'entre deux ou plusieurs requêtes. Ces derniers articles marquent les premières applications de l'apprentissage de représentations par réseaux de neurones à la recherche d'informations. Les modèles proposés ont aussi produit une performance améliorée sur des collections de test standard. Nos travaux nous mènent à la conclusion générale suivante: la performance en recherche d'informations pourrait drastiquement être améliorée en se basant sur les approches d'apprentissage de représentations.
Resumo:
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
Rapport de recherche
Resumo:
FRANCAIS: L'observation d'une intense luminescence dans les super-réseaux de Si/SiO2 a ouvert de nouvelles avenues en recherche théorique des matériaux à base de silicium, pour des applications éventuelles en optoélectronique. Le silicium dans sa phase cristalline possède un gap indirect, le rendant ainsi moins intéressant vis-à-vis d'autres matériaux luminescents. Concevoir des matériaux luminescents à base de silicium ouvrira donc la voie sur de multiples applications. Ce travail fait état de trois contributions au domaine. Premièrement, différents modèles de super-réseaux de Si/SiO2 ont été conçus et étudiés à l'aide de calculs ab initio afin d'en évaluer les propriétés structurales, électroniques et optiques. Les deux premiers modèles dérivés des structures cristallines du silicium et du dioxyde de silicium ont permis de démontrer l'importance du rôle de l'interface Si/SiO2 sur les propriétés optiques. De nouveaux modèles structurellement relaxés ont alors été construits afin de mieux caractériser les interfaces et ainsi mieux évaluer la portée du confinement sur les propriétés optiques. Deuxièmement, un gap direct dans les modèles structurellement relaxés a été obtenu. Le calcul de l'absorption (par l'application de la règle d'or de Fermi) a permis de confirmer que les propriétés d'absorption (et d'émission) du silicium cristallin sont améliorées lorsque celui-ci est confiné par le SiO2. Un décalage vers le bleu avec accroissement du confinement a aussi été observé. Une étude détaillée du rôle des atomes sous-oxydés aux interfaces a de plus été menée. Ces atomes ont le double effet d'accroître légèrement le gap d'énergie et d'aplanir la structure électronique près du niveau de Fermi. Troisièmement, une application directe de la théorique des transitions de Slater, une approche issue de la théorie de la fonctionnelle de la densité pour des ensembles, a été déterminée pour le silicium cristallin puis comparée aux mesures d'absorption par rayons X. Une très bonne correspondance entre cette théorie et l'expérience est observée. Ces calculs ont été appliqués aux super-réseaux afin d'estimer et caractériser leurs propriétés électroniques dans la zone de confinement, dans les bandes de conduction.
Resumo:
Présentation audio du 13 octobre 2007, dans le cadre des séminaires étudiants au CRDP "Sécurité, normativités et mondialisation 2006-2007"
Resumo:
Rapport de recherche