135 resultados para apprentissage multi-tâche
em Université de Montréal, Canada
Resumo:
Ce mémoire est composé de trois articles et présente les résultats de travaux de recherche effectués dans le but d'améliorer les techniques actuelles permettant d'utiliser des données associées à certaines tâches dans le but d'aider à l'entraînement de réseaux de neurones sur une tâche différente. Les deux premiers articles présentent de nouveaux ensembles de données créés pour permettre une meilleure évaluation de ce type de techniques d'apprentissage machine. Le premier article introduit une suite d'ensembles de données pour la tâche de reconnaissance automatique de chiffres écrits à la main. Ces ensembles de données ont été générés à partir d'un ensemble de données déjà existant, MNIST, auquel des nouveaux facteurs de variation ont été ajoutés. Le deuxième article introduit un ensemble de données pour la tâche de reconnaissance automatique d'expressions faciales. Cet ensemble de données est composé d'images de visages qui ont été collectées automatiquement à partir du Web et ensuite étiquetées. Le troisième et dernier article présente deux nouvelles approches, dans le contexte de l'apprentissage multi-tâches, pour tirer avantage de données pour une tâche donnée afin d'améliorer les performances d'un modèle sur une tâche différente. La première approche est une généralisation des neurones Maxout récemment proposées alors que la deuxième consiste en l'application dans un contexte supervisé d'une technique permettant d'inciter des neurones à apprendre des fonctions orthogonales, à l'origine proposée pour utilisation dans un contexte semi-supervisé.
Resumo:
L’observation d’un modèle pratiquant une habileté motrice promeut l’apprentissage de l’habileté en question. Toutefois, peu de chercheurs se sont attardés à étudier les caractéristiques d’un bon modèle et à mettre en évidence les conditions d’observation pouvant optimiser l’apprentissage. Dans les trois études composant cette thèse, nous avons examiné les effets du niveau d’habileté du modèle, de la latéralité du modèle, du point de vue auquel l’observateur est placé, et du mode de présentation de l’information sur l’apprentissage d’une tâche de timing séquentielle composée de quatre segments. Dans la première expérience de la première étude, les participants observaient soit un novice, soit un expert, soit un novice et un expert. Les résultats des tests de rétention et de transfert ont révélé que l’observation d’un novice était moins bénéfique pour l’apprentissage que le fait d’observer un expert ou une combinaison des deux (condition mixte). Par ailleurs, il semblerait que l’observation combinée de modèles novice et expert induise un mouvement plus stable et une meilleure généralisation du timing relatif imposé comparativement aux deux autres conditions. Dans la seconde expérience, nous voulions déterminer si un certain type de performance chez un novice (très variable, avec ou sans amélioration de la performance) dans l’observation d’une condition mixte amenait un meilleur apprentissage de la tâche. Aucune différence significative n’a été observée entre les différents types de modèle novices employés dans l’observation de la condition mixte. Ces résultats suggèrent qu’une observation mixte fournit une représentation précise de ce qu’il faut faire (modèle expert) et que l’apprentissage est d’autant plus amélioré lorsque l’apprenant peut contraster cela avec la performance de modèles ayant moins de succès. Dans notre seconde étude, des participants droitiers devaient observer un modèle à la première ou à la troisième personne. L’observation d’un modèle utilisant la même main préférentielle que soi induit un meilleur apprentissage de la tâche que l’observation d’un modèle dont la dominance latérale est opposée à la sienne, et ce, quel que soit l’angle d’observation. Ce résultat suggère que le réseau d’observation de l’action (AON) est plus sensible à la latéralité du modèle qu’à l’angle de vue de l’observateur. Ainsi, le réseau d’observation de l’action semble lié à des régions sensorimotrices du cerveau qui simulent la programmation motrice comme si le mouvement observé était réalisé par sa propre main dominante. Pour finir, dans la troisième étude, nous nous sommes intéressés à déterminer si le mode de présentation (en direct ou en vidéo) influait sur l’apprentissage par observation et si cet effet est modulé par le point de vue de l’observateur (première ou troisième personne). Pour cela, les participants observaient soit un modèle en direct soit une présentation vidéo du modèle et ceci avec une vue soit à la première soit à la troisième personne. Nos résultats ont révélé que l’observation ne diffère pas significativement selon le type de présentation utilisée ou le point de vue auquel l’observateur est placé. Ces résultats sont contraires aux prédictions découlant des études d’imagerie cérébrale ayant montré une activation plus importante du cortex sensorimoteur lors d’une observation en direct comparée à une observation vidéo et de la première personne comparée à la troisième personne. Dans l’ensemble, nos résultats indiquent que le niveau d’habileté du modèle et sa latéralité sont des déterminants importants de l’apprentissage par observation alors que le point de vue de l’observateur et le moyen de présentation n’ont pas d’effets significatifs sur l’apprentissage d’une tâche motrice. De plus, nos résultats suggèrent que la plus grande activation du réseau d’observation de l’action révélée par les études en imagerie mentale durant l’observation d’une action n’induit pas nécessairement un meilleur apprentissage de la tâche.
Resumo:
L'apprentissage machine (AM) est un outil important dans le domaine de la recherche d'information musicale (Music Information Retrieval ou MIR). De nombreuses tâches de MIR peuvent être résolues en entraînant un classifieur sur un ensemble de caractéristiques. Pour les tâches de MIR se basant sur l'audio musical, il est possible d'extraire de l'audio les caractéristiques pertinentes à l'aide de méthodes traitement de signal. Toutefois, certains aspects musicaux sont difficiles à extraire à l'aide de simples heuristiques. Afin d'obtenir des caractéristiques plus riches, il est possible d'utiliser l'AM pour apprendre une représentation musicale à partir de l'audio. Ces caractéristiques apprises permettent souvent d'améliorer la performance sur une tâche de MIR donnée. Afin d'apprendre des représentations musicales intéressantes, il est important de considérer les aspects particuliers à l'audio musical dans la conception des modèles d'apprentissage. Vu la structure temporelle et spectrale de l'audio musical, les représentations profondes et multiéchelles sont particulièrement bien conçues pour représenter la musique. Cette thèse porte sur l'apprentissage de représentations de l'audio musical. Des modèles profonds et multiéchelles améliorant l'état de l'art pour des tâches telles que la reconnaissance d'instrument, la reconnaissance de genre et l'étiquetage automatique y sont présentés.
Resumo:
En apprentissage automatique, domaine qui consiste à utiliser des données pour apprendre une solution aux problèmes que nous voulons confier à la machine, le modèle des Réseaux de Neurones Artificiels (ANN) est un outil précieux. Il a été inventé voilà maintenant près de soixante ans, et pourtant, il est encore de nos jours le sujet d'une recherche active. Récemment, avec l'apprentissage profond, il a en effet permis d'améliorer l'état de l'art dans de nombreux champs d'applications comme la vision par ordinateur, le traitement de la parole et le traitement des langues naturelles. La quantité toujours grandissante de données disponibles et les améliorations du matériel informatique ont permis de faciliter l'apprentissage de modèles à haute capacité comme les ANNs profonds. Cependant, des difficultés inhérentes à l'entraînement de tels modèles, comme les minima locaux, ont encore un impact important. L'apprentissage profond vise donc à trouver des solutions, en régularisant ou en facilitant l'optimisation. Le pré-entraînnement non-supervisé, ou la technique du ``Dropout'', en sont des exemples. Les deux premiers travaux présentés dans cette thèse suivent cette ligne de recherche. Le premier étudie les problèmes de gradients diminuants/explosants dans les architectures profondes. Il montre que des choix simples, comme la fonction d'activation ou l'initialisation des poids du réseaux, ont une grande influence. Nous proposons l'initialisation normalisée pour faciliter l'apprentissage. Le second se focalise sur le choix de la fonction d'activation et présente le rectifieur, ou unité rectificatrice linéaire. Cette étude a été la première à mettre l'accent sur les fonctions d'activations linéaires par morceaux pour les réseaux de neurones profonds en apprentissage supervisé. Aujourd'hui, ce type de fonction d'activation est une composante essentielle des réseaux de neurones profonds. Les deux derniers travaux présentés se concentrent sur les applications des ANNs en traitement des langues naturelles. Le premier aborde le sujet de l'adaptation de domaine pour l'analyse de sentiment, en utilisant des Auto-Encodeurs Débruitants. Celui-ci est encore l'état de l'art de nos jours. Le second traite de l'apprentissage de données multi-relationnelles avec un modèle à base d'énergie, pouvant être utilisé pour la tâche de désambiguation de sens.
Resumo:
Le programme -Une école adaptée à tous ses élèves-, qui s'inscrit dans la réforme actuelle de l'éducation au Québec, nous a amenée à nous intéresser aux représentations dans les grandeurs en mesure en mathématiques des élèves en difficulté d'apprentissage. Nous nous sommes proposés de reconduire plusieurs paramètres de la recherche de Brousseau (1987, 1992) auprès de cette clientèle. La théorie des champs conceptuels (TCC) de Vergnaud (1991), appliquée aux structures additives, a été particulièrement utile pour l'analyse et l'interprétation de leurs représentations. Comme méthode de recherche, nous avons utilisé la théorie des situations didactiques en mathématiques (TSDM), réseau de concepts et de méthode de recherche appuyé sur l'ingénierie didactique qui permet une meilleure compréhension de l'articulation des contenus à enseigner. Grâce à la TSDM, nous avons observé les approches didactiques des enseignants avec leurs élèves. Notre recherche est de type exploratoire et qualitatif et les données recueillies auprès de 26 élèves de deux classes spéciales du deuxième cycle du primaire ont été traitées selon une méthode d'analyse de contenu. Deux conduites ont été adoptées par les élèves. La première, de type procédural a été utilisée par presque tous les élèves. Elle consiste à utiliser des systèmes de comptage plus ou moins sophistiqués, de la planification aux suites d'actions. La deuxième consiste à récupérer directement en mémoire à long terme le résultat associé à un couple donné et au contrôle de son exécution. L'observation des conduites révèle que les erreurs sont dues à une rupture du sens. Ainsi, les difficultés d'ordre conceptuel et de symbolisation nous sont apparues plus importantes lorsque l'activité d'échange demandait la compétence "utilisation" et renvoyait à la compréhension de la tâche, soit les tâches dans lesquelles ils doivent eux-mêmes découvrir les rapports entre les variables à travailler et à simuler les actions décrites dans les énoncés. En conséquence, les problèmes d'échanges se sont révélés difficiles à modéliser en actes et significativement plus ardus que les autres. L'étude des interactions enseignants et élèves a démontré que la parole a été presque uniquement le fait des enseignants qui ont utilisé l'approche du contrôle des actes ou du sens ou les deux stratégies pour aider des élèves en difficulté. Selon le type de situation à résoudre dans ces activités de mesurage de longueur et de masse, des mobilisations plurielles ont été mises en oeuvre par les élèves, telles que la manipulation d'un ou des étalon(s) par superposition, par reports successifs, par pliage ou par coupure lorsque l'étalon dépassait; par retrait ou ajout d'un peu de sable afin de stabiliser les plateaux. Nous avons également observé que bien que certains élèves aient utilisé leurs doigts pour se donner une perception globale extériorisée des quantités, plusieurs ont employé des procédures très diverses au cours de ces mêmes séances. Les résultats présentés étayent l'hypothèse selon laquelle les concepts de grandeur et de mesure prennent du sens à travers des situations problèmes liées à des situations vécues par les élèves, comme les comparaisons directes. Eles renforcent et relient les grandeurs, leurs propriétés et les connaissances numériques.
Resumo:
Les avancés dans le domaine de l’intelligence artificielle, permettent à des systèmes informatiques de résoudre des tâches de plus en plus complexes liées par exemple à la vision, à la compréhension de signaux sonores ou au traitement de la langue. Parmi les modèles existants, on retrouve les Réseaux de Neurones Artificiels (RNA), dont la popularité a fait un grand bond en avant avec la découverte de Hinton et al. [22], soit l’utilisation de Machines de Boltzmann Restreintes (RBM) pour un pré-entraînement non-supervisé couche après couche, facilitant grandement l’entraînement supervisé du réseau à plusieurs couches cachées (DBN), entraînement qui s’avérait jusqu’alors très difficile à réussir. Depuis cette découverte, des chercheurs ont étudié l’efficacité de nouvelles stratégies de pré-entraînement, telles que l’empilement d’auto-encodeurs traditionnels(SAE) [5, 38], et l’empilement d’auto-encodeur débruiteur (SDAE) [44]. C’est dans ce contexte qu’a débuté la présente étude. Après un bref passage en revue des notions de base du domaine de l’apprentissage machine et des méthodes de pré-entraînement employées jusqu’à présent avec les modules RBM, AE et DAE, nous avons approfondi notre compréhension du pré-entraînement de type SDAE, exploré ses différentes propriétés et étudié des variantes de SDAE comme stratégie d’initialisation d’architecture profonde. Nous avons ainsi pu, entre autres choses, mettre en lumière l’influence du niveau de bruit, du nombre de couches et du nombre d’unités cachées sur l’erreur de généralisation du SDAE. Nous avons constaté une amélioration de la performance sur la tâche supervisée avec l’utilisation des bruits poivre et sel (PS) et gaussien (GS), bruits s’avérant mieux justifiés que celui utilisé jusqu’à présent, soit le masque à zéro (MN). De plus, nous avons démontré que la performance profitait d’une emphase imposée sur la reconstruction des données corrompues durant l’entraînement des différents DAE. Nos travaux ont aussi permis de révéler que le DAE était en mesure d’apprendre, sur des images naturelles, des filtres semblables à ceux retrouvés dans les cellules V1 du cortex visuel, soit des filtres détecteurs de bordures. Nous aurons par ailleurs pu montrer que les représentations apprises du SDAE, composées des caractéristiques ainsi extraites, s’avéraient fort utiles à l’apprentissage d’une machine à vecteurs de support (SVM) linéaire ou à noyau gaussien, améliorant grandement sa performance de généralisation. Aussi, nous aurons observé que similairement au DBN, et contrairement au SAE, le SDAE possédait une bonne capacité en tant que modèle générateur. Nous avons également ouvert la porte à de nouvelles stratégies de pré-entraînement et découvert le potentiel de l’une d’entre elles, soit l’empilement d’auto-encodeurs rebruiteurs (SRAE).
Resumo:
Plusieurs recherches ont démontré que la qualité des interactions mère-enfant influence le développement de la fonction exécutive (FE) chez les enfants d’âge préscolaire. Ces recherches se sont attardées à la dimension « froide » de la FE qui regroupe les habiletés de prise de décisions générales en situation de résolution de problèmes. Cette recherche s’intéresse à l’autre dimension de la FE, les cognitions « chaudes », qui entrent en jeu lorsque la prise de décisions en situation de résolution de problèmes implique une charge émotionnelle. Cette dimension joue un rôle dans la prise de décisions affectives (PDA). Les études empiriques qui portent sur la PDA ont principalement regardé les liens avec le sexe et l’âge des enfants ainsi que les relations avec les facteurs neurologiques. Aucune étude à notre connaissance n’a examiné les liens avec la qualité des interactions mère-enfant. L’exploration empirique de la contribution des facteurs environnementaux proximaux de l’enfant, tel que le soutien affectif maternel, reste à faire. Dans un premier temps, cette recherche examine l’effet du soutien affectif maternel sur la PDA globale. Dans un deuxième temps, l’effet du sexe et l’effet d’interaction entre la qualité du soutien affectif maternel et les profils d’apprentissage des enfants de 48 mois sont examinés. Enfin, cette étude examine cent quatre-vingt-onze enfants (109 filles et 82 garçons) et leur mère qui ont participé à une journée d'évaluation en laboratoire dans le cadre de l’Étude Longitudinale sur le Développement des Enfants du Québec - groupe Pilote (ELDEQ-P, Santé Québec, 1997). Ils ont réalisé différentes activités permettant de les évaluer en dyade ou individuellement. La PDA a été évaluée à l’aide du Children’s Gambling Task (CGT) (Kerr & Zelazo, 2001). Le soutien affectif maternel a été évalué à partir d’une tâche de récits narratifs co-construits entre la mère et l’enfant (MacArthur Story-Stem Battery (MSSB), Bretherton, Oppenheim, Buchsbaum, Emde & the MacArthur Narrative Group, 1990) et la grille d’évaluation du Climat affectif a été utilisée pour évaluer la qualité du soutien affectif maternel (Boutin, Parent, et Lapalme-L’Heureux, 1998). Nos résultats indiquent que la qualité du soutien affectif maternel n’a pas d’effet principal sur la PDA globale mais interagit avec les profils d’apprentissage des enfants en contexte de PDA. Cette interaction est toutefois significative uniquement chez les garçons. Les garçons qui reçoivent un soutien affectif maternel dans la moyenne ou élevé obtiennent un meilleur profil d’apprentissage en situation de PDA comparativement à ceux qui ont un soutien affectif maternel sous la moyenne. En outre, les résultats révèlent que les 26 enfants (12 garçons, 14 filles) qui ont abandonné en cours de tâche obtiennent des scores plus faibles sur la qualité du soutien affectif maternel. Ce résultat suggère que les enfants obtenant un faible soutien affectif maternel sont plus enclins à abandonner une tâche d’apprentissage en situation de PDA. En somme, les résultats de la présente étude suggèrent que la qualité des interactions mère-enfant est importante sur le développement d’habiletés cognitives en contexte émotionnel chez les enfants d’âge préscolaire.
Resumo:
Les documents publiés par des entreprises, tels les communiqués de presse, contiennent une foule d’informations sur diverses activités des entreprises. C’est une source précieuse pour des analyses en intelligence d’affaire. Cependant, il est nécessaire de développer des outils pour permettre d’exploiter cette source automatiquement, étant donné son grand volume. Ce mémoire décrit un travail qui s’inscrit dans un volet d’intelligence d’affaire, à savoir la détection de relations d’affaire entre les entreprises décrites dans des communiqués de presse. Dans ce mémoire, nous proposons une approche basée sur la classification. Les méthodes de classifications existantes ne nous permettent pas d’obtenir une performance satisfaisante. Ceci est notamment dû à deux problèmes : la représentation du texte par tous les mots, qui n’aide pas nécessairement à spécifier une relation d’affaire, et le déséquilibre entre les classes. Pour traiter le premier problème, nous proposons une approche de représentation basée sur des mots pivots c’est-à-dire les noms d’entreprises concernées, afin de mieux cerner des mots susceptibles de les décrire. Pour le deuxième problème, nous proposons une classification à deux étapes. Cette méthode s’avère plus appropriée que les méthodes traditionnelles de ré-échantillonnage. Nous avons testé nos approches sur une collection de communiqués de presse dans le domaine automobile. Nos expérimentations montrent que les approches proposées peuvent améliorer la performance de classification. Notamment, la représentation du document basée sur les mots pivots nous permet de mieux centrer sur les mots utiles pour la détection de relations d’affaire. La classification en deux étapes apporte une solution efficace au problème de déséquilibre entre les classes. Ce travail montre que la détection automatique des relations d’affaire est une tâche faisable. Le résultat de cette détection pourrait être utilisé dans une analyse d’intelligence d’affaire.
Resumo:
Malgré des progrès constants en termes de capacité de calcul, mémoire et quantité de données disponibles, les algorithmes d'apprentissage machine doivent se montrer efficaces dans l'utilisation de ces ressources. La minimisation des coûts est évidemment un facteur important, mais une autre motivation est la recherche de mécanismes d'apprentissage capables de reproduire le comportement d'êtres intelligents. Cette thèse aborde le problème de l'efficacité à travers plusieurs articles traitant d'algorithmes d'apprentissage variés : ce problème est vu non seulement du point de vue de l'efficacité computationnelle (temps de calcul et mémoire utilisés), mais aussi de celui de l'efficacité statistique (nombre d'exemples requis pour accomplir une tâche donnée). Une première contribution apportée par cette thèse est la mise en lumière d'inefficacités statistiques dans des algorithmes existants. Nous montrons ainsi que les arbres de décision généralisent mal pour certains types de tâches (chapitre 3), de même que les algorithmes classiques d'apprentissage semi-supervisé à base de graphe (chapitre 5), chacun étant affecté par une forme particulière de la malédiction de la dimensionalité. Pour une certaine classe de réseaux de neurones, appelés réseaux sommes-produits, nous montrons qu'il peut être exponentiellement moins efficace de représenter certaines fonctions par des réseaux à une seule couche cachée, comparé à des réseaux profonds (chapitre 4). Nos analyses permettent de mieux comprendre certains problèmes intrinsèques liés à ces algorithmes, et d'orienter la recherche dans des directions qui pourraient permettre de les résoudre. Nous identifions également des inefficacités computationnelles dans les algorithmes d'apprentissage semi-supervisé à base de graphe (chapitre 5), et dans l'apprentissage de mélanges de Gaussiennes en présence de valeurs manquantes (chapitre 6). Dans les deux cas, nous proposons de nouveaux algorithmes capables de traiter des ensembles de données significativement plus grands. Les deux derniers chapitres traitent de l'efficacité computationnelle sous un angle différent. Dans le chapitre 7, nous analysons de manière théorique un algorithme existant pour l'apprentissage efficace dans les machines de Boltzmann restreintes (la divergence contrastive), afin de mieux comprendre les raisons qui expliquent le succès de cet algorithme. Finalement, dans le chapitre 8 nous présentons une application de l'apprentissage machine dans le domaine des jeux vidéo, pour laquelle le problème de l'efficacité computationnelle est relié à des considérations d'ingénierie logicielle et matérielle, souvent ignorées en recherche mais ô combien importantes en pratique.
Resumo:
Réalisé en cotutelle avec le laboratoire M2S de Rennes 2
Resumo:
Le traitement visuel répété d’un visage inconnu entraîne une suppression de l’activité neuronale dans les régions préférentielles aux visages du cortex occipito-temporal. Cette «suppression neuronale» (SN) est un mécanisme primitif hautement impliqué dans l’apprentissage de visages, pouvant être détecté par une réduction de l’amplitude de la composante N170, un potentiel relié à l’événement (PRE), au-dessus du cortex occipito-temporal. Le cortex préfrontal dorsolatéral (CPDL) influence le traitement et l’encodage visuel, mais sa contribution à la SN de la N170 demeure inconnue. Nous avons utilisé la stimulation électrique transcrânienne à courant direct (SETCD) pour moduler l’excitabilité corticale du CPDL de 14 adultes sains lors de l’apprentissage de visages inconnus. Trois conditions de stimulation étaient utilisées: inhibition à droite, excitation à droite et placebo. Pendant l’apprentissage, l’EEG était enregistré afin d’évaluer la SN de la P100, la N170 et la P300. Trois jours suivant l’apprentissage, une tâche de reconnaissance était administrée où les performances en pourcentage de bonnes réponses et temps de réaction (TR) étaient enregistrées. Les résultats indiquent que la condition d’excitation à droite a facilité la SN de la N170 et a augmentée l’amplitude de la P300, entraînant une reconnaissance des visages plus rapide à long-terme. À l’inverse, la condition d’inhibition à droite a causé une augmentation de l’amplitude de la N170 et des TR plus lents, sans affecter la P300. Ces résultats sont les premiers à démontrer que la modulation d’excitabilité du CPDL puisse influencer l’encodage visuel de visages inconnus, soulignant l’importance du CPDL dans les mécanismes d’apprentissage de base.
Resumo:
L'ère numérique dans laquelle nous sommes entrés apporte une quantité importante de nouveaux défis à relever dans une multitude de domaines. Le traitement automatique de l'abondante information à notre disposition est l'un de ces défis, et nous allons ici nous pencher sur des méthodes et techniques adaptées au filtrage et à la recommandation à l'utilisateur d'articles adaptés à ses goûts, dans le contexte particulier et sans précédent notable du jeu vidéo multi-joueurs en ligne. Notre objectif est de prédire l'appréciation des niveaux par les joueurs. Au moyen d'algorithmes d'apprentissage machine modernes tels que les réseaux de neurones profonds avec pré-entrainement non-supervisé, que nous décrivons après une introduction aux concepts nécessaires à leur bonne compréhension, nous proposons deux architectures aux caractéristiques différentes bien que basées sur ce même concept d'apprentissage profond. La première est un réseau de neurones multi-couches pour lequel nous tentons d'expliquer les performances variables que nous rapportons sur les expériences menées pour diverses variations de profondeur, d'heuristique d'entraînement, et des méthodes de pré-entraînement non-supervisé simple, débruitant et contractant. Pour la seconde architecture, nous nous inspirons des modèles à énergie et proposons de même une explication des résultats obtenus, variables eux aussi. Enfin, nous décrivons une première tentative fructueuse d'amélioration de cette seconde architecture au moyen d'un fine-tuning supervisé succédant le pré-entrainement, puis une seconde tentative où ce fine-tuning est fait au moyen d'un critère d'entraînement semi-supervisé multi-tâches. Nos expériences montrent des performances prometteuses, notament avec l'architecture inspirée des modèles à énergie, justifiant du moins l'utilisation d'algorithmes d'apprentissage profonds pour résoudre le problème de la recommandation.
Resumo:
Si les bénéfices de la pratique physique sur l’apprentissage moteur ne sont plus à démontrer, de nombreuses études s’accordent sur le fait qu’il est également possible d’apprendre une nouvelle habileté en observant un modèle qui réalise la tâche à apprendre. De plus, plusieurs chercheurs ont montré que les mécanismes permettant l’acquisition d’une nouvelle habileté motrice par pratique physique et par observation sont semblables. Or, l’apprentissage se poursuit au-delà des séances de pratique par des « processus de consolidation » essentiels pour que les habiletés pratiquées soient retenues à long terme. À cet effet, Trempe, Sabourin, Rohbanfard et Proteau (2011), ont montré que la consolidation ne s'effectuait pas de la même façon selon que la pratique était faite physiquement ou par observation. Par conséquent, nous avons tenté de déterminer si pratiquer une tâche par pratique physique et l’autre par observation permet d'optimiser l'apprentissage concomitant de ces deux tâches bien qu’elles soient normalement interférentes. Nos résultats ont montré que la tâche A causait une interférence antérograde sur la tâche B peu importe le type de pratique effectué, ce qui suggère que les processus de consolidation prenant place suite à l’observation sont plutôt similaires à ceux qui prennent place suite à la pratique physique. Ainsi, il semble que la pratique mixte ne permet pas de réduire les interférences lors de l’apprentissage de deux tâches semblables.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.