764 resultados para Learning to learn


Relevância:

90.00% 90.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Dans la cellule, chaque ARNm se doit d’être régulé finement au niveau transcriptionnel, bien entendu, mais également au niveau de sa traduction, de sa dégradation ainsi que de sa localisation intracellulaire, et ce, afin de permettre l’expression de chaque produit protéique au moment et à l’endroit précis où son action est requise. Lorsqu’un mécanisme physiologique est mis de l’avant dans la cellule, il arrive souvent que plusieurs ARNm se doivent d’être régulés simultanément. L’un des moyens permettant d’orchestrer un tel processus est de réguler l’action d’une protéine commune associée à chacun de ces ARNm, via un mécanisme post-traductionnel par exemple. Ainsi l’expression d’un groupe précis d’ARNm peut être régulée finement dans le temps et dans l’espace selon les facteurs protéiques auxquels il est associé. Dans l’optique d’étudier certains de ces complexes ribonucléoprotéiques (mRNP), nous nous sommes intéressés aux isoformes et paralogues de Staufen, une protéine à domaine de liaison à l’ARN double-brin (dsRBD) impliquée dans de nombreux aspects de la régulation post-transcriptionnelle, tels la dégradation, la traduction ou encore la localisation d’ARNm. Chez la drosophile, un seul gène Staufen est exprimé alors que chez les mammifères, il existe deux paralogues de la protéine, soit Stau1 et Stau2, tous deux possédant divers isoformes produits suite à l’épissage alternatif de leur gène. Stau1 et Stau2 sont identiques à 50%. Les deux isoformes de Stau2, Stau259 et Stau262 ne diffèrent qu’en leur extrémité N-terminale. En effet, alors que Stau259 arbore un dsRBD1 tronqué, celui de Stau262 est complet. Ces observations introduisent une problématique très intéressante à laquelle nous nous sommes attaqué : ces différentes protéines, quoique très semblables, font-elles partie de complexes ribonucléoprotéiques distincts ayant des fonctions propres à chacun ou, au contraire, vu cette similarité de séquence, travaillent-elles de concert au sein des mêmes complexes ribonucléoprotéiques? Afin d’adresser cette question, nous avons entrepris d’isoler, à partir de cellules HEK293T, les différents complexes de Stau1 et Stau2 par la technique d’immunoprécipitation. Nous avons isolé les ARNm associés à chaque protéine, les avons identifiés grâce aux micropuces d’ADN et avons confirmé nos résultats par RT-PCR. Malgré la présence d’une population commune d’ARNm associée à Stau1 et Stau2, la majorité des transcrits identifiés furent spécifiques à chaque orthologue. Cependant, nous avons remarqué que les diverses populations d’ARNm participaient aux mêmes mécanismes de régulation, ce qui suggère que ces deux protéines possèdent des rôles complémentaires dans la mise en œuvre de divers phénomènes cellulaires. Au contraire, les transcrits associés à Stau259 et Stau262 sont davantage similaires, indiquant que celles-ci auraient des fonctions plutôt semblables. Ces résultats sont très intéressants, car pour la première fois, nous avons identifié des populations d’ARNm associées aux isoformes Stau155, Stau259 et Stau262. De plus, nous les avons analysées en parallèle afin d’en faire ressortir les populations spécifiques à chacune de ces protéines. Ensuite, connaissant l’importance de Stau2 dans le transport dendritique d’ARNm, nous avons cherché à caractériser les complexes ribonucléoprotéiques neuronaux associés à celle-ci. Dans un premier temps et à l’aide de la technique d’immunoprécipitation, nous avons identifié une population d’ARNm neuronaux associés à Stau2. Plus de 1700 ARNm montraient une présence d’au moins huit fois supérieure dans le précipité obtenu avec l’anticorps anti-Stau2 par rapport à celui obtenu avec le sérum pré-immun. Ces ARNm codent pour des protéines impliquées dans des processus de modifications post-traductionnelles, de traduction, de transport intracellulaire et de métabolisme de l’ARN. De façon intéressante, cette population d’ARNm isolée du cerveau de rat est relativement différente de celle caractérisée des cellules humaines HEK293T. Ceci suggère que la spécificité d’association Stau2-ARNm peut diffèrer d’un tissu à un autre. Dans un deuxième temps, nous avons isolé les protéines présentes dans les complexes ribonucléoprotéiques obtenus de cerveaux de rat et les avons identifiées par analyse en spectrométrie de masse. De cette façon, nous avons identifié au sein des particules de Stau2 des protéines liant l’ARN (PABPC1, hnRNPH1, YB1, hsc70), des protéines du cytosquelette (α- et β-tubuline), de même que la protéine peu caractérisée RUFY3. En poussant davantage la caractérisation, nous avons établi que YB1 et PABPC1 étaient associées à Stau2 grâce à la présence de l’ARN, alors que la protéine hsc70, au contraire, interagissait directement avec celle-ci. Enfin, cette dernière association semble être modulable par l’action de l’ATP. Ce résultat offre de nombreuses possibilités quant à la régulation de la fonction de Stau2 et/ou de son mRNP. Entre autres, cette étude suggère un mécanisme de régulation de la traduction au sein de ces particules. Pour faire suite à la caractérisation des mRNP de Stau, nous avons voulu déterminer au niveau neurophysiologique l’importance de ceux-ci. Comme l’étude de Stau2 avait déjà été entreprise préalablement par un autre laboratoire, nous avons décidé de concentrer notre étude sur le rôle de Stau1. Ainsi, nous avons démontré que celle-ci était nécessaire à la mise en place d’une forme de plasticité synaptique à long terme, la forme tardive de potentialisation à long terme ou L-LTP, dépendante de la transcription et de l’activité des récepteurs NMDA. La transmission de base, de même que la faculté de ces épines à faire de la E-LTP, la forme précoce de potentialisation à long terme, et la dépression à long terme ou LTD sont conservées. Ceci indique que les épines conservent la capacité d’être modulées. Ainsi, l’inhibition de la L-LTP, suite à la sous-expression de Stau1, n’est pas simplement due à la perte d’éléments fonctionnels, mais réside plutôt dans l’incapacité de ceux-ci à induire les changements synaptiques spécifiquement nécessaires à la mise en place de la L-LTP. De plus, au niveau synaptique, la sous-expression de Stau1 réduit à la fois l’amplitude et la fréquence des mEPSC. Ces résultats concordent avec l’observation que la sous-expression de Stau1 augmente significativement la proportion d’épines allongées et filopodales, des épines formant des synapses dites silencieuses. Par le fait même, elle diminue le nombre d’épines fonctionnelles, de forme dite normale. Ainsi, nous avons été en mesure de démontrer que l’absence, au niveau neuronal, de la protéine Stau1 induisait un déficit probable dans la localisation et/ou la traduction d’ARNm responsable de la restructuration de l’épine et de facteurs nécessaires à la mise en place de la L-LTP. En conclusion, nous avons participé à lever le voile sur la composition et l’importance des complexes ribonucléoprotéiques de Stau1 et Stau2. Nous avons identifié des populations distinctes et communes d’ARNm associées aux différents isoformes de Stau, à partir des mRNP présents au sein des cellules HEK293. De plus, nous avons réussi à mettre à l’avant plan certaines composantes des mRNP neuronaux de Stau2, dont un partenaire protéique direct, hsc70, partenaire dont l’association est modulable par l’action de l’ATP, ainsi qu’une population neuronale de transcrits d’ARNm. Enfin, nous avons mis en lumière l’importance de Stau1 dans la morphologie des épines dendritiques ainsi que dans le phénomène de la plasticité synaptique.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

L'apprentissage machine (AM) est un outil important dans le domaine de la recherche d'information musicale (Music Information Retrieval ou MIR). De nombreuses tâches de MIR peuvent être résolues en entraînant un classifieur sur un ensemble de caractéristiques. Pour les tâches de MIR se basant sur l'audio musical, il est possible d'extraire de l'audio les caractéristiques pertinentes à l'aide de méthodes traitement de signal. Toutefois, certains aspects musicaux sont difficiles à extraire à l'aide de simples heuristiques. Afin d'obtenir des caractéristiques plus riches, il est possible d'utiliser l'AM pour apprendre une représentation musicale à partir de l'audio. Ces caractéristiques apprises permettent souvent d'améliorer la performance sur une tâche de MIR donnée. Afin d'apprendre des représentations musicales intéressantes, il est important de considérer les aspects particuliers à l'audio musical dans la conception des modèles d'apprentissage. Vu la structure temporelle et spectrale de l'audio musical, les représentations profondes et multiéchelles sont particulièrement bien conçues pour représenter la musique. Cette thèse porte sur l'apprentissage de représentations de l'audio musical. Des modèles profonds et multiéchelles améliorant l'état de l'art pour des tâches telles que la reconnaissance d'instrument, la reconnaissance de genre et l'étiquetage automatique y sont présentés.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Malgré des progrès constants en termes de capacité de calcul, mémoire et quantité de données disponibles, les algorithmes d'apprentissage machine doivent se montrer efficaces dans l'utilisation de ces ressources. La minimisation des coûts est évidemment un facteur important, mais une autre motivation est la recherche de mécanismes d'apprentissage capables de reproduire le comportement d'êtres intelligents. Cette thèse aborde le problème de l'efficacité à travers plusieurs articles traitant d'algorithmes d'apprentissage variés : ce problème est vu non seulement du point de vue de l'efficacité computationnelle (temps de calcul et mémoire utilisés), mais aussi de celui de l'efficacité statistique (nombre d'exemples requis pour accomplir une tâche donnée). Une première contribution apportée par cette thèse est la mise en lumière d'inefficacités statistiques dans des algorithmes existants. Nous montrons ainsi que les arbres de décision généralisent mal pour certains types de tâches (chapitre 3), de même que les algorithmes classiques d'apprentissage semi-supervisé à base de graphe (chapitre 5), chacun étant affecté par une forme particulière de la malédiction de la dimensionalité. Pour une certaine classe de réseaux de neurones, appelés réseaux sommes-produits, nous montrons qu'il peut être exponentiellement moins efficace de représenter certaines fonctions par des réseaux à une seule couche cachée, comparé à des réseaux profonds (chapitre 4). Nos analyses permettent de mieux comprendre certains problèmes intrinsèques liés à ces algorithmes, et d'orienter la recherche dans des directions qui pourraient permettre de les résoudre. Nous identifions également des inefficacités computationnelles dans les algorithmes d'apprentissage semi-supervisé à base de graphe (chapitre 5), et dans l'apprentissage de mélanges de Gaussiennes en présence de valeurs manquantes (chapitre 6). Dans les deux cas, nous proposons de nouveaux algorithmes capables de traiter des ensembles de données significativement plus grands. Les deux derniers chapitres traitent de l'efficacité computationnelle sous un angle différent. Dans le chapitre 7, nous analysons de manière théorique un algorithme existant pour l'apprentissage efficace dans les machines de Boltzmann restreintes (la divergence contrastive), afin de mieux comprendre les raisons qui expliquent le succès de cet algorithme. Finalement, dans le chapitre 8 nous présentons une application de l'apprentissage machine dans le domaine des jeux vidéo, pour laquelle le problème de l'efficacité computationnelle est relié à des considérations d'ingénierie logicielle et matérielle, souvent ignorées en recherche mais ô combien importantes en pratique.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

La collaboration est une compétence essentielle que les futurs médecins doivent développer. La détermination des niveaux de compétence est cruciale dans la planification de cet apprentissage. Les échelles descriptives suscitent un intérêt croissant, car elles décrivent en termes qualitatifs les performances attendues. Nous inspirant de la méthodologie mixte de Blais, Laurier, & Rousseau (2009), nous avons construit en cinq étapes une échelle de niveau de compétence de collaboration: 1) formulation d’une liste d’indicateurs situés à quatre niveaux de la formation médicale (préclinique, externat, résidence junior et sénior) par les chercheurs (n= 3) et un groupe d’éducateurs (n=7), leaders pédagogiques possédant une expertise pour la compétence de collaboration; 2) sondage en ligne comprenant quatre questionnaires portant sur les niveaux de 118 indicateurs, auprès d’enseignants cliniciens représentant les différentes spécialités (n=277); 3) analyse, avec le modèle partial credit de Rasch, des réponses aux questionnaires appariés par calibration concurrente; 4) détermination des niveaux des indicateurs par les éducateurs et les chercheurs; et 5) rédaction de l’échelle à partir des indicateurs de chaque niveau. L’analyse itérative des réponses montre une adéquation au modèle de Rasch et répartit les indicateurs sur l’échelle linéaire aux quatre niveaux. Les éducateurs déterminent le niveau des 111 indicateurs retenus en tenant compte des résultats du sondage et de la cohérence avec le curriculum. L’échelle comporte un paragraphe descriptif par niveau, selon trois capacités : 1) participer au fonctionnement d’une équipe; 2) prévenir et gérer les conflits; et 3) planifier, coordonner et dispenser les soins en équipe. Cette échelle rend explicites les comportements collaboratifs attendus à la fin de chaque niveau et est utile à la planification de l’apprentissage et de l’évaluation de cette compétence. La discordance entre les niveaux choisis par les éducateurs et ceux issus de l’analyse des réponses des enseignants cliniciens est principalement due au faible choix de réponse du niveau préclinique par les enseignants et aux problèmes d’adéquation pour les indicateurs décrivant la gestion des conflits. Cette recherche marque une avan- cée dans la compréhension de la compétence de collaboration et démontre l’efficacité de la méthodologie de Blais (2009) dans un contexte de compétence transversale, en sciences de la santé. Cette méthodologie pourrait aider à approfondir les trajectoires de développement d’autres compétences.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Les systèmes éducatifs dans le monde et particulièrement au Québec visent à préparer les élèves à relever les défis de l’avenir et à continuer à apprendre tout au long de leur vie. À cet égard, la lecture est un volet important dans le développement d'un enfant et dans sa capacité de faire des liens avec le monde qui l'entoure. La lecture est un outil d’apprentissage, de communication et de création, et elle peut être une source de plaisir. La plupart des activités quotidiennes font appel à la lecture. Ainsi, elle est nécessaire pour effectuer une tâche, se renseigner ou se divertir. L’élève apprend à lire pour mieux s’intégrer dans la vie scolaire et sociale et pour apprendre dans différents contextes disciplinaires. Dans le but notamment de consolider les apprentissages et d’installer de bonnes habitudes de travail, les enseignants proposent aux élèves des devoirs de lecture à faire à la maison. Les recherches montrent que la participation des parents dans la vie scolaire des enfants, particulièrement lors de l’encadrement des devoirs, peut avoir une influence positive sur la réussite scolaire. La présente recherche vise à étudier la manière dont les parents d’élèves de première année encadrent leur enfant pendant la période des devoirs, notamment pendant la lecture. Notre échantillon est constitué de dix-sept parents d’élèves de première année. Nous avons privilégié l’entrevue semi-dirigée afin de recueillir les commentaires et les perceptions des parents sur le déroulement de la période des devoirs à la maison. Les résultats ont montré que tous les parents interrogés encadrent leur enfant pendant ses devoirs, les mères plus souvent que les pères, et qu’ils établissent une routine lors de cette période. L’encadrement des devoirs se fait majoritairement dans un climat agréable. La plupart des parents soutiennent leur enfant en restant à proximité de lui, en lui donnant des conseils, en l’encourageant et en s’assurant qu’il termine ses devoirs. La majorité des parents estiment avoir les ressources nécessaires pour encadrer leur enfant lors des devoirs. Durant la lecture, les parents écoutent généralement leur enfant et l’aident ou le corrigent s’il n’arrive pas à lire ou s’il fait une erreur. Par ailleurs, même si les parents sont convaincus de l’habileté de leur enfant en lecture, la plupart vérifient sa compréhension en posant des questions. En ce qui a trait aux effets des devoirs, tous les parents pensent que les devoirs favorisent la réussite scolaire de leur enfant et que leur encadrement a un effet positif sur la lecture. Les résultats obtenus ne peuvent être généralisés. Cependant, il serait intéressant de poursuivre ce travail par une recherche complémentaire qui étudierait les perceptions des enseignants et des élèves sur les devoirs de lecture.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Les humains communiquent via différents types de canaux: les mots, la voix, les gestes du corps, des émotions, etc. Pour cette raison, un ordinateur doit percevoir ces divers canaux de communication pour pouvoir interagir intelligemment avec les humains, par exemple en faisant usage de microphones et de webcams. Dans cette thèse, nous nous intéressons à déterminer les émotions humaines à partir d’images ou de vidéo de visages afin d’ensuite utiliser ces informations dans différents domaines d’applications. Ce mémoire débute par une brève introduction à l'apprentissage machine en s’attardant aux modèles et algorithmes que nous avons utilisés tels que les perceptrons multicouches, réseaux de neurones à convolution et autoencodeurs. Elle présente ensuite les résultats de l'application de ces modèles sur plusieurs ensembles de données d'expressions et émotions faciales. Nous nous concentrons sur l'étude des différents types d’autoencodeurs (autoencodeur débruitant, autoencodeur contractant, etc) afin de révéler certaines de leurs limitations, comme la possibilité d'obtenir de la coadaptation entre les filtres ou encore d’obtenir une courbe spectrale trop lisse, et étudions de nouvelles idées pour répondre à ces problèmes. Nous proposons également une nouvelle approche pour surmonter une limite des autoencodeurs traditionnellement entrainés de façon purement non-supervisée, c'est-à-dire sans utiliser aucune connaissance de la tâche que nous voulons finalement résoudre (comme la prévision des étiquettes de classe) en développant un nouveau critère d'apprentissage semi-supervisé qui exploite un faible nombre de données étiquetées en combinaison avec une grande quantité de données non-étiquetées afin d'apprendre une représentation adaptée à la tâche de classification, et d'obtenir une meilleure performance de classification. Finalement, nous décrivons le fonctionnement général de notre système de détection d'émotions et proposons de nouvelles idées pouvant mener à de futurs travaux.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Si les bénéfices de la pratique physique sur l’apprentissage moteur ne sont plus à démontrer, de nombreuses études s’accordent sur le fait qu’il est également possible d’apprendre une nouvelle habileté en observant un modèle qui réalise la tâche à apprendre. De plus, plusieurs chercheurs ont montré que les mécanismes permettant l’acquisition d’une nouvelle habileté motrice par pratique physique et par observation sont semblables. Or, l’apprentissage se poursuit au-delà des séances de pratique par des « processus de consolidation » essentiels pour que les habiletés pratiquées soient retenues à long terme. À cet effet, Trempe, Sabourin, Rohbanfard et Proteau (2011), ont montré que la consolidation ne s'effectuait pas de la même façon selon que la pratique était faite physiquement ou par observation. Par conséquent, nous avons tenté de déterminer si pratiquer une tâche par pratique physique et l’autre par observation permet d'optimiser l'apprentissage concomitant de ces deux tâches bien qu’elles soient normalement interférentes. Nos résultats ont montré que la tâche A causait une interférence antérograde sur la tâche B peu importe le type de pratique effectué, ce qui suggère que les processus de consolidation prenant place suite à l’observation sont plutôt similaires à ceux qui prennent place suite à la pratique physique. Ainsi, il semble que la pratique mixte ne permet pas de réduire les interférences lors de l’apprentissage de deux tâches semblables.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

L'apprentissage profond est un domaine de recherche en forte croissance en apprentissage automatique qui est parvenu à des résultats impressionnants dans différentes tâches allant de la classification d'images à la parole, en passant par la modélisation du langage. Les réseaux de neurones récurrents, une sous-classe d'architecture profonde, s'avèrent particulièrement prometteurs. Les réseaux récurrents peuvent capter la structure temporelle dans les données. Ils ont potentiellement la capacité d'apprendre des corrélations entre des événements éloignés dans le temps et d'emmagasiner indéfiniment des informations dans leur mémoire interne. Dans ce travail, nous tentons d'abord de comprendre pourquoi la profondeur est utile. Similairement à d'autres travaux de la littérature, nos résultats démontrent que les modèles profonds peuvent être plus efficaces pour représenter certaines familles de fonctions comparativement aux modèles peu profonds. Contrairement à ces travaux, nous effectuons notre analyse théorique sur des réseaux profonds acycliques munis de fonctions d'activation linéaires par parties, puisque ce type de modèle est actuellement l'état de l'art dans différentes tâches de classification. La deuxième partie de cette thèse porte sur le processus d'apprentissage. Nous analysons quelques techniques d'optimisation proposées récemment, telles l'optimisation Hessian free, la descente de gradient naturel et la descente des sous-espaces de Krylov. Nous proposons le cadre théorique des méthodes à région de confiance généralisées et nous montrons que plusieurs de ces algorithmes développés récemment peuvent être vus dans cette perspective. Nous argumentons que certains membres de cette famille d'approches peuvent être mieux adaptés que d'autres à l'optimisation non convexe. La dernière partie de ce document se concentre sur les réseaux de neurones récurrents. Nous étudions d'abord le concept de mémoire et tentons de répondre aux questions suivantes: Les réseaux récurrents peuvent-ils démontrer une mémoire sans limite? Ce comportement peut-il être appris? Nous montrons que cela est possible si des indices sont fournis durant l'apprentissage. Ensuite, nous explorons deux problèmes spécifiques à l'entraînement des réseaux récurrents, à savoir la dissipation et l'explosion du gradient. Notre analyse se termine par une solution au problème d'explosion du gradient qui implique de borner la norme du gradient. Nous proposons également un terme de régularisation conçu spécifiquement pour réduire le problème de dissipation du gradient. Sur un ensemble de données synthétique, nous montrons empiriquement que ces mécanismes peuvent permettre aux réseaux récurrents d'apprendre de façon autonome à mémoriser des informations pour une période de temps indéfinie. Finalement, nous explorons la notion de profondeur dans les réseaux de neurones récurrents. Comparativement aux réseaux acycliques, la définition de profondeur dans les réseaux récurrents est souvent ambiguë. Nous proposons différentes façons d'ajouter de la profondeur dans les réseaux récurrents et nous évaluons empiriquement ces propositions.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

L’hypothèse générale de ce projet soutient que le système moteur doit performer des transformations sensorimotrices afin de convertir les entrées sensorielles, concernant la position de la cible à atteindre, en commande motrice, afin de produire un mouvement du bras et de la main vers la cible à atteindre. Ce type de conversion doit être fait autant au niveau de la planification du mouvement que pour une éventuelle correction d’erreur de planification ou d’un changement inopiné de la position de la cible. La question de recherche du présent mémoire porte sur le ou les mécanismes, circuits neuronaux, impliqués dans ce type de transformation. Y a-t-il un seul circuit neuronal qui produit l’ensemble des transformations visuomotrices entre les entrées sensorielles et les sorties motrices, avant l’initiation du mouvement et la correction en temps réel du mouvement, lorsqu’une erreur ou un changement inattendu survient suite à l’initiation, ou sont-ils minimalement partiellement indépendants sur le plan fonctionnel? L’hypothèse de travail suppose qu’il n’y ait qu’un seul circuit responsable des transformations sensorimotrices, alors l’analyse des résultats obtenus par les participants devrait démontrer des changements identiques dans la performance pendant la phase de planification du mouvement d’atteinte et la phase de correction en temps réel après l’adaptation à des dissociations sensorimotrices arbitraires. L’approche expérimentale : Dans la perspective d’examiner cette question et vérifier notre hypothèse, nous avons jumelé deux paradigmes expérimentaux. En effet, les mouvements d’atteinte étaient soumis à une dissociation visuomotrice ainsi qu’à de rares essais composés de saut de cible. L’utilisation de dissociation visuomotrice permettait d’évaluer le degré d’adaptation des mécanismes impliqués dans le mouvement atteint. Les sauts de cible avaient l’avantage de permettre d’examiner la capacité d’adaptation à une dissociation visuomotrice des mécanismes impliqués dans la correction du mouvement (miroir : sur l’axe y, ou complète : inversion sur les axes x et y). Les résultats obtenus lors des analyses effectuées dans ce mémoire portent exclusivement sur l’habileté des participants à s’adapter aux deux dissociations visuomotrices à la première phase de planification du mouvement. Les résultats suggèrent que les mécanismes de planification du mouvement possèdent une grande capacité d’adaptation aux deux différentes dissociations visuomotrices. Les conclusions liées aux analyses présentées dans ce mémoire suggèrent que les mécanismes impliqués dans la phase de planification et d’initiation du mouvement parviennent relativement bien à s’adapter aux dissociations visuomotrices, miroir et inverse. Bien que les résultats démontrent une certaine distinction, entre les deux groupes à l’étude, quant aux délais nécessaires à cette adaptation, ils illustrent aussi un taux d’adaptation finale relativement similaire. L’analyse des réponses aux sauts de cible pourra être comparée aux résultats présentés dans ce mémoire afin de répondre à l’hypothèse de travail proposée par l’objectif initial de l’étude.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

L’ingénierie dirigée par les modèles (IDM) est un paradigme d’ingénierie du logiciel bien établi, qui préconise l’utilisation de modèles comme artéfacts de premier ordre dans les activités de développement et de maintenance du logiciel. La manipulation de plusieurs modèles durant le cycle de vie du logiciel motive l’usage de transformations de modèles (TM) afin d’automatiser les opérations de génération et de mise à jour des modèles lorsque cela est possible. L’écriture de transformations de modèles demeure cependant une tâche ardue, qui requiert à la fois beaucoup de connaissances et d’efforts, remettant ainsi en question les avantages apportés par l’IDM. Afin de faire face à cette problématique, de nombreux travaux de recherche se sont intéressés à l’automatisation des TM. L’apprentissage de transformations de modèles par l’exemple (TMPE) constitue, à cet égard, une approche prometteuse. La TMPE a pour objectif d’apprendre des programmes de transformation de modèles à partir d’un ensemble de paires de modèles sources et cibles fournis en guise d’exemples. Dans ce travail, nous proposons un processus d’apprentissage de transformations de modèles par l’exemple. Ce dernier vise à apprendre des transformations de modèles complexes en s’attaquant à trois exigences constatées, à savoir, l’exploration du contexte dans le modèle source, la vérification de valeurs d’attributs sources et la dérivation d’attributs cibles complexes. Nous validons notre approche de manière expérimentale sur 7 cas de transformations de modèles. Trois des sept transformations apprises permettent d’obtenir des modèles cibles parfaits. De plus, une précision et un rappel supérieurs à 90% sont enregistrés au niveau des modèles cibles obtenus par les quatre transformations restantes.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Dans cette dissertation, nous présentons plusieurs techniques d’apprentissage d’espaces sémantiques pour plusieurs domaines, par exemple des mots et des images, mais aussi à l’intersection de différents domaines. Un espace de représentation est appelé sémantique si des entités jugées similaires par un être humain, ont leur similarité préservée dans cet espace. La première publication présente un enchaînement de méthodes d’apprentissage incluant plusieurs techniques d’apprentissage non supervisé qui nous a permis de remporter la compétition “Unsupervised and Transfer Learning Challenge” en 2011. Le deuxième article présente une manière d’extraire de l’information à partir d’un contexte structuré (177 détecteurs d’objets à différentes positions et échelles). On montrera que l’utilisation de la structure des données combinée à un apprentissage non supervisé permet de réduire la dimensionnalité de 97% tout en améliorant les performances de reconnaissance de scènes de +5% à +11% selon l’ensemble de données. Dans le troisième travail, on s’intéresse à la structure apprise par les réseaux de neurones profonds utilisés dans les deux précédentes publications. Plusieurs hypothèses sont présentées et testées expérimentalement montrant que l’espace appris a de meilleures propriétés de mixage (facilitant l’exploration de différentes classes durant le processus d’échantillonnage). Pour la quatrième publication, on s’intéresse à résoudre un problème d’analyse syntaxique et sémantique avec des réseaux de neurones récurrents appris sur des fenêtres de contexte de mots. Dans notre cinquième travail, nous proposons une façon d’effectuer de la recherche d’image ”augmentée” en apprenant un espace sémantique joint où une recherche d’image contenant un objet retournerait aussi des images des parties de l’objet, par exemple une recherche retournant des images de ”voiture” retournerait aussi des images de ”pare-brises”, ”coffres”, ”roues” en plus des images initiales.