978 resultados para neural algorithms
Resumo:
L'ère numérique dans laquelle nous sommes entrés apporte une quantité importante de nouveaux défis à relever dans une multitude de domaines. Le traitement automatique de l'abondante information à notre disposition est l'un de ces défis, et nous allons ici nous pencher sur des méthodes et techniques adaptées au filtrage et à la recommandation à l'utilisateur d'articles adaptés à ses goûts, dans le contexte particulier et sans précédent notable du jeu vidéo multi-joueurs en ligne. Notre objectif est de prédire l'appréciation des niveaux par les joueurs. Au moyen d'algorithmes d'apprentissage machine modernes tels que les réseaux de neurones profonds avec pré-entrainement non-supervisé, que nous décrivons après une introduction aux concepts nécessaires à leur bonne compréhension, nous proposons deux architectures aux caractéristiques différentes bien que basées sur ce même concept d'apprentissage profond. La première est un réseau de neurones multi-couches pour lequel nous tentons d'expliquer les performances variables que nous rapportons sur les expériences menées pour diverses variations de profondeur, d'heuristique d'entraînement, et des méthodes de pré-entraînement non-supervisé simple, débruitant et contractant. Pour la seconde architecture, nous nous inspirons des modèles à énergie et proposons de même une explication des résultats obtenus, variables eux aussi. Enfin, nous décrivons une première tentative fructueuse d'amélioration de cette seconde architecture au moyen d'un fine-tuning supervisé succédant le pré-entrainement, puis une seconde tentative où ce fine-tuning est fait au moyen d'un critère d'entraînement semi-supervisé multi-tâches. Nos expériences montrent des performances prometteuses, notament avec l'architecture inspirée des modèles à énergie, justifiant du moins l'utilisation d'algorithmes d'apprentissage profonds pour résoudre le problème de la recommandation.
Resumo:
Le travail présenté dans cette thèse porte sur le rôle du cortex prémoteur dorsal (PMd) au sujet de la prise de décision (sélection d’une action parmis nombreux choix) et l'orientation visuelle des mouvements du bras. L’ouvrage décrit des expériences électrophysiologiques chez le singe éveillé (Macaca mulatta) permettant d’adresser une fraction importante des prédictions proposées par l'hypothèse des affordances concurrentes (Cisek, 2006; Cisek, 2007a). Cette hypothèse suggère que le choix de toute action est l’issue d'une concurrence entre les représentations internes des exigences et des atouts de chacune des options présentées (affordances; Gibson, 1979). Un intérêt particulier est donné au traitement de l'information spatiale et la valeur des options (expected value, EV) dans la prise de décisions. La première étude (article 1) explore la façon dont PMd reflète ces deux paramètres dans la période délai ainsi que de leur intéraction. La deuxième étude (article 2) explore le mécanisme de décision de façon plus détaillée et étend les résultats au cortex prémoteur ventral (PMv). Cette étude porte également sur la représentation spatiale et l’EV dans une perspective d'apprentissage. Dans un environnement nouveau les paramètres spatiaux des actions semblent être présents en tout temps dans PMd, malgré que la représentation de l’EV apparaît uniquement lorsque les animaux commencent à prendre des décisions éclairées au sujet de la valeur des options disponibles. La troisième étude (article 3) explore la façon dont PMd est impliqué aux “changements d'esprit“ dans un procès de décision. Cette étude décrit comment la sélection d’une action est mise à jour à la suite d'une instruction de mouvement (GO signal). I II Les résultats principaux des études sont reproduits par un modèle computationnel (Cisek, 2006) suggérant que la prise de décision entre plusieurs actions alternatives peux se faire par voie d’un mécanisme de concurrence (biased competition) qui aurait lieu dans la même région qui spécifie les actions.
Resumo:
Thèse de doctorat réalisé en cotutelle avec l'Université catholique de Louvain, Belgique (Faculté de médecine, Institut de Neuroscience)
Resumo:
Le mécanisme biologique responsable pour l’augmentation de l’expression de la protéine nestin dans les cellules souches neurales (CSN) du cœur après un infarctus du myocarde (IM) demeure inconnu. Des études antérieures ont démontré que le traitement au dexamethasone, un glucocorticoïde aux propriétés anti-inflammatoires, abolit la régulation positive de nestin après un IM. Ceci suggère un lien avec la réponse inflammatoire. Nous avons vérifié dans cette étude l’hypothèse que la cytokine inflammatoire interleukin-1beta (IL-1beta) peut modifier le phénotype de cellules souches neurales. Le deuxième objectif de l’étude fut d’établir l’impact, suivant un IM, de l’inhibition de la signalisation de IL-1beta sur la fonction et la guérison cardiaque. Suite à une ligature complète de l’artère coronaire du rat mâle, le dysfonctionnement contractile du ventricule gauche fut associé à une régulation positive de la protéine nestin dans le myocarde non-infarci. Le traitement avec Xoma 052 (1 mg/kg), un anticorps anti-IL-1beta, 24h, 7 et 14 jours après un évènement ischémique, eu aucun effet sur la taille de l’infarctus ou la contractilité du ventricule gauche. De plus, le traitement avec Xoma 052 après un IM n’a pu supprimer l’augmentation de l’expression de nestin et Bcl-2 malgré une réduction modeste du niveau de la protéine Bax. Pour déterminer directement le rôle de la réponse inflammatoire en l’absence d’ischémie, nous avons injecté des rats mâles avec du LPS (10mg/kg, 18hrs). Dans le coeur du rat-LPS, nous avons noté une augmentation significative du niveau d’ARNm de IL-1beta et de l’expression de la protéine nestin. Le prétraitement avec 10mg/kg de Xoma 052 a aboli l’augmentation de l’expression de nestin dans le coeur des rats-LPS. Ces observations indiquent que les cellules souches neurales pourraient représenter une cible potentielle de l’IL-1beta.
Resumo:
Parmi les méthodes d’estimation de paramètres de loi de probabilité en statistique, le maximum de vraisemblance est une des techniques les plus populaires, comme, sous des conditions l´egères, les estimateurs ainsi produits sont consistants et asymptotiquement efficaces. Les problèmes de maximum de vraisemblance peuvent être traités comme des problèmes de programmation non linéaires, éventuellement non convexe, pour lesquels deux grandes classes de méthodes de résolution sont les techniques de région de confiance et les méthodes de recherche linéaire. En outre, il est possible d’exploiter la structure de ces problèmes pour tenter d’accélerer la convergence de ces méthodes, sous certaines hypothèses. Dans ce travail, nous revisitons certaines approches classiques ou récemment d´eveloppées en optimisation non linéaire, dans le contexte particulier de l’estimation de maximum de vraisemblance. Nous développons également de nouveaux algorithmes pour résoudre ce problème, reconsidérant différentes techniques d’approximation de hessiens, et proposons de nouvelles méthodes de calcul de pas, en particulier dans le cadre des algorithmes de recherche linéaire. Il s’agit notamment d’algorithmes nous permettant de changer d’approximation de hessien et d’adapter la longueur du pas dans une direction de recherche fixée. Finalement, nous évaluons l’efficacité numérique des méthodes proposées dans le cadre de l’estimation de modèles de choix discrets, en particulier les modèles logit mélangés.
Resumo:
Les anomalies du tube neural (ATN) sont des malformations congénitales très fréquentes chez l’humain en touchant 1-2 nouveau-nés sur 1000 naissances. Elles résultent d’une fermeture incomplète du tube neural lors de l’embryogenèse. L’étiologie des ATN est complexe impliquant des facteurs environnementaux et des facteurs génétiques. La souris représente un outil puissant afin de mieux comprendre la génétique des ATN. Particulièrement, la souris modèle a impliqué fortement la voie de la polarité cellulaire planaire (PCP) dans ces malformations. Dans cette étude, nous avons identifié et caractérisé une nouvelle souris mutante, Skam26Jus dans le but d’identifier un nouveau gène causant les ATN. Skam26Jus a été générée par l’agent mutagène N-Ethyl-N-Nitrosuera. Cette souris est caractérisée par une queue en forme de boucle ou de crochet, soit un phénotype associé aux ATN. La complémentation génétique de la souris Skam26Jus avec une souris mutante d’un gène de la voie PCP Vangl2 (Looptail) a montré une interaction génétique entre le gène muté chez Skam26Jus et Vangl2, suggérant que ces deux gènes fonctionnent dans des voies de signalisation semblables ou parallèles. Un total de 50% des embryons doubles hétérozygotes avec un phénotype de la queue présentent un spina bifida. La cartographie par homozygotie du génome entier suivie par un clonage positionnel a permis d’identifier Lrp6 comme le gène muté chez Skam26Jus. Une mutation homozygote, p.Ile681Arg, a été identifiée dans Lrp6 chez les souris ayant une queue en boucle/crochet. Cette mutation était absente dans 30 souches génétiques pures indiquant que cette mutation est spécifique au phénotype observé. Une étude de phénotype-génotype évalue la pénétrance à 53 % de la mutation Ile681Arg. Lrp6 est connu pour activer la voie canonique Wnt/β-caténine et inhiber la voie non canonique Wnt/PCP. Le séquençage de la région codante et de la jonction exon-intron de LRP6 chez 268 patients a mené à l’identification de quatre nouvelles rares mutations faux sens absentes chez 272 contrôles et de toutes les bases de données publiques. Ces mutations sont p.Tyr306His ; p.Tyr373Cys ; p.Val1386Ile; p.Tyr1541Cys et leur pathogénicité prédite in silico indiquent que p.Val1386Ile est bénigne, et que p.Tyr306Hiset p.Tyr373Cys et p.Tyr1541Cys sont i possiblement dommageables. Les mutations p.Tyr306His, p.Tyr373Cys et p.Tyr1541Cys ont affecté l’habilité de LRP6 d’activer la voie Wnt/β-caténine en utilisant le système rapporteur luciférase de pTOPflash. Nos résultats suggèrent que LRP6 joue un rôle dans le développement des ATN chez une petite fraction de patients ayant une ATN. Cette étude présente aussi Skam26Jus comme un nouveau modèle pour étudier les ATN chez l’humain et fournit un outil important pour comprendre les mécanismes moléculaires à l’origine des A TN.
Resumo:
La mémoire n’est pas un processus unitaire et est souvent divisée en deux catégories majeures: la mémoire déclarative (pour les faits) et procédurale (pour les habitudes et habiletés motrices). Pour perdurer, une trace mnésique doit passer par la consolidation, un processus par lequel elle devient plus robuste et moins susceptible à l’interférence. Le sommeil est connu comme jouant un rôle clé pour permettre le processus de consolidation, particulièrement pour la mémoire déclarative. Depuis plusieurs années cependant, son rôle est aussi reconnu pour la mémoire procédurale. Il est par contre intéressant de noter que ce ne sont pas tous les types de mémoire procédurale qui requiert le sommeil afin d’être consolidée. Entre autres, le sommeil semble nécessaire pour consolider un apprentissage de séquences motrices (s’apparentant à l’apprentissage du piano), mais pas un apprentissage d’adaptation visuomotrice (tel qu’apprendre à rouler à bicyclette). Parallèlement, l’apprentissage à long terme de ces deux types d’habiletés semble également sous-tendu par des circuits neuronaux distincts; c’est-à-dire un réseau cortico-striatal et cortico-cérébelleux respectivement. Toutefois, l’implication de ces réseaux dans le processus de consolidation comme tel demeure incertain. Le but de cette thèse est donc de mieux comprendre le rôle du sommeil, en contrôlant pour le simple passage du temps, dans la consolidation de ces deux types d’apprentissage, à l’aide de l’imagerie par résonnance magnétique fonctionnelle et d’analyses de connectivité cérébrale. Nos résultats comportementaux supportent l’idée que seul l’apprentissage séquentiel requiert le sommeil pour déclencher le processus de consolidation. Nous suggérons de plus que le putamen est fortement associé à ce processus. En revanche, les performances d’un apprentissage visuomoteur s’améliorent indépendamment du sommeil et sont de plus corrélées à une plus grande activation du cervelet. Finalement, en explorant l’effet du sommeil sur la connectivité cérébrale, nos résultats démontrent qu’en fait, un système cortico-striatal semble être plus intégré suite à la consolidation. C’est-à-dire que l’interaction au sein des régions du système est plus forte lorsque la consolidation a eu lieu, après une nuit de sommeil. En opposition, le simple passage du temps semble nuire à l’intégration de ce réseau cortico-striatal. En somme, nous avons pu élargir les connaissances quant au rôle du sommeil pour la mémoire procédurale, notamment en démontrant que ce ne sont pas tous les types d’apprentissages qui requièrent le sommeil pour amorcer le processus de consolidation. D’ailleurs, nous avons également démontré que cette dissociation de l’effet du sommeil est également reflétée par l’implication de deux réseaux cérébraux distincts. À savoir, un réseau cortico-striatal et un réseau cortico-cérébelleux pour la consolidation respective de l’apprentissage de séquence et d’adaptation visuomotrice. Enfin, nous suggérons que la consolidation durant le sommeil permet de protéger et favoriser une meilleure cohésion au sein du réseau cortico-striatal associé à notre tâche; un phénomène qui, s’il est retrouvé avec d’autres types d’apprentissage, pourrait être considéré comme un nouveau marqueur de la consolidation.
Resumo:
La liste des domaines touchés par l’apprentissage machine s’allonge rapidement. Au fur et à mesure que la quantité de données disponibles augmente, le développement d’algorithmes d’apprentissage de plus en plus puissants est crucial. Ce mémoire est constitué de trois parties: d’abord un survol des concepts de bases de l’apprentissage automatique et les détails nécessaires pour l’entraînement de réseaux de neurones, modèles qui se livrent bien à des architectures profondes. Ensuite, le premier article présente une application de l’apprentissage machine aux jeux vidéos, puis une méthode de mesure performance pour ceux-ci en tant que politique de décision. Finalement, le deuxième article présente des résultats théoriques concernant l’entraînement d’architectures profondes nonsupervisées. Les jeux vidéos sont un domaine particulièrement fertile pour l’apprentissage automatique: il estf facile d’accumuler d’importantes quantités de données, et les applications ne manquent pas. La formation d’équipes selon un critère donné est une tˆache commune pour les jeux en lignes. Le premier article compare différents algorithmes d’apprentissage à des réseaux de neurones profonds appliqués à la prédiction de la balance d’un match. Ensuite nous présentons une méthode par simulation pour évaluer les modèles ainsi obtenus utilisés dans le cadre d’une politique de décision en ligne. Dans un deuxième temps nous présentons une nouvelleméthode pour entraîner des modèles génératifs. Des résultats théoriques nous indiquent qu’il est possible d’entraîner par rétropropagation des modèles non-supervisés pouvant générer des échantillons qui suivent la distribution des données. Ceci est un résultat pertinent dans le cadre de la récente littérature scientifique investiguant les propriétés des autoencodeurs comme modèles génératifs. Ces résultats sont supportés avec des expériences qualitatives préliminaires ainsi que quelques résultats quantitatifs.
Resumo:
Les humains communiquent via différents types de canaux: les mots, la voix, les gestes du corps, des émotions, etc. Pour cette raison, un ordinateur doit percevoir ces divers canaux de communication pour pouvoir interagir intelligemment avec les humains, par exemple en faisant usage de microphones et de webcams. Dans cette thèse, nous nous intéressons à déterminer les émotions humaines à partir d’images ou de vidéo de visages afin d’ensuite utiliser ces informations dans différents domaines d’applications. Ce mémoire débute par une brève introduction à l'apprentissage machine en s’attardant aux modèles et algorithmes que nous avons utilisés tels que les perceptrons multicouches, réseaux de neurones à convolution et autoencodeurs. Elle présente ensuite les résultats de l'application de ces modèles sur plusieurs ensembles de données d'expressions et émotions faciales. Nous nous concentrons sur l'étude des différents types d’autoencodeurs (autoencodeur débruitant, autoencodeur contractant, etc) afin de révéler certaines de leurs limitations, comme la possibilité d'obtenir de la coadaptation entre les filtres ou encore d’obtenir une courbe spectrale trop lisse, et étudions de nouvelles idées pour répondre à ces problèmes. Nous proposons également une nouvelle approche pour surmonter une limite des autoencodeurs traditionnellement entrainés de façon purement non-supervisée, c'est-à-dire sans utiliser aucune connaissance de la tâche que nous voulons finalement résoudre (comme la prévision des étiquettes de classe) en développant un nouveau critère d'apprentissage semi-supervisé qui exploite un faible nombre de données étiquetées en combinaison avec une grande quantité de données non-étiquetées afin d'apprendre une représentation adaptée à la tâche de classification, et d'obtenir une meilleure performance de classification. Finalement, nous décrivons le fonctionnement général de notre système de détection d'émotions et proposons de nouvelles idées pouvant mener à de futurs travaux.
Resumo:
Les décisions de localisation sont souvent soumises à des aspects dynamiques comme des changements dans la demande des clients. Pour y répondre, la solution consiste à considérer une flexibilité accrue concernant l’emplacement et la capacité des installations. Même lorsque la demande est prévisible, trouver le planning optimal pour le déploiement et l'ajustement dynamique des capacités reste un défi. Dans cette thèse, nous nous concentrons sur des problèmes de localisation avec périodes multiples, et permettant l'ajustement dynamique des capacités, en particulier ceux avec des structures de coûts complexes. Nous étudions ces problèmes sous différents points de vue de recherche opérationnelle, en présentant et en comparant plusieurs modèles de programmation linéaire en nombres entiers (PLNE), l'évaluation de leur utilisation dans la pratique et en développant des algorithmes de résolution efficaces. Cette thèse est divisée en quatre parties. Tout d’abord, nous présentons le contexte industriel à l’origine de nos travaux: une compagnie forestière qui a besoin de localiser des campements pour accueillir les travailleurs forestiers. Nous présentons un modèle PLNE permettant la construction de nouveaux campements, l’extension, le déplacement et la fermeture temporaire partielle des campements existants. Ce modèle utilise des contraintes de capacité particulières, ainsi qu’une structure de coût à économie d’échelle sur plusieurs niveaux. L'utilité du modèle est évaluée par deux études de cas. La deuxième partie introduit le problème dynamique de localisation avec des capacités modulaires généralisées. Le modèle généralise plusieurs problèmes dynamiques de localisation et fournit de meilleures bornes de la relaxation linéaire que leurs formulations spécialisées. Le modèle peut résoudre des problèmes de localisation où les coûts pour les changements de capacité sont définis pour toutes les paires de niveaux de capacité, comme c'est le cas dans le problème industriel mentionnée ci-dessus. Il est appliqué à trois cas particuliers: l'expansion et la réduction des capacités, la fermeture temporaire des installations, et la combinaison des deux. Nous démontrons des relations de dominance entre notre formulation et les modèles existants pour les cas particuliers. Des expériences de calcul sur un grand nombre d’instances générées aléatoirement jusqu’à 100 installations et 1000 clients, montrent que notre modèle peut obtenir des solutions optimales plus rapidement que les formulations spécialisées existantes. Compte tenu de la complexité des modèles précédents pour les grandes instances, la troisième partie de la thèse propose des heuristiques lagrangiennes. Basées sur les méthodes du sous-gradient et des faisceaux, elles trouvent des solutions de bonne qualité même pour les instances de grande taille comportant jusqu’à 250 installations et 1000 clients. Nous améliorons ensuite la qualité de la solution obtenue en résolvent un modèle PLNE restreint qui tire parti des informations recueillies lors de la résolution du dual lagrangien. Les résultats des calculs montrent que les heuristiques donnent rapidement des solutions de bonne qualité, même pour les instances où les solveurs génériques ne trouvent pas de solutions réalisables. Finalement, nous adaptons les heuristiques précédentes pour résoudre le problème industriel. Deux relaxations différentes sont proposées et comparées. Des extensions des concepts précédents sont présentées afin d'assurer une résolution fiable en un temps raisonnable.
Resumo:
La formation est une stratégie clé pour le développement des compétences. Les entreprises continuent à investir dans la formation et le développement, mais elles possèdent rarement des données pour évaluer les résultats de cet investissement. La plupart des entreprises utilisent le modèle Kirkpatrick/Phillips pour évaluer la formation en entreprise. Cependant, il ressort de la littérature que les entreprises ont des difficultés à utiliser ce modèle. Les principales barrières sont la difficulté d’isoler l’apprentissage comme un facteur qui a une incidence sur les résultats, l’absence d’un système d’évaluation utile avec le système de gestion de l’apprentissage (Learning Management System - LMS) et le manque de données standardisées pour pouvoir comparer différentes fonctions d’apprentissage. Dans cette thèse, nous proposons un modèle (Analyse, Modélisation, Monitoring et Optimisation - AM2O) de gestion de projets de formation en entreprise, basée sur la gestion des processus d’affaires (Business Process Management - BPM). Un tel scénario suppose que les activités de formation en entreprise doivent être considérées comme des processus d’affaires. Notre modèle est inspiré de cette méthode (BPM), à travers la définition et le suivi des indicateurs de performance pour gérer les projets de formation dans les organisations. Elle est basée sur l’analyse et la modélisation des besoins de formation pour assurer l’alignement entre les activités de formation et les objectifs d’affaires de l’entreprise. Elle permet le suivi des projets de formation ainsi que le calcul des avantages tangibles et intangibles de la formation (sans coût supplémentaire). En outre, elle permet la production d’une classification des projets de formation en fonction de critères relatifs à l’entreprise. Ainsi, avec assez de données, notre approche peut être utilisée pour optimiser le rendement de la formation par une série de simulations utilisant des algorithmes d’apprentissage machine : régression logistique, réseau de neurones, co-apprentissage. Enfin, nous avons conçu un système informatique, Enterprise TRaining programs Evaluation and Optimization System - ETREOSys, pour la gestion des programmes de formation en entreprise et l’aide à la décision. ETREOSys est une plateforme Web utilisant des services en nuage (cloud services) et les bases de données NoSQL. A travers AM2O et ETREOSys nous résolvons les principaux problèmes liés à la gestion et l’évaluation de la formation en entreprise à savoir : la difficulté d’isoler les effets de la formation dans les résultats de l’entreprise et le manque de systèmes informatiques.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
Les anomalies du tube neural (ATN) sont des malformations congénitales parmi les plus fréquentes chez l’humain en touchant 1-2 nouveau-nés par 1000 naissances. Elles résultent d’un défaut de fermeture du tube neural pendant l’embryogenèse. Les formes les plus courantes d'ATN chez l'homme sont l'anencéphalie et le spina-bifida. Leur étiologie est complexe impliquant à la fois des facteurs environnementaux et des facteurs génétiques. Un dérèglement dans la signalisation Wnt, incluant la signalisation canonique Wnt/β-caténine et non-canonique de la polarité planaire cellulaire (PCP), peut causer respectivement le cancer ou les anomalies du tube neural (ATN). Les deux voies semblent s’antagoniser mutuellement. Dans cette étude, nous investiguons les rôles de Lrp6 et deANKRD6, entant qu’interrupteurs moléculaires entre les deux voies de signalisation Wnt, et CELSR1, en tant que membre de la PCP, chez la souris mutante Skax26m1Jus, générée par l’agent mutagène N-Ethyl-N-Nitrosuera, et dans une cohorte de patients humains ATN. Pour Lrp6, nous avons démontré que Skax26m1Jus représente un allèle hypermorphe de Lrp6 avec une augmentation de l’activité de la signalisation Wnt/canonique et une diminution de l’activité JNK induite par la voie PCP. Nous avons également montré que Lrp6Skax26m1Jus interagit génétiquement avec un mutant PCP (Vangl2Lp) où les doubles hétérozygotes ont montré une fréquence élevée d’ATN et des défauts dans la polarité des cellules ciliées de la cochlée. Particulièrement, notre étude démontre l'association des nouvelles et rares mutations faux-sens dans LRP6 avec les ATN humaines. Nous montrons que trois mutations de LRP6 causent une activité canonique réduite et non-canonique élevée. Pour ANKRD6, nous avons identifié quatre nouvelles et rares mutations faux-sens chez 0,8% des patients ATN et deux chez 1,3% des contrôles. Notamment, seulement deux, des six mutations validées (p.Pro548Leu et p.Arg632His) ont démontré un effet significatif sur l’activité de ANKRD6 selon un mode hypomorphique. Pour CELSR1, nous avons identifié une mutation non-sens dans l'exon 1 qui supprime la majeure partie de la protéine et une délétionde 12 pb. Cette perte de nucléotides ne change pas le cadre de lecture et élimine un motif putatif de phosphorylation par la PKC " SSR ". Nous avons également détecté un total de 13 nouveaux et rares variants faux-sens qui avaient été prédits comme étant pathogènes in silico. Nos données confirment le rôle inhibiteur de Lrp6 dans la signalisation PCP pendant la neurulation et indiquent aussi que les mutations faux-sens identifiées chez LRP6 et ANKRD6 pourraient affecter un équilibre réciproque et un antagonisme très sensible à un dosage précis entre les deux voies Wnt. Ces variants peuvent aussi agir comme facteurs prédisposants aux ATN. En outre, nos résultats impliquent aussi CELSR1 comme un facteur de risque pour les anomalies du tube neural ou l’agénésie caudale. Nos résultats fournissent des preuves supplémentaires que la voie de signalisation PCP a un rôle pathogène dans ces malformations congénitales et un outil important pour mieux comprendre leurs mécanismes moléculaires.
Resumo:
La maladie de Parkinson (PD) a été uniquement considérée pour ses endommagements sur les circuits moteurs dans le cerveau. Il est maintenant considéré comme un trouble multisystèmique, avec aspects multiples non moteurs y compris les dommages intérêts pour les circuits cognitifs. La présence d’un trouble léger de la cognition (TCL) de PD a été liée avec des changements structurels de la matière grise, matière blanche ainsi que des changements fonctionnels du cerveau. En particulier, une activité significativement réduite a été observée dans la boucle corticostriatale ‘cognitive’ chez des patients atteints de PD-TCL vs. PD non-TCL en utilisant IRMf. On sait peu de cours de ces modèles fonctionnels au fil du temps. Dans cette étude, nous présentons un suivi longitudinal de 24 patients de PD non démente qui a subi une enquête neuropsychologique, et ont été séparés en deux groupes - avec et sans TCL (TCL n = 11, non-TCL n = 13) en fonction du niveau 2 des recommandations de la Movement Disrders Society pour le diagnostic de PD-TCL. Ensuite, chaque participant a subi une IRMf en effectuant la tâche de Wisconsin pendant deux sessions, 19 mois d'intervalle. Nos résultats longitudinaux montrent qu'au cours de la planification de période de la tâche, les patients PD non-TCL engageant les ressources normales du cortex mais ils ont activé en plus les zones corticales qui sont liés à la prise de décision tel que cortex médial préfrontal (PFC), lobe pariétal et le PFC supérieure, tandis que les PD-TCL ont échoué pour engager ces zones en temps 2. Le striatum n'était pas engagé pour les deux groupes en temps 1 et pour le groupe TCL en temps 2. En outre, les structures médiales du lobe temporal étaient au fil du temps sous recrutés pour TCL et Non-TCL et étaient positivement corrélés avec les scores de MoCA. Le cortex pariétal, PFC antérieur, PFC supérieure et putamen postérieur étaient négativement corrélés avec les scores de MoCA en fil du temps. Ces résultats révèlent une altération fonctionnelle pour l’axe ganglial-thalamo-corticale au début de PD, ainsi que des niveaux différents de participation corticale pendant une déficience cognitive. Cette différence de recrutement corticale des ressources pourrait refléter longitudinalement des circuits déficients distincts de trouble cognitive légère dans PD.
Resumo:
Dans cette dissertation, nous présentons plusieurs techniques d’apprentissage d’espaces sémantiques pour plusieurs domaines, par exemple des mots et des images, mais aussi à l’intersection de différents domaines. Un espace de représentation est appelé sémantique si des entités jugées similaires par un être humain, ont leur similarité préservée dans cet espace. La première publication présente un enchaînement de méthodes d’apprentissage incluant plusieurs techniques d’apprentissage non supervisé qui nous a permis de remporter la compétition “Unsupervised and Transfer Learning Challenge” en 2011. Le deuxième article présente une manière d’extraire de l’information à partir d’un contexte structuré (177 détecteurs d’objets à différentes positions et échelles). On montrera que l’utilisation de la structure des données combinée à un apprentissage non supervisé permet de réduire la dimensionnalité de 97% tout en améliorant les performances de reconnaissance de scènes de +5% à +11% selon l’ensemble de données. Dans le troisième travail, on s’intéresse à la structure apprise par les réseaux de neurones profonds utilisés dans les deux précédentes publications. Plusieurs hypothèses sont présentées et testées expérimentalement montrant que l’espace appris a de meilleures propriétés de mixage (facilitant l’exploration de différentes classes durant le processus d’échantillonnage). Pour la quatrième publication, on s’intéresse à résoudre un problème d’analyse syntaxique et sémantique avec des réseaux de neurones récurrents appris sur des fenêtres de contexte de mots. Dans notre cinquième travail, nous proposons une façon d’effectuer de la recherche d’image ”augmentée” en apprenant un espace sémantique joint où une recherche d’image contenant un objet retournerait aussi des images des parties de l’objet, par exemple une recherche retournant des images de ”voiture” retournerait aussi des images de ”pare-brises”, ”coffres”, ”roues” en plus des images initiales.