9 resultados para TRANSFORMER AT DEEP SATURATION
em Université de Montréal, Canada
Resumo:
Les tâches de vision artificielle telles que la reconnaissance d’objets demeurent irrésolues à ce jour. Les algorithmes d’apprentissage tels que les Réseaux de Neurones Artificiels (RNA), représentent une approche prometteuse permettant d’apprendre des caractéristiques utiles pour ces tâches. Ce processus d’optimisation est néanmoins difficile. Les réseaux profonds à base de Machine de Boltzmann Restreintes (RBM) ont récemment été proposés afin de guider l’extraction de représentations intermédiaires, grâce à un algorithme d’apprentissage non-supervisé. Ce mémoire présente, par l’entremise de trois articles, des contributions à ce domaine de recherche. Le premier article traite de la RBM convolutionelle. L’usage de champs réceptifs locaux ainsi que le regroupement d’unités cachées en couches partageant les même paramètres, réduit considérablement le nombre de paramètres à apprendre et engendre des détecteurs de caractéristiques locaux et équivariant aux translations. Ceci mène à des modèles ayant une meilleure vraisemblance, comparativement aux RBMs entraînées sur des segments d’images. Le deuxième article est motivé par des découvertes récentes en neurosciences. Il analyse l’impact d’unités quadratiques sur des tâches de classification visuelles, ainsi que celui d’une nouvelle fonction d’activation. Nous observons que les RNAs à base d’unités quadratiques utilisant la fonction softsign, donnent de meilleures performances de généralisation. Le dernière article quand à lui, offre une vision critique des algorithmes populaires d’entraînement de RBMs. Nous montrons que l’algorithme de Divergence Contrastive (CD) et la CD Persistente ne sont pas robustes : tous deux nécessitent une surface d’énergie relativement plate afin que leur chaîne négative puisse mixer. La PCD à "poids rapides" contourne ce problème en perturbant légèrement le modèle, cependant, ceci génère des échantillons bruités. L’usage de chaînes tempérées dans la phase négative est une façon robuste d’adresser ces problèmes et mène à de meilleurs modèles génératifs.
Resumo:
Cette thèse porte sur une classe d'algorithmes d'apprentissage appelés architectures profondes. Il existe des résultats qui indiquent que les représentations peu profondes et locales ne sont pas suffisantes pour la modélisation des fonctions comportant plusieurs facteurs de variation. Nous sommes particulièrement intéressés par ce genre de données car nous espérons qu'un agent intelligent sera en mesure d'apprendre à les modéliser automatiquement; l'hypothèse est que les architectures profondes sont mieux adaptées pour les modéliser. Les travaux de Hinton (2006) furent une véritable percée, car l'idée d'utiliser un algorithme d'apprentissage non-supervisé, les machines de Boltzmann restreintes, pour l'initialisation des poids d'un réseau de neurones supervisé a été cruciale pour entraîner l'architecture profonde la plus populaire, soit les réseaux de neurones artificiels avec des poids totalement connectés. Cette idée a été reprise et reproduite avec succès dans plusieurs contextes et avec une variété de modèles. Dans le cadre de cette thèse, nous considérons les architectures profondes comme des biais inductifs. Ces biais sont représentés non seulement par les modèles eux-mêmes, mais aussi par les méthodes d'entraînement qui sont souvent utilisés en conjonction avec ceux-ci. Nous désirons définir les raisons pour lesquelles cette classe de fonctions généralise bien, les situations auxquelles ces fonctions pourront être appliquées, ainsi que les descriptions qualitatives de telles fonctions. L'objectif de cette thèse est d'obtenir une meilleure compréhension du succès des architectures profondes. Dans le premier article, nous testons la concordance entre nos intuitions---que les réseaux profonds sont nécessaires pour mieux apprendre avec des données comportant plusieurs facteurs de variation---et les résultats empiriques. Le second article est une étude approfondie de la question: pourquoi l'apprentissage non-supervisé aide à mieux généraliser dans un réseau profond? Nous explorons et évaluons plusieurs hypothèses tentant d'élucider le fonctionnement de ces modèles. Finalement, le troisième article cherche à définir de façon qualitative les fonctions modélisées par un réseau profond. Ces visualisations facilitent l'interprétation des représentations et invariances modélisées par une architecture profonde.
Resumo:
Le réseau de distribution aérien, ou plus simplement le réseau de poteaux de bois et ses câbles, est encore aujourd’hui omniprésent dans la majorité des villes du Québec. Pour plusieurs, le réseau de poteaux d’utilité publique semble appartenir à une autre époque. Pourtant, les poteaux et câbles ne sont pas près de disparaître, au contraire, ils ne cessent de se transformer. Depuis peu, de plus en plus d’équipements s’ajoutent sur le réseau: boîtiers techniques, nombre de câbles, appareillages au sommet des poteaux, antennes de communication, etc. Bien que les équipements du réseau de distribution aérien soient des éléments produits industriellement, ceux-ci intègrent rarement les services du design industriel au moment de leur conception initiale. Cette recherche étudie le système de distribution aérien sous l’angle de la « pensée design ». L’intention de cette étude est d’analyser les impacts de la présence du réseau aérien en milieux urbains et a pour objectif d’orienter les pratiques de conception de ce type d’équipements. Pour ce faire, dans une optique transdisciplinaire, diverses approches ont été sollicitées dont: l’approche systémique, l’approche paysage et les approches des partenaires des réseaux. Au moyen d’une recherche documentaire et d’observations faites sur le terrain, la recherche vise à dresser un portrait général du réseau de distribution aérien et les défis qui y sont associés. La recherche expose, dans un état des lieux, les résultats issus des questions analytiques de recherche suivantes: de quoi est composé le réseau de distribution aérien, quels sont les intervenants sur le réseau, quelles sont leurs interactions, quels sont les points de vue des différentes catégories d’acteurs en relation avec le réseau, quels sont les impacts reliés à la présence du réseau en milieux urbains et quelle a été son évolution au fil des années. Dans la perspective de l’approche design, chercher à comprendre une problématique de façon plus large permet de s’assurer que l’on répond au bon problème, que l’on considère tous les facteurs en cause visant ainsi à réduire les répercussions négatives sur les contextes de vie actuels et futurs. Les principaux constats de cette recherche démontrent que la composition du réseau de distribution, avant même de considérer les nouveaux usages et l’ajout de nouveaux équipements, présente des lacunes importantes. La gestion entre les divers partenaires du réseau de distribution pose aussi problème. L’ajout de nouveaux équipements sur le réseau, combiné aux multiples équipements apparaissant sur les voies publiques laisse entrevoir l’atteinte d’un niveau de saturation des milieux urbains. Les façons de faire hermétiques et «cristallisées» des partenaires du réseau ne collent pas avec les initiatives et aspirations générales en matière d’aménagement. En étudiant la problématique du réseau de distribution par le biais de la pensée design, l’approche design cherche à déceler, de façon proactive, les opportunités de design qui permettront de mieux gérer l’apparition et l’intégration des nouveaux équipements sur les poteaux. Cette démarche permet d’envisager des solutions qui visent à limiter les répercussions collatérales une fois en contexte et qui, du même coup, adressent des problématiques connexes. Finalement, à la lumière de l’état des lieux, cette recherche propose des critères de conception de futurs réseaux de distribution, élaborés dans l’esprit de l’approche design.
Resumo:
La présente étude vise à approfondir les connaissances relatives aux mécanismes neuronaux qui sous-tendent la maintenance de sons variant en hauteur dans la mémoire auditive à court terme (MACT), plus précisément lors de sa saturation. À cet effet, la technique des potentiels reliés aux évènements (PRE) en électrophysiologie a été utilisée. La sélection des participants s’est déroulée par l’entremise de deux expériences comportementales : l’une était une tâche de discrimination et l’autre, une tâche qui évaluait l’habileté générale des participants à réussir une tâche similaire à celle de l’expérience principale en électroencéphalographie (EEG). Les résultats comportementaux de notre tâche en EEG ont montré que la performance diminuait de façon significative plus la charge en mémoire augmentait (séquences de 2, 4, 6 et 8 sons) et que l’estimation de la capacité de la MACT mesurée par K augmentait entre 2 et 4 sons pour atteindre un plafond à 4 sons (effet plafond). Le K maximum étant de 2.84 sons, l’empan mnésique (EM) auditif semble être près de 3 sons. Les résultats électrophysiologiques ont montré que la composante électrophysiologique reliée à la maintenance de sons en MACT, la Sustained Anterior Negativity (SAN), était modulée par le nombre de sons à maintenir : son amplitude augmentait de 2 à 4 sons et ce, jusqu’à l’atteinte d’un plafond à 4 sons. Ces résultats suggèrent que la maintenance de sons additionnels dans la MACT n’est plus possible après sa saturation. Nous soutenons donc que la SAN est un index électrophysiologique de l’activité neuronale associée à la maintenance d’items auditifs dans la MACT et que son amplitude est un bon indicateur de la capacité individuelle de la MACT, estimée par K. Des résultats post-hoc ont démontré que les musiciens et les non-musiciens tendent à avoir des différences au niveau de la SAN, sans pour autant modifier l’effet de charge en mémoire. Une analyse qualitative et quantitative de l’utilisation des stratégies mnésiques ont permis de clarifier leur implication et leur nature au sein d’une tâche cognitive de mémoire, plus précisément en audition. Pour conclure, l’ensemble de ces résultats suggère également que la SAN est reliée à la maintenance de sons dans la MACT et ainsi, un bon indicateur de sa capacité.
Resumo:
L'apprentissage profond est un domaine de recherche en forte croissance en apprentissage automatique qui est parvenu à des résultats impressionnants dans différentes tâches allant de la classification d'images à la parole, en passant par la modélisation du langage. Les réseaux de neurones récurrents, une sous-classe d'architecture profonde, s'avèrent particulièrement prometteurs. Les réseaux récurrents peuvent capter la structure temporelle dans les données. Ils ont potentiellement la capacité d'apprendre des corrélations entre des événements éloignés dans le temps et d'emmagasiner indéfiniment des informations dans leur mémoire interne. Dans ce travail, nous tentons d'abord de comprendre pourquoi la profondeur est utile. Similairement à d'autres travaux de la littérature, nos résultats démontrent que les modèles profonds peuvent être plus efficaces pour représenter certaines familles de fonctions comparativement aux modèles peu profonds. Contrairement à ces travaux, nous effectuons notre analyse théorique sur des réseaux profonds acycliques munis de fonctions d'activation linéaires par parties, puisque ce type de modèle est actuellement l'état de l'art dans différentes tâches de classification. La deuxième partie de cette thèse porte sur le processus d'apprentissage. Nous analysons quelques techniques d'optimisation proposées récemment, telles l'optimisation Hessian free, la descente de gradient naturel et la descente des sous-espaces de Krylov. Nous proposons le cadre théorique des méthodes à région de confiance généralisées et nous montrons que plusieurs de ces algorithmes développés récemment peuvent être vus dans cette perspective. Nous argumentons que certains membres de cette famille d'approches peuvent être mieux adaptés que d'autres à l'optimisation non convexe. La dernière partie de ce document se concentre sur les réseaux de neurones récurrents. Nous étudions d'abord le concept de mémoire et tentons de répondre aux questions suivantes: Les réseaux récurrents peuvent-ils démontrer une mémoire sans limite? Ce comportement peut-il être appris? Nous montrons que cela est possible si des indices sont fournis durant l'apprentissage. Ensuite, nous explorons deux problèmes spécifiques à l'entraînement des réseaux récurrents, à savoir la dissipation et l'explosion du gradient. Notre analyse se termine par une solution au problème d'explosion du gradient qui implique de borner la norme du gradient. Nous proposons également un terme de régularisation conçu spécifiquement pour réduire le problème de dissipation du gradient. Sur un ensemble de données synthétique, nous montrons empiriquement que ces mécanismes peuvent permettre aux réseaux récurrents d'apprendre de façon autonome à mémoriser des informations pour une période de temps indéfinie. Finalement, nous explorons la notion de profondeur dans les réseaux de neurones récurrents. Comparativement aux réseaux acycliques, la définition de profondeur dans les réseaux récurrents est souvent ambiguë. Nous proposons différentes façons d'ajouter de la profondeur dans les réseaux récurrents et nous évaluons empiriquement ces propositions.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
Commentaire / Commentary
Resumo:
Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.
Resumo:
Les changements socioéconomiques des dernières décennies ont profondément transformé le rapport qu’entretient le Québec avec ses professionnels de la santé. En ouvrant le champ à l’accumulation privée du capital dans les années 1990, se met en place au sein de la fonction publique une philosophie politique issue du monde des affaires. Dès lors, le paradigme de la gouvernance investit les hôpitaux, où exerce 65 % de l’effectif infirmier québécois. Des chercheurs ont investigué les contraintes et torts subis par les infirmières consécutivement à la restructuration du système de santé, cependant, peu d’entre eux ont tenu compte des rapports de force et des structures de pouvoir dans lesquels s’enracine le vécu des infirmières. La présente étude a pour but d’explorer les expériences vécues d’infirmières soignantes politiquement engagées qui exercent en centre hospitalier (CH), de rendre compte de l’ordre social existant au sein de cette institution, de décrire la façon dont elles aimeraient idéalement exercer et de répertorier les idées qu’elles ont et les actions qu’elles mettent en place individuellement ou collectivement de façon à favoriser la transformation de l’ordre social et de l’exercice infirmier en CH. Épistémologiquement, notre étude qualitative s’inscrit dans cette idée que la réalité est complexe, mouvante et dépendante de la perception des personnes, proposant une orientation compréhensive et contextualisée de l’action humaine et du politique; c’est ainsi que le point de vue politique des infirmières participantes est pris en compte. L’articulation des expériences vécues, de l’idéal normatif et de l’action politique des participantes est explorée suivant une perspective postmoderniste, praxéologique et dialectique issue de la théorie critique qui réfléchit non seulement sur ce qui est, mais également sur ce qui est souhaitable; une réflexion qui sous certaines conditions s’ouvre sur l’action transformatrice. Les notions de pouvoir, de rapport de force, de résistance et d’émancipation influencent notre analyse. Au terme de cette étude, les résultats indiquent la présence d’une déprofessionnalisation graduelle en faveur d’une technicisation du soin infirmier et d’une dérive autoritaire grandissante au sein des CH s’arrimant au registre sémantique de l’économie de marché à partir des notions d’efficacité, de performance et d’optimisation. Les infirmières soignantes perçues comme des « automates performants » se voient exclues des processus décisionnels, ce qui les prive de leurs libertés de s’exprimer et de se faire critiques devant ce qui a été convenu par ceux qui occupent les hautes hiérarchies du pouvoir hospitalier et qui déterminent à leur place la façon dont s’articule l’exercice infirmier. Le pouvoir disciplinaire hospitalier, par l’entremise de technologies politiques comme la surveillance continue, les représailles et la peur, la technicisation du soin et le temps supplémentaire obligatoire, concourt à la subjectivation des infirmières soignantes, en minimisant l’importance de leur jugement clinique, en affaiblissant la solidarité collective et en mettant au pas l’organisation syndicale, ce qui détournent ces infirmières de la revendication de leurs droits et idéaux d’émancipation les ramenant à une position subalterne. Nos résultats indiquent que les actions politiques que les participantes souhaitent déployer au sein des CH visent l’humanisation des soins et l’autodétermination professionnelle. Toutefois, nombre des actions répertoriées avaient pour finalité fonctionnelle la protection et la survie des infirmières au sein d’un dispositif hospitalier déshumanisant. Certaines infirmières soignantes s’objectent en conscience, déploient des actions de non-coopération individuelles et collectives, font preuve d’actes de désobéissance civile ou souhaitent agir en ce sens pour établir un rapport de force nécessaire à la prise en compte de leurs revendications par une gouvernance hospitalière qui autrement ferait la sourde oreille. Le pouvoir exercé de façon hostile par la gouvernance hospitalière doit à notre avis être contrecarré par une force infirmière collective égale ou supérieure, sans quoi les politiques qui lui sont associées continueront de leur être imposées. Le renouvellement radical de la démocratie hospitalière apparaît comme la finalité centrale vers laquelle doivent s’articuler les actions infirmières collectives qui permettront l’établissement d’un nouveau rapport de force puisque c’est à partir de celle-ci que les infirmières soignantes pourront débattre de l’orientation que doit prendre l’exercice infirmier.