805 resultados para LEARNING OBJECTS REPOSITORIES - MODELS
Resumo:
The serious neuropsychological repercussions of hepatic encephalopathy have led to the creation of several experimental models in order to better understand the pathogenesis of the disease. In the present investigation, two possible causes of hepatic encephalopathy, cholestasis and portal hypertension, were chosen to study the behavioral impairments caused by the disease using an object recognition task. This working memory test is based on a paradigm of spontaneous delayed non-matching to sample and was performed 60 days after surgery. Male Wistar rats (225-250 g) were divided into three groups: two experimental groups, microsurgical cholestasis (N = 20) and extrahepatic portal hypertension (N = 20), and a control group (N = 20). A mild alteration of the recognition memory occurred in rats with cholestasis compared to control rats and portal hypertensive rats. The latter group showed the poorest performance on the basis of the behavioral indexes tested. In particular, only the control group spent significantly more time exploring novel objects compared to familiar ones (P < 0.001). In addition, the portal hypertension group spent the shortest time exploring both the novel and familiar objects (P < 0.001). These results suggest that the existence of portosystemic collateral circulation per se may be responsible for subclinical encephalopathy.
Resumo:
A new area of machine learning research called deep learning, has moved machine learning closer to one of its original goals: artificial intelligence and general learning algorithm. The key idea is to pretrain models in completely unsupervised way and finally they can be fine-tuned for the task at hand using supervised learning. In this thesis, a general introduction to deep learning models and algorithms are given and these methods are applied to facial keypoints detection. The task is to predict the positions of 15 keypoints on grayscale face images. Each predicted keypoint is specified by an (x,y) real-valued pair in the space of pixel indices. In experiments, we pretrained deep belief networks (DBN) and finally performed a discriminative fine-tuning. We varied the depth and size of an architecture. We tested both deterministic and sampled hidden activations and the effect of additional unlabeled data on pretraining. The experimental results show that our model provides better results than publicly available benchmarks for the dataset.
Resumo:
The brain is a complex system, which produces emergent properties such as those associated with activity-dependent plasticity in processes of learning and memory. Therefore, understanding the integrated structures and functions of the brain is well beyond the scope of either superficial or extremely reductionistic approaches. Although a combination of zoom-in and zoom-out strategies is desirable when the brain is studied, constructing the appropriate interfaces to connect all levels of analysis is one of the most difficult challenges of contemporary neuroscience. Is it possible to build appropriate models of brain function and dysfunctions with computational tools? Among the best-known brain dysfunctions, epilepsies are neurological syndromes that reach a variety of networks, from widespread anatomical brain circuits to local molecular environments. One logical question would be: are those complex brain networks always producing maladaptive emergent properties compatible with epileptogenic substrates? The present review will deal with this question and will try to answer it by illustrating several points from the literature and from our laboratory data, with examples at the behavioral, electrophysiological, cellular and molecular levels. We conclude that, because the brain is a complex system compatible with the production of emergent properties, including plasticity, its functions should be approached using an integrated view. Concepts such as brain networks, graphics theory, neuroinformatics, and e-neuroscience are discussed as new transdisciplinary approaches dealing with the continuous growth of information about brain physiology and its dysfunctions. The epilepsies are discussed as neurobiological models of complex systems displaying maladaptive plasticity.
Resumo:
The subject of the thesis is automatic sentence compression with machine learning, so that the compressed sentences remain both grammatical and retain their essential meaning. There are multiple possible uses for the compression of natural language sentences. In this thesis the focus is generation of television program subtitles, which often are compressed version of the original script of the program. The main part of the thesis consists of machine learning experiments for automatic sentence compression using different approaches to the problem. The machine learning methods used for this work are linear-chain conditional random fields and support vector machines. Also we take a look which automatic text analysis methods provide useful features for the task. The data used for machine learning is supplied by Lingsoft Inc. and consists of subtitles in both compressed an uncompressed form. The models are compared to a baseline system and comparisons are made both automatically and also using human evaluation, because of the potentially subjective nature of the output. The best result is achieved using a CRF - sequence classification using a rich feature set. All text analysis methods help classification and most useful method is morphological analysis. Tutkielman aihe on suomenkielisten lauseiden automaattinen tiivistäminen koneellisesti, niin että lyhennetyt lauseet säilyttävät olennaisen informaationsa ja pysyvät kieliopillisina. Luonnollisen kielen lauseiden tiivistämiselle on monta käyttötarkoitusta, mutta tässä tutkielmassa aihetta lähestytään television ohjelmien tekstittämisen kautta, johon käytännössä kuuluu alkuperäisen tekstin lyhentäminen televisioruudulle paremmin sopivaksi. Tutkielmassa kokeillaan erilaisia koneoppimismenetelmiä tekstin automaatiseen lyhentämiseen ja tarkastellaan miten hyvin erilaiset luonnollisen kielen analyysimenetelmät tuottavat informaatiota, joka auttaa näitä menetelmiä lyhentämään lauseita. Lisäksi tarkastellaan minkälainen lähestymistapa tuottaa parhaan lopputuloksen. Käytetyt koneoppimismenetelmät ovat tukivektorikone ja lineaarisen sekvenssin mallinen CRF. Koneoppimisen tukena käytetään tekstityksiä niiden eri käsittelyvaiheissa, jotka on saatu Lingsoft OY:ltä. Luotuja malleja vertaillaan Lopulta mallien lopputuloksia evaluoidaan automaattisesti ja koska teksti lopputuksena on jossain määrin subjektiivinen myös ihmisarviointiin perustuen. Vertailukohtana toimii kirjallisuudesta poimittu menetelmä. Tutkielman tuloksena paras lopputulos saadaan aikaan käyttäen CRF sekvenssi-luokittelijaa laajalla piirrejoukolla. Kaikki kokeillut teksin analyysimenetelmät auttavat luokittelussa, joista tärkeimmän panoksen antaa morfologinen analyysi.
Resumo:
This research explored the events that engaged graduate students in transformative learning within a graduate program in education. This context was chosen because one objective of a graduate program is to facilitate critical thinking and transformative learning. The question ofhow adult learners perceive and experience learning steered the direction ofthis study. However, the purpose ofthis research was to study critical incidents that led to profound cognitive and affective changes as perceived by the graduate students. Specifically, the questions to be answered were what critical incidents happened to graduate students while in the Master ofEducation program, how were the incidents experienced, and what transformation resulted? The research design evolved over the course of a year and was highly influenced by previous empirical studies and criticisms oftransformative learning theory. The overall design was qualitative and phenomenological. A critical and interpretive approach was made to empirical data collected through a critical incident questionnaire and in-depth interviews. Inductive analysis allowed theory to be built from the data by making comparisons. New questions emerged and attention was given to social context, the passage oftime, and sequence ofevents in order to give meaning and translation ofthe participants' experiences and to build the interpretive narratives. Deductive analysis was also used on the data and a blending ofthe two forms of analysis; this resulted in the development ofa foundational model for transformative learning to be built.The data revealed critical incidents outside ofthe graduate school program that occurred in childhood or adult life prior to graduate school. Since context of individuals' lives had been an important critique of past transformative learning models and studies, this research expanded the original boundaries of this study beyond graduate school to incorporate incidents that occurred outside of graduate school. Critical incidents were categorized into time-related, people-related, and circumstancerelated themes. It was clear that participants were influenced and molded by the stage oftheir life, personal experiences, familial and cultural conditioning, and even historic events. The model developed in this document fiom an overview ofthe fmdings identifies a four-stage process of life difficulty, disintegration, reintegration, and completion that all participants' followed. The blended analysis was revealed from the description ofhow the incidents were experienced by the participants. The final categories were what were the feelings, what was happening, and what was the enviromnent? The resulting transformation was initially only going to consider cognitive and affective changes, however, it was apparent that contextual changes also occurred for all participants, so this category was also included. The model was described with the construction metaphor of a building "foimdation" to illustrate the variety of conditions that are necessary for transformative learning to occur. Since this was an exploratory study, no prior models or processes were used in data analysis, however, it appeared that the model developed from this study incorporated existing models and provided a more encompassing life picture oftransformative learning.
Resumo:
What research learning experiences do current students have as research assistants (RAs) in the Faculty of Education at Brock University? How do the experiences of research assistants contribute to the formation of a researcher identity and influence future research plans? Despite the importance of these questions, there seems to be very little research conducted or written about the experiences of research assistants as they engage in the research process. There are few resources to which research assistants or their advisors can refer regarding graduate student research learning experiences. The purpose of this study was to understand the kinds of learning experiences that 4 RAs (who are enrolled in the Faculty of Education at Brock University, St. Catharines, Ontario) have and how those experiences contribute to their identities as researchers. Through interviews with participants, observations of participants, and textual documents produced by participants, I have (a) discovered what 4 RAs have learned while engaged in one or more research assistantships and (b) explored how these 4 RAs' experiences have shaped their identities as new researchers. My research design provided a separate case study for each participant RA, including myself as a research participant. Then as a collective, I studied all 4 cases as a case study in itself in the form of a cross-analysis to identify similarities and differences between cases. Using a variety of writing forms and visual narratives, I analyzed and interpreted the experiences of my participants utilizing arts-based literature to inform my analysis and thesis format. The final presentation includes electronic diagrams, models, poetry, a newsletter, a website presentation, and other representational arts-based forms.This thesis is a resource for current and future research assistants who can learn from the research assistant experiences presented in the research. Faculty members who hire research assistants to assist them with their research will also benefit from reading about RAs' learning experiences from the RAs' perspective. The information provided in this thesis document is a resource to inform future policies and research training initiatives in faculty departments and offices at universities. Consequently, this thesis also informs researchers (experienced and inexperienced) about how to conduct research in ways that benefit all parties and provide insight into potential ways to improve research assistantship practices.
Resumo:
This thesis is a narrative inquiry of learning English as an adult. It stories the journey of 7 women, including me, and unravels lived experiences that serve as learning models. Learning English as an adult presents challenges and results in lifelong implications both in personal and professional life. Every learner's experience is imique and, when reflected upon, each experience is a valuable source of knowledge for constructing meanings and forging new identities. The stories are testimony to the participants' lives: interrupted yet improvised, silenced yet roused, dependent yet independent, intimidated yet courageous, vulnerable yet empowered. The personal experiences elucidate the passion, the inner voices, the dreams, and the rewards that compel persistence in learning a new language and releaming new social roles. The stories provide encouragement and hope to other women who are learning or will learn English in their adult years, and the lived experiences will offer insights for English language teachers. This thesis employs the phenomenology methodology of research with heuristic (discovery) and hermeneutical (interpretative) approaches using the reflective-responsivereflexive writing and interviewing methods for data gathering and unravelling. The narrative inquiry approach reaffirms that storytelling is an important tool in conducting research and constructing new knowledge. This thesis narrates a new story about sharing experiences, interconnecting, and continuing to learn.
Resumo:
The study focused on the teacher as an adult learner rather than an instructor. A sample of three hundred and three elementary school teachers completed a two-part Likert survey questionnaire. The instrument was developed by the researcher in an attempt to operationalize Mezirow's Theory of Perspective Transformation. The four sub-scales collected information about teachers as they perceived themselves as adult learners and the way they conceptualize critical SelfReflection, Meaning perspectives and New Insights (Mezirow, 1978, 1981, 1989, 1990) within a framework of Mezirow's concept of Transformative Learning. Survey research methodology was used. Frequency distributions, means, and standard deviation were calculated. Reliability analysis and Pearson 'r' correlations established the internal consistency of items It Cross tabulations to describe differences in responses across demographic valuables were computed. The survey results indicated that teachers perceived themselves as self-directed learners. The findings support the need for a better understanding of the teacher as an adult learner so that teacher inservice programs and teacher supervision and evaluation can provide a viable learning alternative to the existing models used in practice.
Resumo:
The purpose of this study was to investigate the relationship between learning styles and academic achievement in postsecondary education. It was the intent of the study to establish if there was a relationship between student learning style, teacher style, learner/teacher matching and/or mismatching, student gender and age, to the academic grades of students. This study was basically a replication of a study completed by Mary J. Thompson and Terrance P. O'Brien in 1991 on two campuses of a southeast community college in the United States. In the present study, 243 students and 18 teachers from two different campuses of a community college in the Province of Ontario participated in the research. All participants were administered the Gregorc Style Delineator and students identified by program, age and gender. Data were tested by two analysis of variance (ANOVA) models. In the first ANOVA model considered in this study, significant main effects were manifested in regard to the teaching style, age group and gender. With the exception of gender, these findings were very similiar to those of the original study. Duncan's multiple range test revealed that Concrete Sequential (CS) teachers assigned significantly lower grades than did teachers dominant in any of the other three learning styles. Post hoc testing revealed that students 25 years of age and older received significantly higher grades than did younger students. Female students also received significantly higher grades than did male students. In the second ANOVA model student/teacher learning style match/mismatch did emerge as a significant main effect. However, Duncan's multiple range test and Chi square analysis did not substantiate the relationship. Forty-eight references are cited.
Resumo:
The purpose of this major research project was to develop a practical tool in the form of a handbook that could facilitate educators’ effective use of technology in primary and junior classrooms. The main goal was to explore the use of iPad devices and applications in the literacy classroom. The study audited available free applications against set criteria and selected only those that promoted 21st-century learning. The researcher used such applications to develop literacy lessons that aligned with curriculum expectations and promoted 21st-century skills and traditional skills alike. The study also created assessment models to evaluate the use of iPads in student work and explored the benefits and limitations of technology usage in student learning.
Resumo:
Les tendances de la participation à la formation des adultes au Canada n’ont pas évolué depuis des décennies, malgré les nouvelles influences économiques qui ont stimulé l’augmentation et la diversification permanente de la formation des employés et malgré les initiatives plus nombreuses en faveur de l’apprentissage des employés en milieu de travail. Il est donc nécessaire de ne plus se contenter d’étudier les prédicteurs de la formation déjà connus dans les profils des employés et des employeurs. Il est, en revanche, indispensable d’étudier les antécédents de la participation des employés à la formation, y compris les aspects et les étapes du processus qui la précède. Cette étude porte sur les antécédents de la participation des employés aux formations dans un important collège communautaire urbain en Ontario. Afin de préparer le recueil des données, un cadre théorique a été élaboré à partir du concept d’expression de la demande. Ce cadre implique l’existence d’un processus qui comporte plusieurs étapes, au cours desquelles plusieurs intervenants interagissent et dont la formation est susceptible d’être le résultat. Les résultats de l’enquête sur le profil d’apprentissage ont permis de conclure que le comportement des employés et de l’employeur est conforme aux modèles de prédicteurs existants et que les taux et les types de participation étaient similaires aux tendances nationales et internationales. L’analyse des entrevues d’un groupe d’employés atypiques, de leurs superviseurs, ainsi que de représentants du collège et du syndicat, a révélé d’importants thèmes clés : l’expression de la demande n’est pas structurée et elle est communiquée par plusieurs canaux, en excluant parfois les superviseurs. De plus, la place de l’auto évaluation est importante, ainsi que la phase de prise de décision. Ces thèmes ont souligné l’interaction de plusieurs intervenants dans le processus d’expression de la demande d’apprentissage et pendant la prise de décision. L’examen des attentes de chacun de ces intervenants au cours de ce processus nous a permis de découvrir un désir tacite chez les superviseurs et les employés, à savoir que la conversation soit à l’initiative de « l’autre ». Ces thèmes clés ont été ensuite abordés dans une discussion qui a révélé une discordance entre le profil de l’employeur et les profils des employés. Celle-ci se prête à la correction par l’employeur de son profil institutionnel pour l’harmoniser avec le profil dispositionnel des employés et optimiser ainsi vraisemblablement son offre de formation. Ils doivent, pour cela, appliquer un processus plus systématique et plus structuré, doté de meilleurs outils. La discussion a porté finalement sur les effets des motivations économiques sur la participation des employés et a permis de conclure que, bien que les employés ne semblent pas se méfier de l’offre de formation de l’employeur et que celle ci ne semble pas non plus les décourager, des questions de pouvoir sont bel et bien en jeu. Elles se sont principalement manifestées pendant le processus de prise de décision et, à cet égard, les superviseurs comme les employés reconnaissent qu’un processus plus structuré serait bénéfique, puisqu’il atténuerait les problèmes d’asymétrie et d’ambiguïté. Les constatations de cette étude sont pertinentes pour le secteur de la formation des adultes et de la formation en milieu de travail et, plus particulièrement, pour la méthodologie de recherche. Nous avons constaté l’avantage d’une méthodologie à deux volets, à l’écoute de l’employeur et des employés, afin de mieux comprendre la relation entre l’offre de formation et la participation à la formation. La définition des antécédents de la participation sous la forme d’un processus dans lequel plusieurs intervenants remplissent plusieurs rôles a permis de créer un modèle plus détaillé qui servira à la recherche future. Ce dernier a démontré qu’il est indispensable de reconnaître que la prise de décision constitue une étape à part entière, située entre l’expression de la demande et la participation à la formation. Ces constatations ont également révélé qu’il est véritablement indispensable que le secteur de la formation des adultes continue à traiter les questions reliées à la reconnaissance de la formation informelle. Ces conclusions et la discussion sur les constatations clés nous ont inspiré des recommandations à appliquer pour modifier les retombées du processus précédant la participation des employés à la formation. La majorité de ces recommandations ont trait à l’infrastructure de ce processus et ciblent donc principalement l’employeur. Certaines recommandations sont cependant destinées aux syndicats, aux superviseurs et aux employés qui peuvent aider l’employeur à remplir son rôle et favoriser la participation efficace de tous à ce processus. Les recommandations qui précédent impliquent que ce sont les antécédents de la formation qui gagneraient à être plus structurés et non la formation elle même. La structuration de l’infrastructure de l’apprentissage présente cependant des risques à elle seule. En liaison avec ce phénomène, une étude spécifique des effets de la nature, de la qualité et de l’asymétrie de la relation superviseur employé sur la participation des employés à la formation serait bénéfique. Mots clés : formation en entreprise, formation professionnelle continue, antécédents à la participation, employés de soutien
Resumo:
Dans le domaine des neurosciences computationnelles, l'hypothèse a été émise que le système visuel, depuis la rétine et jusqu'au cortex visuel primaire au moins, ajuste continuellement un modèle probabiliste avec des variables latentes, à son flux de perceptions. Ni le modèle exact, ni la méthode exacte utilisée pour l'ajustement ne sont connus, mais les algorithmes existants qui permettent l'ajustement de tels modèles ont besoin de faire une estimation conditionnelle des variables latentes. Cela nous peut nous aider à comprendre pourquoi le système visuel pourrait ajuster un tel modèle; si le modèle est approprié, ces estimé conditionnels peuvent aussi former une excellente représentation, qui permettent d'analyser le contenu sémantique des images perçues. Le travail présenté ici utilise la performance en classification d'images (discrimination entre des types d'objets communs) comme base pour comparer des modèles du système visuel, et des algorithmes pour ajuster ces modèles (vus comme des densités de probabilité) à des images. Cette thèse (a) montre que des modèles basés sur les cellules complexes de l'aire visuelle V1 généralisent mieux à partir d'exemples d'entraînement étiquetés que les réseaux de neurones conventionnels, dont les unités cachées sont plus semblables aux cellules simples de V1; (b) présente une nouvelle interprétation des modèles du système visuels basés sur des cellules complexes, comme distributions de probabilités, ainsi que de nouveaux algorithmes pour les ajuster à des données; et (c) montre que ces modèles forment des représentations qui sont meilleures pour la classification d'images, après avoir été entraînés comme des modèles de probabilités. Deux innovations techniques additionnelles, qui ont rendu ce travail possible, sont également décrites : un algorithme de recherche aléatoire pour sélectionner des hyper-paramètres, et un compilateur pour des expressions mathématiques matricielles, qui peut optimiser ces expressions pour processeur central (CPU) et graphique (GPU).
Resumo:
La formation à distance (FAD) est de plus en plus utilisée dans le cadre de la formation des enseignants aux technologies de l’information et de la communication (TIC). Dans les pays en voie de développement, elle permet non seulement de réduire les coûts par rapport à une formation traditionnelle, mais aussi de modéliser des pratiques pédagogiques exemplaires qui permettent de maximiser le recours aux TIC. En ce sens, la formation continue des enseignants aux TIC par des cours à distance qui intègrent des forums de discussion offre plusieurs avantages pour ces pays. L’évaluation des apprentissages réalisés dans les forums reste cependant un problème complexe. Différents modèles et différentes procédures d’évaluation ont été proposés par la littérature, mais aucun n’a encore abordé spécifiquement la culture e-learning des participants telle qu’elle est définie par le modèle IntersTICES (Viens, 2007 ; Viens et Peraya, 2005). L’objectif de notre recherche est l’élaboration d’une grille opérationnelle pour l’analyse de la culture e-learning à partir des contenus de différents forums de discussion utilisés comme activité de formation dans un cours à distance. Pour développer cette grille, nous utiliserons une combinaison de modèles recensés dans la revue de littérature afin de circonscrire les principaux concepts et indicateurs à prendre en compte pour ensuite suivre les procédures relatives à l’analyse de la valeur, une méthodologie qui appelle la production d’un cahier des charges fonctionnel, la production de l’outil, puis sa mise à l’essai auprès d’experts. Cette procédure nous a permis de mettre sur pied une grille optimale, opérationnelle et appuyée par une base théorique et méthodologique solide.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.