849 resultados para Artificial intelligence
Resumo:
Site web associ au mmoire: http://daou.st/JSreal
Resumo:
Les humains communiquent via diffrents types de canaux: les mots, la voix, les gestes du corps, des motions, etc. Pour cette raison, un ordinateur doit percevoir ces divers canaux de communication pour pouvoir interagir intelligemment avec les humains, par exemple en faisant usage de microphones et de webcams. Dans cette thse, nous nous intressons dterminer les motions humaines partir dimages ou de vido de visages afin densuite utiliser ces informations dans diffrents domaines dapplications. Ce mmoire dbute par une brve introduction l'apprentissage machine en sattardant aux modles et algorithmes que nous avons utiliss tels que les perceptrons multicouches, rseaux de neurones convolution et autoencodeurs. Elle prsente ensuite les rsultats de l'application de ces modles sur plusieurs ensembles de donnes d'expressions et motions faciales. Nous nous concentrons sur l'tude des diffrents types dautoencodeurs (autoencodeur dbruitant, autoencodeur contractant, etc) afin de rvler certaines de leurs limitations, comme la possibilit d'obtenir de la coadaptation entre les filtres ou encore dobtenir une courbe spectrale trop lisse, et tudions de nouvelles ides pour rpondre ces problmes. Nous proposons galement une nouvelle approche pour surmonter une limite des autoencodeurs traditionnellement entrains de faon purement non-supervise, c'est--dire sans utiliser aucune connaissance de la tche que nous voulons finalement rsoudre (comme la prvision des tiquettes de classe) en dveloppant un nouveau critre d'apprentissage semi-supervis qui exploite un faible nombre de donnes tiquetes en combinaison avec une grande quantit de donnes non-tiquetes afin d'apprendre une reprsentation adapte la tche de classification, et d'obtenir une meilleure performance de classification. Finalement, nous dcrivons le fonctionnement gnral de notre systme de dtection d'motions et proposons de nouvelles ides pouvant mener de futurs travaux.
Resumo:
Lapprentissage supervis de rseaux hirarchiques grande chelle connat prsentement un succs fulgurant. Malgr cette effervescence, lapprentissage non-supervis reprsente toujours, selon plusieurs chercheurs, un lment cl de lIntelligence Artificielle, o les agents doivent apprendre partir dun nombre potentiellement limit de donnes. Cette thse sinscrit dans cette pense et aborde divers sujets de recherche lis au problme destimation de densit par lentremise des machines de Boltzmann (BM), modles graphiques probabilistes au coeur de lapprentissage profond. Nos contributions touchent les domaines de lchantillonnage, lestimation de fonctions de partition, loptimisation ainsi que lapprentissage de reprsentations invariantes. Cette thse dbute par lexposition dun nouvel algorithme d'chantillonnage adaptatif, qui ajuste (de fa con automatique) la temprature des chanes de Markov sous simulation, afin de maintenir une vitesse de convergence leve tout au long de lapprentissage. Lorsquutilis dans le contexte de lapprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face la slection du taux dapprentissage, ainsi quune meilleure vitesse de convergence. Nos rsultats sont prsent es dans le domaine des BMs, mais la mthode est gnrale et applicable lapprentissage de tout modle probabiliste exploitant lchantillonnage par chanes de Markov. Tandis que le gradient du maximum de vraisemblance peut-tre approxim par chantillonnage, lvaluation de la log-vraisemblance ncessite un estim de la fonction de partition. Contrairement aux approches traditionnelles qui considrent un modle donn comme une bote noire, nous proposons plutt dexploiter la dynamique de lapprentissage en estimant les changements successifs de log-partition encourus chaque mise jour des paramtres. Le problme destimation est reformul comme un problme dinfrence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, o les dimensions correspondent aux axes du temps et au paramtre de temprature. Sur le thme de loptimisation, nous prsentons galement un algorithme permettant dappliquer, de manire efficace, le gradient naturel des machines de Boltzmann comportant des milliers dunits. Jusqu prsent, son adoption tait limite par son haut cot computationel ainsi que sa demande en mmoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet dviter le calcul explicite de la matrice dinformation de Fisher (et son inverse) en exploitant un solveur linaire combin un produit matrice-vecteur efficace. Lalgorithme est prometteur: en terme du nombre dvaluations de fonctions, MFNG converge plus rapidement que SML. Son implmentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent galement les mcanismes sous-jacents lapprentissage de reprsentations invariantes. cette fin, nous utilisons la famille de machines de Boltzmann restreintes spike & slab (ssRBM), que nous modifions afin de pouvoir modliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent tre rendues invariantes un sous-espace vectoriel, en associant chacune delles, un vecteur de variables latentes continues (dnommes slabs). Ceci se traduit par une invariance accrue au niveau de la reprsentation et un meilleur taux de classification lorsque peu de donnes tiquetes sont disponibles. Nous terminons cette thse sur un sujet ambitieux: lapprentissage de reprsentations pouvant sparer les facteurs de variations prsents dans le signal dentre. Nous proposons une solution base de ssRBM bilinaire (avec deux groupes de facteurs latents) et formulons le problme comme lun de pooling dans des sous-espaces vectoriels complmentaires.
Resumo:
Dans la smantique des cadres de Fillmore, les mots prennent leur sens par rapport au contexte vnementiel ou situationnel dans lequel ils sinscrivent. FrameNet, une ressource lexicale pour langlais, dfinit environ 1000 cadres conceptuels, couvrant lessentiel des contextes possibles. Dans un cadre conceptuel, un prdicat appelle des arguments pour remplir les diffrents rles smantiques associs au cadre (par exemple : Victime, Manire, Receveur, Locuteur). Nous cherchons annoter automatiquement ces rles smantiques, tant donn le cadre smantique et le prdicat. Pour cela, nous entrainons un algorithme dapprentissage machine sur des arguments dont le rle est connu, pour gnraliser aux arguments dont le rle est inconnu. On utilisera notamment des proprits lexicales de proximit smantique des mots les plus reprsentatifs des arguments, en particulier en utilisant des reprsentations vectorielles des mots du lexique.
Resumo:
Cette thse tudie des modles de squences de haute dimension bass sur des rseaux de neurones rcurrents (RNN) et leur application la musique et la parole. Bien qu'en principe les RNN puissent reprsenter les dpendances long terme et la dynamique temporelle complexe propres aux squences d'intrt comme la vido, l'audio et la langue naturelle, ceux-ci n'ont pas t utiliss leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficult de les entraner efficacement par descente de gradient. Rcemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entranement avances ont entran la recrudescence de leur utilisation dans plusieurs systmes de l'tat de l'art. Le travail de cette thse prend part ce dveloppement. L'ide centrale consiste exploiter la flexibilit des RNN pour apprendre une description probabiliste de squences de symboles, c'est--dire une information de haut niveau associe aux signaux observs, qui en retour pourra servir d' priori pour amliorer la prcision de la recherche d'information. Par exemple, en modlisant l'volution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonmes dans un nonc oral ou encore de sources individuelles dans un mlange audio, nous pouvons amliorer significativement les mthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de sparation de sources audio respectivement. L'application pratique de nos modles ces tches est dtaille dans les quatre derniers articles prsents dans cette thse. Dans le premier article, nous remplaons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour dcrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxime article, nous valuons et proposons des mthodes avances pour entraner les RNN. Dans les quatre derniers articles, nous examinons diffrentes faons de combiner nos modles symboliques des rseaux profonds et la factorisation matricielle non-ngative, notamment par des produits d'experts, des architectures entre/sortie et des cadres gnratifs gnralisant les modles de Markov cachs. Nous proposons et analysons galement des mthodes d'infrence efficaces pour ces modles, telles la recherche vorace chronologique, la recherche en faisceau haute dimension, la recherche en faisceau lagu et la descente de gradient. Finalement, nous abordons les questions de l'tiquette biaise, du matre imposant, du lissage temporel, de la rgularisation et du pr-entranement.
Resumo:
Ce mmoire est compos de trois articles et prsente les rsultats de travaux de recherche effectus dans le but d'amliorer les techniques actuelles permettant d'utiliser des donnes associes certaines tches dans le but d'aider l'entranement de rseaux de neurones sur une tche diffrente. Les deux premiers articles prsentent de nouveaux ensembles de donnes crs pour permettre une meilleure valuation de ce type de techniques d'apprentissage machine. Le premier article introduit une suite d'ensembles de donnes pour la tche de reconnaissance automatique de chiffres crits la main. Ces ensembles de donnes ont t gnrs partir d'un ensemble de donnes dj existant, MNIST, auquel des nouveaux facteurs de variation ont t ajouts. Le deuxime article introduit un ensemble de donnes pour la tche de reconnaissance automatique d'expressions faciales. Cet ensemble de donnes est compos d'images de visages qui ont t collectes automatiquement partir du Web et ensuite tiquetes. Le troisime et dernier article prsente deux nouvelles approches, dans le contexte de l'apprentissage multi-tches, pour tirer avantage de donnes pour une tche donne afin d'amliorer les performances d'un modle sur une tche diffrente. La premire approche est une gnralisation des neurones Maxout rcemment proposes alors que la deuxime consiste en l'application dans un contexte supervis d'une technique permettant d'inciter des neurones apprendre des fonctions orthogonales, l'origine propose pour utilisation dans un contexte semi-supervis.
Resumo:
Lobjectif de cette thse par articles est de prsenter modestement quelques tapes du parcours qui mnera (on espre) une solution gnrale du problme de lintelligence artificielle. Cette thse contient quatre articles qui prsentent chacun une diffrente nouvelle mthode dinfrence perceptive en utilisant lapprentissage machine et, plus particulirement, les rseaux neuronaux profonds. Chacun de ces documents met en vidence lutilit de sa mthode propose dans le cadre dune tche de vision par ordinateur. Ces mthodes sont applicables dans un contexte plus gnral, et dans certains cas elles on tt appliques ailleurs, mais ceci ne sera pas abord dans le contexte de cette de thse. Dans le premier article, nous prsentons deux nouveaux algorithmes dinfrence variationelle pour le modle gnratif dimages appel codage parcimonieux spike- and-slab (CPSS). Ces mthodes dinfrence plus rapides nous permettent dutiliser des modles CPSS de tailles beaucoup plus grandes quauparavant. Nous dmontrons quelles sont meilleures pour extraire des dtecteur de caractristiques quand trs peu dexemples tiquets sont disponibles pour lentranement. Partant dun modle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirige (MBP-PD). Ce modle a t conu de manire simplifier dentranement des machines de Boltzmann profondes qui ncessitent normalement une phase de pr-entranement glouton pour chaque couche. Ce problme est rgl dans une certaine mesure, mais le cot dinfrence dans le nouveau modle est relativement trop lev pour permettre de lutiliser de manire pratique. Dans le deuxime article, nous revenons au problme dentranement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modles, nous introduisons un nouveau critre dentranement qui donne naissance aux machines de Boltzmann profondes multiples prdictions (MBP-MP). Les MBP-MP sont entranables en une seule tape et ont un meilleur taux de succs en classification que les MBP classiques. Elles sentranent aussi avec des mthodes variationelles standard au lieu de ncessiter un classificateur discriminant pour obtenir un bon taux de succs en classification. Par contre, un des inconvnients de tels modles est leur incapacit de gnrer deschantillons, mais ceci nest pas trop grave puisque la performance de classification des machines de Boltzmann profondes nest plus une priorit tant donn les dernires avances en apprentissage supervis. Malgr cela, les MBP-MP demeurent intressantes parce quelles sont capable daccomplir certaines tches que des modles purement superviss ne peuvent pas faire, telles que celle de classifier des donnes incompltes ou encore celle de combler intelligemment linformation manquante dans ces donnes incompltes. Le travail prsent dans cette thse sest droul au milieu dune priode de transformations importantes du domaine de lapprentissage rseaux neuronaux profonds qui a t dclenche par la dcouverte de lalgorithme de dropout par Geoffrey Hinton. Dropout rend possible un entranement purement supervis darchitectures de propagation unidirectionnel sans tre expos au danger de sur- entranement. Le troisime article prsent dans cette thse introduit une nouvelle fonction dactivation spcialement con cue pour aller avec lalgorithme de Dropout. Cette fonction dactivation, appele maxout, permet lutilisation de aggrgation multi-canal dans un contexte dapprentissage purement supervis. Nous dmontrons comment plusieurs tches de reconnaissance dobjets sont mieux accomplies par lutilisation de maxout. Pour terminer, sont prsentons un vrai cas dutilisation dans lindustrie pour la transcription dadresses de maisons plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des rseaux neuronaux de convolution, nous dmontrons quil est possible datteindre un taux de succs comparable celui des humains sur un ensemble de donnes coriace constitu de photos prises par les voitures de Google. Ce systme a t dploy avec succs chez Google pour lire environ cent million dadresses de maisons.
Resumo:
L'objectif de cette thse est de prsenter diffrentes applications du programme de recherche de calcul conditionnel distribu. On espre que ces applications, ainsi que la thorie prsente ici, mnera une solution gnrale du problme d'intelligence artificielle, en particulier en ce qui a trait la ncessit d'efficience. La vision du calcul conditionnel distribu consiste acclrer l'valuation et l'entranement de modles profonds, ce qui est trs diffrent de l'objectif usuel d'amliorer sa capacit de gnralisation et d'optimisation. Le travail prsent ici a des liens troits avec les modles de type mlange d'experts. Dans le chapitre 2, nous prsentons un nouvel algorithme d'apprentissage profond qui utilise une forme simple d'apprentissage par renforcement sur un modle d'arbre de dcisions base de rseau de neurones. Nous dmontrons la ncessit d'une contrainte d'quilibre pour maintenir la distribution d'exemples aux experts uniforme et empcher les monopoles. Pour rendre le calcul efficient, l'entrainement et l'valuation sont contraints tre parse en utilisant un routeur chantillonnant des experts d'une distribution multinomiale tant donn un exemple. Dans le chapitre 3, nous prsentons un nouveau modle profond constitu d'une reprsentation parse divise en segments d'experts. Un modle de langue base de rseau de neurones est construit partir des transformations parses entre ces segments. L'opration parse par bloc est implmente pour utilisation sur des cartes graphiques. Sa vitesse est compare deux oprations denses du mme calibre pour dmontrer le gain rel de calcul qui peut tre obtenu. Un modle profond utilisant des oprations parses contrles par un routeur distinct des experts est entran sur un ensemble de donnes d'un milliard de mots. Un nouvel algorithme de partitionnement de donnes est appliqu sur un ensemble de mots pour hirarchiser la couche de sortie d'un modle de langage, la rendant ainsi beaucoup plus efficiente. Le travail prsent dans cette thse est au centre de la vision de calcul conditionnel distribu mis par Yoshua Bengio. Elle tente d'appliquer la recherche dans le domaine des mlanges d'experts aux modles profonds pour amliorer leur vitesse ainsi que leur capacit d'optimisation. Nous croyons que la thorie et les expriences de cette thse sont une tape importante sur la voie du calcul conditionnel distribu car elle cadre bien le problme, surtout en ce qui concerne la comptitivit des systmes d'experts.
Resumo:
Les rcents avancements en sciences cognitives, psychologie et neurosciences, ont dmontr que les motions et les processus cognitifs sont intimement relis. Ce constat a donn lieu une nouvelle gnration de Systmes Tutoriels Intelligents (STI) dont la logique dadaptation repose sur une considration de la dimension motionnelle et affective de lapprenant. Ces systmes, connus sous le nom de Systmes Tutoriels motionnellement Intelligents (STEI), cherchent se doter des facults des tuteurs humains dans leurs capacits dtecter, comprendre et sadapter intuitivement en fonction de ltat motionnel des apprenants. Toutefois, en dpit du nombre important de travaux portant sur la modlisation motionnelle, les diffrents rsultats empiriques ont dmontr que les STEI actuels narrivent pas avoir un impact significatif sur les performances et les ractions motionnelles des apprenants. Ces limites sont principalement dues la complexit du concept motionnel qui rend sa modlisation difficile et son interprtation ambigu. Dans cette thse, nous proposons daugmenter les STEI des indicateurs dtats mentaux dengagement et de charge mentale de travail. Ces tats mentaux ont lavantage denglober la fois une dimension affective et cognitive. Pour cela, nous allons, dans une premire partie, prsenter une approche de modlisation de ces indicateurs partir des donnes de lactivit crbrale des apprenants. Dans une seconde partie, nous allons intgrer ces modles dans un STEI capable dadapter en temps rel le processus dapprentissage en fonction de ces indicateurs.
Resumo:
En apprentissage automatique, domaine qui consiste utiliser des donnes pour apprendre une solution aux problmes que nous voulons confier la machine, le modle des Rseaux de Neurones Artificiels (ANN) est un outil prcieux. Il a t invent voil maintenant prs de soixante ans, et pourtant, il est encore de nos jours le sujet d'une recherche active. Rcemment, avec l'apprentissage profond, il a en effet permis d'amliorer l'tat de l'art dans de nombreux champs d'applications comme la vision par ordinateur, le traitement de la parole et le traitement des langues naturelles. La quantit toujours grandissante de donnes disponibles et les amliorations du matriel informatique ont permis de faciliter l'apprentissage de modles haute capacit comme les ANNs profonds. Cependant, des difficults inhrentes l'entranement de tels modles, comme les minima locaux, ont encore un impact important. L'apprentissage profond vise donc trouver des solutions, en rgularisant ou en facilitant l'optimisation. Le pr-entrannement non-supervis, ou la technique du ``Dropout'', en sont des exemples. Les deux premiers travaux prsents dans cette thse suivent cette ligne de recherche. Le premier tudie les problmes de gradients diminuants/explosants dans les architectures profondes. Il montre que des choix simples, comme la fonction d'activation ou l'initialisation des poids du rseaux, ont une grande influence. Nous proposons l'initialisation normalise pour faciliter l'apprentissage. Le second se focalise sur le choix de la fonction d'activation et prsente le rectifieur, ou unit rectificatrice linaire. Cette tude a t la premire mettre l'accent sur les fonctions d'activations linaires par morceaux pour les rseaux de neurones profonds en apprentissage supervis. Aujourd'hui, ce type de fonction d'activation est une composante essentielle des rseaux de neurones profonds. Les deux derniers travaux prsents se concentrent sur les applications des ANNs en traitement des langues naturelles. Le premier aborde le sujet de l'adaptation de domaine pour l'analyse de sentiment, en utilisant des Auto-Encodeurs Dbruitants. Celui-ci est encore l'tat de l'art de nos jours. Le second traite de l'apprentissage de donnes multi-relationnelles avec un modle base d'nergie, pouvant tre utilis pour la tche de dsambiguation de sens.
Resumo:
Objective To determine scoliosis curve types using non invasive surface acquisition, without prior knowledge from X-ray data. Methods Classification of scoliosis deformities according to curve type is used in the clinical management of scoliotic patients. In this work, we propose a robust system that can determine the scoliosis curve type from non invasive acquisition of the 3D back surface of the patients. The 3D image of the surface of the trunk is divided into patches and local geometric descriptors characterizing the back surface are computed from each patch and constitute the features. We reduce the dimensionality by using principal component analysis and retain 53 components using an overlap criterion combined with the total variance in the observed variables. In this work, a multi-class classifier is built with least-squares support vector machines (LS-SVM). The original LS-SVM formulation was modified by weighting the positive and negative samples differently and a new kernel was designed in order to achieve a robust classifier. The proposed system is validated using data from 165 patients with different scoliosis curve types. The results of our non invasive classification were compared with those obtained by an expert using X-ray images. Results The average rate of successful classification was computed using a leave-one-out cross-validation procedure. The overall accuracy of the system was 95%. As for the correct classification rates per class, we obtained 96%, 84% and 97% for the thoracic, double major and lumbar/thoracolumbar curve types, respectively. Conclusion This study shows that it is possible to find a relationship between the internal deformity and the back surface deformity in scoliosis with machine learning methods. The proposed system uses non invasive surface acquisition, which is safe for the patient as it involves no radiation. Also, the design of a specific kernel improved classification performance.
Resumo:
Holographic technology is at the dawn of quick evolution in various new areas including holographic data storage, holographic optical elements, artificial intelligence, optical interconnects, optical correlators, commerce, medical practice, holographic weapon sight, night vision goggles and games etc. One of the major obstacles for the success of holographic technology to a large extent is the lack of suitable recording medium. Compared with other holographic materials such as dichromated gelatin and silver halide emulsions, photopolymers have the great advantage of recording and reading holograms in real time and the spectral sensitivity could be easily shifted to the type of recording laser used by simply changing the sensitizing dye. Also these materials possess characteristics such as good light sensitivity, real time image development, large dynamic range, good optical properties, format flexibility, and low cost. This thesis describes the attempts made to fabricate highly economic photopolymer films for various holographic applications. In the present work, Poly (vinyl alcohol) (PVA) and poly (vinyl chloride) (PVC) are selected as the host polymer matrices and methylene blue (MB) is used as the photosensitizing dye. The films were fabricated using gravity settling method. No chemical treatment or pre/post exposures were applied to the films. As the outcome of the work, photopolymer films with more than 70% efficiency, a permanent recording material which required no fixing process, a reusable recording material etc. were fabricated.
Resumo:
This paper presents the design and development of a frame based approach for speech to sign language machine translation system in the domain of railways and banking. This work aims to utilize the capability of Artificial intelligence for the improvement of physically challenged, deaf-mute people. Our work concentrates on the sign language used by the deaf community of Indian subcontinent which is called Indian Sign Language (ISL). Input to the system is the clerks speech and the output of this system is a 3D virtual human character playing the signs for the uttered phrases. The system builds up 3D animation from pre-recorded motion capture data. Our work proposes to build a Malayalam to ISL
Resumo:
Agent based simulation is a widely developing area in artificial intelligence.The simulation studies are extensively used in different areas of disaster management. This work deals with the study of an agent based evacuation simulation which is being done to handle the various evacuation behaviors.Various emergent behaviors of agents are addressed here. Dynamic grouping behaviors of agents are studied. Collision detection and obstacle avoidances are also incorporated in this approach.Evacuation is studied with single exits and multiple exits and efficiency is measured in terms of evacuation rate, collision rate etc.Net logo is the tool used which helps in the efficient modeling of scenarios in evacuation
Resumo:
In this paper, a new directionally adaptive, learning based, single image super resolution method using multiple direction wavelet transform, called Directionlets is presented. This method uses directionlets to effectively capture directional features and to extract edge information along different directions of a set of available high resolution images .This information is used as the training set for super resolving a low resolution input image and the Directionlet coefficients at finer scales of its high-resolution image are learned locally from this training set and the inverse Directionlet transform recovers the super-resolved high resolution image. The simulation results showed that the proposed approach outperforms standard interpolation techniques like Cubic spline interpolation as well as standard Wavelet-based learning, both visually and in terms of the mean squared error (mse) values. This method gives good result with aliased images also.