4 resultados para l’inference variationnel
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
Le principe de contraction de Banach, qui garantit l'existence d'un point fixe d'une contraction d'un espace métrique complet à valeur dans lui-même, est certainement le plus connu des théorèmes de point fixe. Dans plusieurs situations concrètes, nous sommes cependant amenés à considérer une contraction qui n'est définie que sur un sous-ensemble de cet espace. Afin de garantir l'existence d'un point fixe, nous verrons que d'autres hypothèses sont évidemment nécessaires. Le théorème de Caristi, qui garantit l'existence d'un point fixe d'une fonction d'un espace métrique complet à valeur dans lui-même et respectant une condition particulière sur d(x,f(x)), a plus tard été généralisé aux fonctions multivoques. Nous énoncerons des théorèmes de point fixe pour des fonctions multivoques définies sur un sous-ensemble d'un espace métrique grâce, entre autres, à l'introduction de notions de fonctions entrantes. Cette piste de recherche s'inscrit dans les travaux très récents de mathématiciens français et polonais. Nous avons obtenu des généralisations aux espaces de Fréchet et aux espaces de jauge de quelques théorèmes, dont les théorèmes de Caristi et le principe variationnel d'Ekeland. Nous avons également généralisé des théorèmes de point fixe pour des fonctions qui sont définies sur un sous-ensemble d'un espace de Fréchet ou de jauge. Pour ce faire, nous avons eu recours à de nouveaux types de contractions; les contractions sur les espaces de Fréchet introduites par Cain et Nashed [CaNa] en 1971 et les contractions généralisées sur les espaces de jauge introduites par Frigon [Fr] en 2000.
Resumo:
Thèse réalisée en cotutelle avec l'Université Catholique de Louvain (Belgique)
Resumo:
L'approximation adiabatique en mécanique quantique stipule que si un système quantique évolue assez lentement, alors il demeurera dans le même état propre. Récemment, une faille dans l'application de l'approximation adiabatique a été découverte. Les limites du théorème seront expliquées lors de sa dérivation. Ce mémoire à pour but d'optimiser la probabilité de se maintenir dans le même état propre connaissant le système initial, final et le temps d'évolution total. Cette contrainte sur le temps empêche le système d'être assez lent pour être adiabatique. Pour solutionner ce problème, une méthode variationnelle est utilisée. Cette méthode suppose connaître l'évolution optimale et y ajoute une petite variation. Par après, nous insérons cette variation dans l'équation de la probabilité d'être adiabatique et développons en série. Puisque la série est développée autour d'un optimum, le terme d'ordre un doit nécessairement être nul. Ceci devrait nous donner un critère sur l'évolution la plus adiabatique possible et permettre de la déterminer. Les systèmes quantiques dépendants du temps sont très complexes. Ainsi, nous commencerons par les systèmes ayant des énergies propres indépendantes du temps. Puis, les systèmes sans contrainte et avec des fonctions d'onde initiale et finale libres seront étudiés.