339 resultados para Apprentissage quantique
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
Ce mémoire traite de la question suivante: est-ce que les cobordismes lagrangiens préservent l'uniréglage? Dans les deux premiers chapitres, on présente en survol la théorie des courbes pseudo-holomorphes nécessaire. On examine d'abord en détail la preuve que les espaces de courbes $ J $-holomorphes simples est une variété de dimension finie. On présente ensuite les résultats nécessaires à la compactification de ces espaces pour arriver à la définition des invariants de Gromov-Witten. Le troisième chapitre traite ensuite de quelques résultats sur la propriété d'uniréglage, ce qu'elle entraine et comment elle peut être démontrée. Le quatrième chapitre est consacré à la définition et la description de l'homologie quantique, en particulier celle des cobordismes lagrangiens, ainsi que sa structure d'anneau et de module qui sont finalement utilisées dans le dernier chapitre pour présenter quelques cas ou la conjecture tient.
Resumo:
Cette thèse est divisée en trois parties. Une première section présente les résultats de l'étude de la formation de polarons magnétiques liés (BMP) dans le ferroaimant EuB6 par diffusion de neutrons à petits angles (SANS). La nature magnétique du système ferromagnétique est observée sous une température critique de 15K. La signature des BMP n'apparaît pas dans la diffusion de neutrons, mais ces mesures permettent de confirmer une limite inférieure de 100\AA à la longueur de cohérence des BMP (xi_{Lower}). Dans un second temps, l'étude du LaRhSi3, un supraconducteur sans symétrie d'inversion, par muSR et ZF-muSR nous permet de sonder le comportement magnétique du système dans la phase supraconductrice. Aucun champ magnétique interne n'a été détecté en ZF-muSR sous la température critique (T_c = 2.2K). Cela indique que la phase supraconductrice ne porte pas de moment cinétique intrinsèque. L'analyse du spectre d'asymétrie sous l'application d'un champ magnétique externe nous apprend que le système est faiblement type II par l'apparition de la signature de domaines magnétiques typique d'un réseau de vortex entre H_{c1}(0) et H_{c2}(0), respectivement de 80+/- 5 et 169.0 +/- 0.5 G. Finalement, la troisième section porte sur l'étude du champ magnétique interne dans l'antiferroaimant organique NIT-2Py. L'observation d'une dépendance en température des champs magnétiques internes aux sites d'implantation muonique par ZF-muSR confirme la présence d'une interaction à longue portée entre les moments cinétiques moléculaires. Ces valeurs de champs internes, comparées aux calculs basés sur la densité de spins obtenue par calculs de la théorie de la fonctionnelle de la densité, indiquent que la moitié des molécules se dimérisent et ne contribuent pas à l'ordre antiferromagnétique. La fraction des molécules contribuant à l'ordre antiferromagnétique sous la température critique (T_c = 1.33 +/- 0.01K) forme des chaines uniformément polarisées selon l'axe (1 0 -2). Ces chaines interagissent antiferromagnétiquement entre elles le long de l'axe (0 1 0) et ferromagnétiquement entre les plan [-1 0 2].
Resumo:
L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué. On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution générale du problème d'intelligence artificielle, en particulier en ce qui a trait à la nécessité d'efficience. La vision du calcul conditionnel distribué consiste à accélérer l'évaluation et l'entraînement de modèles profonds, ce qui est très différent de l'objectif usuel d'améliorer sa capacité de généralisation et d'optimisation. Le travail présenté ici a des liens étroits avec les modèles de type mélange d'experts. Dans le chapitre 2, nous présentons un nouvel algorithme d'apprentissage profond qui utilise une forme simple d'apprentissage par renforcement sur un modèle d'arbre de décisions à base de réseau de neurones. Nous démontrons la nécessité d'une contrainte d'équilibre pour maintenir la distribution d'exemples aux experts uniforme et empêcher les monopoles. Pour rendre le calcul efficient, l'entrainement et l'évaluation sont contraints à être éparse en utilisant un routeur échantillonnant des experts d'une distribution multinomiale étant donné un exemple. Dans le chapitre 3, nous présentons un nouveau modèle profond constitué d'une représentation éparse divisée en segments d'experts. Un modèle de langue à base de réseau de neurones est construit à partir des transformations éparses entre ces segments. L'opération éparse par bloc est implémentée pour utilisation sur des cartes graphiques. Sa vitesse est comparée à deux opérations denses du même calibre pour démontrer le gain réel de calcul qui peut être obtenu. Un modèle profond utilisant des opérations éparses contrôlées par un routeur distinct des experts est entraîné sur un ensemble de données d'un milliard de mots. Un nouvel algorithme de partitionnement de données est appliqué sur un ensemble de mots pour hiérarchiser la couche de sortie d'un modèle de langage, la rendant ainsi beaucoup plus efficiente. Le travail présenté dans cette thèse est au centre de la vision de calcul conditionnel distribué émis par Yoshua Bengio. Elle tente d'appliquer la recherche dans le domaine des mélanges d'experts aux modèles profonds pour améliorer leur vitesse ainsi que leur capacité d'optimisation. Nous croyons que la théorie et les expériences de cette thèse sont une étape importante sur la voie du calcul conditionnel distribué car elle cadre bien le problème, surtout en ce qui concerne la compétitivité des systèmes d'experts.
Resumo:
L’ingénierie dirigée par les modèles (IDM) est un paradigme d’ingénierie du logiciel bien établi, qui préconise l’utilisation de modèles comme artéfacts de premier ordre dans les activités de développement et de maintenance du logiciel. La manipulation de plusieurs modèles durant le cycle de vie du logiciel motive l’usage de transformations de modèles (TM) afin d’automatiser les opérations de génération et de mise à jour des modèles lorsque cela est possible. L’écriture de transformations de modèles demeure cependant une tâche ardue, qui requiert à la fois beaucoup de connaissances et d’efforts, remettant ainsi en question les avantages apportés par l’IDM. Afin de faire face à cette problématique, de nombreux travaux de recherche se sont intéressés à l’automatisation des TM. L’apprentissage de transformations de modèles par l’exemple (TMPE) constitue, à cet égard, une approche prometteuse. La TMPE a pour objectif d’apprendre des programmes de transformation de modèles à partir d’un ensemble de paires de modèles sources et cibles fournis en guise d’exemples. Dans ce travail, nous proposons un processus d’apprentissage de transformations de modèles par l’exemple. Ce dernier vise à apprendre des transformations de modèles complexes en s’attaquant à trois exigences constatées, à savoir, l’exploration du contexte dans le modèle source, la vérification de valeurs d’attributs sources et la dérivation d’attributs cibles complexes. Nous validons notre approche de manière expérimentale sur 7 cas de transformations de modèles. Trois des sept transformations apprises permettent d’obtenir des modèles cibles parfaits. De plus, une précision et un rappel supérieurs à 90% sont enregistrés au niveau des modèles cibles obtenus par les quatre transformations restantes.
Resumo:
Les cas d’entreprises touchées par des scandales financiers, environnementaux ou concernant des conditions de travail abusives imposées à leur main-d’œuvre, n’ont cessé de jalonner l’actualité ces vingt dernières années. La multiplication des comportements à l’origine de ces scandales s’explique par l’environnement moins contraignant, que leur ont offert les politiques de privatisation, dérégulation et libéralisation, amorcées à partir des années 1980. Le développement de la notion de responsabilité sociale des entreprises à partir des années 1980, en réaction à ces excès, incarne l'idée que si une entreprise doit certes faire des profits et les pérenniser elle se doit de les réaliser en favorisant les comportements responsables, éthiques et transparents avec toutes ses parties prenantes. Nous analysons dans cette thèse le processus par lequel, face à des dysfonctionnements et abus, touchant les conditions de travail de leur main d’œuvre ou leur gouvernance, des entreprises peuvent être amenées, ou non, à questionner et modifier leurs pratiques. Nous avons axé notre étude de cas sur deux entreprises aux trajectoires diamétralement opposées. La première entreprise, issue du secteur de la fabrication de vêtements et dont la crise concernait des atteintes aux droits des travailleurs, a surmonté la crise en réformant son modèle de production. La seconde entreprise, située dans le secteur des technologies de l'information et de la communication, a fait face à une crise liée à sa gouvernance d’entreprise, multiplié les dysfonctionnements pendant dix années de crises et finalement déclaré faillite en janvier 2009. Les évolutions théoriques du courant néo-institutionnel ces dernières années, permettent d’éclairer le processus par lequel de nouvelles normes émergent et se diffusent, en soulignant le rôle de différents acteurs, qui pour les uns, définissent de nouvelles normes et pour d’autres se mobilisent en vue de les diffuser. Afin d’augmenter leur efficacité à l’échelle mondiale, il apparaît que ces acteurs agissent le plus souvent en réseaux, parfois concurrents. L’étude du cas de cette compagnie du secteur de la confection de vêtement nous a permis d’aborder le domaine lié aux conditions de travail de travailleurs œuvrant au sein de chaînes de production délocalisées dans des pays aux lois sociales absentes ou inefficaces. Nous avons analysé le cheminement par lequel cette entreprise fut amenée à considérer, avec plus de rigueur, la dimension éthique dans sa chaîne de production. L’entreprise, en passant par différentes étapes prenant la forme d’un processus d’apprentissage organisationnel, a réussi à surmonter la crise en réformant ses pratiques. Il est apparu que ce processus ne fut pas spontané et qu’il fut réalisé suite aux rôles joués par deux types d’acteurs. Premièrement, par la mobilisation incessante des mouvements de justice globale afin que l’entreprise réforme ses pratiques. Et deuxièmement, par le cadre normatif et le lieu de dialogue entre les différentes parties prenantes, fournis par un organisme privé source de normes. C’est fondamentalement le risque de perdre son accréditation à la cet organisme qui a poussé l’entreprise à engager des réformes. L’entreprise est parvenue à surmonter la crise, certes en adoptant et en respectant les normes définies par cette organisation mais fondamentalement en modifiant sa culture d'entreprise. Le leadership du CEO et du CFO a en effet permis la création d'une culture d'entreprise favorisant la remise en question, le dialogue et une plus grande prise en considération des parties prenantes, même si la gestion locale ne va pas sans poser parfois des difficultés de mise en œuvre. Concernant le domaine de la gouvernance d’entreprise, nous mettons en évidence, à travers l’étude des facteurs ayant mené au déclin et à la faillite d’une entreprise phare du secteur des technologies de l’information et de la communication, les limites des normes en la matière comme outil de bonne gouvernance. La légalité de la gestion comptable et la conformité de l’entreprise aux normes de gouvernance n'ont pas empêché l’apparition et la multiplication de dysfonctionnements et abus stratégiques et éthiques. Incapable de se servir des multiples crises auxquelles elle a fait face pour se remettre en question et engager un apprentissage organisationnel profond, l'entreprise s'est focalisée de manière obsessionnelle sur la rentabilité à court terme et la recherche d'un titre boursier élevé. La direction et le conseil d'administration ont manqué de leadership afin de créer une culture d'entreprise alliant innovation technologique et communication honnête et transparente avec les parties prenantes. Alors que l'étude consacrée à l’entreprise du secteur de la confection de vêtement illustre le cas d'une entreprise qui a su, par le biais d'un changement stratégique, relever les défis que lui imposait son environnement, l'étude des quinze dernières années de la compagnie issue du secteur des technologies de l’information et de la communication témoigne de la situation inverse. Il apparaît sur base de ces deux cas que si une gouvernance favorisant l'éthique et la transparence envers les parties prenantes nécessite la création d'une culture d'entreprise valorisant ces éléments, elle doit impérativement soutenir et être associée à une stratégie adéquate afin que l'entreprise puisse pérenniser ses activités.
Resumo:
Dans le contexte du DESS en administration de l’éducation, le portfolio est un outil d’apprentissage qui amène l’étudiant à vivre un processus réflexif supervisé et à organiser une collection de productions significatives s’accumulant progressivement à l’intérieur du déroulement des cours. Le guide pédagogique explique les choix qui ont donné lieu au Portfolio pour les étudiants. Le portfolio suppose une réflexion en deux temps, le premier en a priori et portant sur le profil de sortie, le glossaire, le guide de choix de cours et le choix des compétences à développer par l’étudiant selon les cours et le second, a posteriori, et portant essentiellement sur l’écart existant entre les intentions d’apprentissage exprimées au départ et le niveau atteint à la fin du programme.
Resumo:
En la actualidad, el uso de las tecnologías ha sido primordial para el avance de las sociedades, estas han permitido que personas sin conocimientos informáticos o usuarios llamados “no expertos” se interesen en su uso, razón por la cual los investigadores científicos se han visto en la necesidad de producir estudios que permitan la adaptación de sistemas, a la problemática existente dentro del ámbito informático. Una necesidad recurrente de todo usuario de un sistema es la gestión de la información, la cual se puede administrar por medio de una base de datos y lenguaje específico, como lo es el SQL (Structured Query Language), pero esto obliga al usuario sin conocimientos a acudir a un especialista para su diseño y construcción, lo cual se ve reflejado en costos y métodos complejos, entonces se plantea una pregunta ¿qué hacer cuando los proyectos son pequeñas y los recursos y procesos son limitados? Teniendo como base la investigación realizada por la universidad de Washington[39], donde sintetizan sentencias SQL a partir de ejemplos de entrada y salida, se pretende con esta memoria automatizar el proceso y aplicar una técnica diferente de aprendizaje, para lo cual utiliza una aproximación evolucionista, donde la aplicación de un algoritmo genético adaptado origina sentencias SQL válidas que responden a las condiciones establecidas por los ejemplos de entrada y salida dados por el usuario. Se obtuvo como resultado de la aproximación, una herramienta denominada EvoSQL que fue validada en este estudio. Sobre los 28 ejercicios empleados por la investigación [39], 23 de los cuales se obtuvieron resultados perfectos y 5 ejercicios sin éxito, esto representa un 82.1% de efectividad. Esta efectividad es superior en un 10.7% al establecido por la herramienta desarrollada en [39] SQLSynthesizer y 75% más alto que la herramienta siguiente más próxima Query by Output QBO[31]. El promedio obtenido en la ejecución de cada ejercicio fue de 3 minutos y 11 segundos, este tiempo es superior al establecido por SQLSynthesizer; sin embargo, en la medida un algoritmo genético supone la existencia de fases que amplían los rangos de tiempos, por lo cual el tiempo obtenido es aceptable con relación a las aplicaciones de este tipo. En conclusión y según lo anteriormente expuesto, se obtuvo una herramienta automática con una aproximación evolucionista, con buenos resultados y un proceso simple para el usuario “no experto”.
Resumo:
Ce guide pédagogique fait suite au Glossaire du DESS en administration de l'éducation. Il explique comment les mots du vocabulaire relié au travail des directions d'établissement scolaire et à leur formation peuvent être regroupés dans des cartes conceptuelles pour mieux en saisir la portée. Il explicite aussi la conception et la construction de cartes conceptuelles et présente des exemples issus de la concertation entre les formateurs.
Resumo:
À travers cette thèse, nous revisitons les différentes étapes qui ont conduit à la découverte des isolants topologiques, suite à quoi nous nous penchons sur la question à savoir si une phase topologiquement non-triviale peut coexister avec un état de symétrie brisée. Nous abordons les concepts les plus importants dans la description de ce nouvel état de la matière, et tentons de comprendre les conséquences fascinantes qui en découlent. Il s’agit d’un champ de recherche fortement alimenté par la théorie, ainsi, l’étude du cadre théorique est nécessaire pour atteindre une compréhension profonde du sujet. Le chapitre 1 comprend un retour sur l’effet de Hall quantique, afin de motiver les sections subséquentes. Le chapitre 2 présente la première réalisation d’un isolant topologique à deux dimensions dans un puits quantique de HgTe/CdTe, suite à quoi ces résultats sont généralisés à trois dimensions. Nous verrons ensuite comment incorporer des principes de topologie dans la caractérisation d’un système spécifique, à l’aide d’invariants topologiques. Le chapitre 3 introduit le premier dérivé de l’état isolant topologique, soit l’isolant topologique antiferromagnétique (ITAF). Après avoir motivé théoriquement le sujet et introduit un invariant propre à ce nouvel état ITAF, qui est couplé à l’ordre de Néel, nous explorons, dans les chapitres 4 et 5, deux candidats de choix pour la phase ITAF : GdBiPt et NdBiPt.
Resumo:
Cette thèse est divisée en cinq parties portant sur les thèmes suivants: l’interprétation physique et algébrique de familles de fonctions orthogonales multivariées et leurs applications, les systèmes quantiques superintégrables en deux et trois dimensions faisant intervenir des opérateurs de réflexion, la caractérisation de familles de polynômes orthogonaux appartenant au tableau de Bannai-Ito et l’examen des structures algébriques qui leurs sont associées, l’étude de la relation entre le recouplage de représentations irréductibles d’algèbres et de superalgèbres et les systèmes superintégrables, ainsi que l’interprétation algébrique de familles de polynômes multi-orthogonaux matriciels. Dans la première partie, on développe l’interprétation physico-algébrique des familles de polynômes orthogonaux multivariés de Krawtchouk, de Meixner et de Charlier en tant qu’éléments de matrice des représentations unitaires des groupes SO(d+1), SO(d,1) et E(d) sur les états d’oscillateurs. On détermine les amplitudes de transition entre les états de l’oscillateur singulier associés aux bases cartésienne et polysphérique en termes des polynômes multivariés de Hahn. On examine les coefficients 9j de su(1,1) par le biais du système superintégrable générique sur la 3-sphère. On caractérise les polynômes de q-Krawtchouk comme éléments de matrices des «q-rotations» de U_q(sl_2). On conçoit un réseau de spin bidimensionnel qui permet le transfert parfait d’états quantiques à l’aide des polynômes de Krawtchouk à deux variables et on construit un modèle discret de l’oscillateur quantique dans le plan à l’aide des polynômes de Meixner bivariés. Dans la seconde partie, on étudie les systèmes superintégrables de type Dunkl, qui font intervenir des opérateurs de réflexion. On examine l’oscillateur de Dunkl en deux et trois dimensions, l’oscillateur singulier de Dunkl dans le plan et le système générique sur la 2-sphère avec réflexions. On démontre la superintégrabilité de chacun de ces systèmes. On obtient leurs constantes du mouvement, on détermine leurs algèbres de symétrie et leurs représentations, on donne leurs solutions exactes et on détaille leurs liens avec les polynômes orthogonaux du tableau de Bannai-Ito. Dans la troisième partie, on caractérise deux familles de polynômes du tableau de Bannai-Ito: les polynômes de Bannai-Ito complémentaires et les polynômes de Chihara. On montre également que les polynômes de Bannai-Ito sont les coefficients de Racah de la superalgèbre osp(1,2). On détermine l’algèbre de symétrie des polynômes duaux -1 de Hahn dans le cadre du problème de Clebsch-Gordan de osp(1,2). On propose une q - généralisation des polynômes de Bannai-Ito en examinant le problème de Racah pour la superalgèbre quantique osp_q(1,2). Finalement, on montre que la q -algèbre de Bannai-Ito sert d’algèbre de covariance à osp_q(1,2). Dans la quatrième partie, on détermine le lien entre le recouplage de représentations des algèbres su(1,1) et osp(1,2) et les systèmes superintégrables du deuxième ordre avec ou sans réflexions. On étudie également les représentations des algèbres de Racah-Wilson et de Bannai-Ito. On montre aussi que l’algèbre de Racah-Wilson sert d’algèbre de covariance quadratique à l’algèbre de Lie sl(2). Dans la cinquième partie, on construit deux familles explicites de polynômes d-orthogonaux basées sur su(2). On étudie les états cohérents et comprimés de l’oscillateur fini et on caractérise une famille de polynômes multi-orthogonaux matriciels.
Resumo:
Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.
Resumo:
Dans l'apprentissage machine, la classification est le processus d’assigner une nouvelle observation à une certaine catégorie. Les classifieurs qui mettent en œuvre des algorithmes de classification ont été largement étudié au cours des dernières décennies. Les classifieurs traditionnels sont basés sur des algorithmes tels que le SVM et les réseaux de neurones, et sont généralement exécutés par des logiciels sur CPUs qui fait que le système souffre d’un manque de performance et d’une forte consommation d'énergie. Bien que les GPUs puissent être utilisés pour accélérer le calcul de certains classifieurs, leur grande consommation de puissance empêche la technologie d'être mise en œuvre sur des appareils portables tels que les systèmes embarqués. Pour rendre le système de classification plus léger, les classifieurs devraient être capable de fonctionner sur un système matériel plus compact au lieu d'un groupe de CPUs ou GPUs, et les classifieurs eux-mêmes devraient être optimisés pour ce matériel. Dans ce mémoire, nous explorons la mise en œuvre d'un classifieur novateur sur une plate-forme matérielle à base de FPGA. Le classifieur, conçu par Alain Tapp (Université de Montréal), est basé sur une grande quantité de tables de recherche qui forment des circuits arborescents qui effectuent les tâches de classification. Le FPGA semble être un élément fait sur mesure pour mettre en œuvre ce classifieur avec ses riches ressources de tables de recherche et l'architecture à parallélisme élevé. Notre travail montre que les FPGAs peuvent implémenter plusieurs classifieurs et faire les classification sur des images haute définition à une vitesse très élevée.
Resumo:
La pratique de simulations militaires ne cesse de croître en popularité au sein de la population civile québécoise, et nous en savons jusqu’à maintenant très peu sur ces activités marginales et sur le risque que peuvent poser de tels entraînements. En considérant divers processus d’apprentissage, nous nous intéressons aux simulations militaires pour mieux comprendre la façon dont ces apprentissages peuvent mener à la création d’un capital préjudiciable pouvant expliquer un passage à des actes de violence extrême. Nous proposons et appuyons empiriquement une approche sociocriminologique visant à mieux comprendre ce qu’on appelle la radicalisation violente, en avançant que tout comportement délinquant doit être appris, au même titre que n’importe quel autre comportement, ce qui suggère inévitablement qu’une certaine compétence est nécessaire pour exécuter un acte délinquant. Ainsi, nous posons la question de recherche suivante : comment pourrions-nous mieux comprendre le processus menant à la commission d’un acte de violence extrême en nous intéressant aux apprentissages découlant de simulations militaires et menant au développement d’un capital préjudiciable? En utilisant une méthodologie mixte comprenant des observations, des questionnaires et des entretiens, nous faisons ressortir que l’étude de la radicalisation dans une perspective uniquement idéologique est insuffisante pour dresser un portrait complet de ce phénomène complexe. Même si nos résultats démontrent que, dans les communautés que nous avons étudiées, de nombreux affects positifs amènent les participants à adopter des comportements prosociaux, nous établissons aussi qu’ils développent un capital préjudiciable. Ces affects positifs se présentent sous différentes formes de contrôle social informel issues des normes sociales dominantes, de la pluralité des acteurs et des personnalités influentes du milieu. Quant au capital préjudiciable, il provient premièrement d’apprentissages de techniques de combat avancées pouvant faciliter la commission d’actes de violence extrême. Les participants apprennent notamment le maniement tactique d’armes à feu et d’autres engins explosifs improvisés. De plus, nous soutenons que ces activités peuvent avoir un impact sur leur jugement moral, puisqu’elles présentent plusieurs formes de banalisations pour des pratiques liées à la commission d’un acte violent. Parmi celles-ci, nous soulignons que l’activité consiste à pointer et tirer quelqu’un avec une arme de manière répétitive, alors que les participants rationalisent ces actions en utilisant un vocabulaire qui ne décrit pas concrètement les gestes violents qu’ils commettent.
Resumo:
Dans cette thèse, nous étudions les fonctions propres de l'opérateur de Laplace-Beltrami - ou simplement laplacien - sur une surface fermée, c'est-à-dire une variété riemannienne lisse, compacte et sans bord de dimension 2. Ces fonctions propres satisfont l'équation $\Delta_g \phi_\lambda + \lambda \phi_\lambda = 0$ et les valeurs propres forment une suite infinie. L'ensemble nodal d'une fonction propre du laplacien est celui de ses zéros et est d'intérêt depuis les expériences de plaques vibrantes de Chladni qui remontent au début du 19ème siècle et, plus récemment, dans le contexte de la mécanique quantique. La taille de cet ensemble nodal a été largement étudiée ces dernières années, notamment par Donnelly et Fefferman, Colding et Minicozzi, Hezari et Sogge, Mangoubi ainsi que Sogge et Zelditch. L'étude de la croissance de fonctions propres n'est pas en reste, avec entre autres les récents travaux de Donnelly et Fefferman, Sogge, Toth et Zelditch, pour ne nommer que ceux-là. Notre thèse s'inscrit dans la foulée du travail de Nazarov, Polterovich et Sodin et relie les propriétés de croissance des fonctions propres avec la taille de leur ensemble nodal dans l'asymptotique $\lambda \nearrow \infty$. Pour ce faire, nous considérons d'abord les exposants de croissance, qui mesurent la croissance locale de fonctions propres et qui sont obtenus à partir de la norme uniforme de celles-ci. Nous construisons ensuite la croissance locale moyenne d'une fonction propre en calculant la moyenne sur toute la surface de ces exposants de croissance, définis sur de petits disques de rayon comparable à la longueur d'onde. Nous montrons alors que la taille de l'ensemble nodal est contrôlée par le produit de cette croissance locale moyenne et de la fréquence $\sqrt{\lambda}$. Ce résultat permet une reformulation centrée sur les fonctions propres de la célèbre conjecture de Yau, qui prévoit que la mesure de l'ensemble nodal croît au rythme de la fréquence. Notre travail renforce également l'intuition répandue selon laquelle une fonction propre se comporte comme un polynôme de degré $\sqrt{\lambda}$. Nous généralisons ensuite nos résultats pour des exposants de croissance construits à partir de normes $L^q$. Nous sommes également amenés à étudier les fonctions appartenant au noyau d'opérateurs de Schrödinger avec petit potentiel dans le plan. Pour de telles fonctions, nous obtenons deux résultats qui relient croissance et taille de l'ensemble nodal.