9 resultados para Deep inelastic collisions
em Université de Montréal, Canada
Resumo:
Les tâches de vision artificielle telles que la reconnaissance d’objets demeurent irrésolues à ce jour. Les algorithmes d’apprentissage tels que les Réseaux de Neurones Artificiels (RNA), représentent une approche prometteuse permettant d’apprendre des caractéristiques utiles pour ces tâches. Ce processus d’optimisation est néanmoins difficile. Les réseaux profonds à base de Machine de Boltzmann Restreintes (RBM) ont récemment été proposés afin de guider l’extraction de représentations intermédiaires, grâce à un algorithme d’apprentissage non-supervisé. Ce mémoire présente, par l’entremise de trois articles, des contributions à ce domaine de recherche. Le premier article traite de la RBM convolutionelle. L’usage de champs réceptifs locaux ainsi que le regroupement d’unités cachées en couches partageant les même paramètres, réduit considérablement le nombre de paramètres à apprendre et engendre des détecteurs de caractéristiques locaux et équivariant aux translations. Ceci mène à des modèles ayant une meilleure vraisemblance, comparativement aux RBMs entraînées sur des segments d’images. Le deuxième article est motivé par des découvertes récentes en neurosciences. Il analyse l’impact d’unités quadratiques sur des tâches de classification visuelles, ainsi que celui d’une nouvelle fonction d’activation. Nous observons que les RNAs à base d’unités quadratiques utilisant la fonction softsign, donnent de meilleures performances de généralisation. Le dernière article quand à lui, offre une vision critique des algorithmes populaires d’entraînement de RBMs. Nous montrons que l’algorithme de Divergence Contrastive (CD) et la CD Persistente ne sont pas robustes : tous deux nécessitent une surface d’énergie relativement plate afin que leur chaîne négative puisse mixer. La PCD à "poids rapides" contourne ce problème en perturbant légèrement le modèle, cependant, ceci génère des échantillons bruités. L’usage de chaînes tempérées dans la phase négative est une façon robuste d’adresser ces problèmes et mène à de meilleurs modèles génératifs.
Resumo:
Cette thèse porte sur une classe d'algorithmes d'apprentissage appelés architectures profondes. Il existe des résultats qui indiquent que les représentations peu profondes et locales ne sont pas suffisantes pour la modélisation des fonctions comportant plusieurs facteurs de variation. Nous sommes particulièrement intéressés par ce genre de données car nous espérons qu'un agent intelligent sera en mesure d'apprendre à les modéliser automatiquement; l'hypothèse est que les architectures profondes sont mieux adaptées pour les modéliser. Les travaux de Hinton (2006) furent une véritable percée, car l'idée d'utiliser un algorithme d'apprentissage non-supervisé, les machines de Boltzmann restreintes, pour l'initialisation des poids d'un réseau de neurones supervisé a été cruciale pour entraîner l'architecture profonde la plus populaire, soit les réseaux de neurones artificiels avec des poids totalement connectés. Cette idée a été reprise et reproduite avec succès dans plusieurs contextes et avec une variété de modèles. Dans le cadre de cette thèse, nous considérons les architectures profondes comme des biais inductifs. Ces biais sont représentés non seulement par les modèles eux-mêmes, mais aussi par les méthodes d'entraînement qui sont souvent utilisés en conjonction avec ceux-ci. Nous désirons définir les raisons pour lesquelles cette classe de fonctions généralise bien, les situations auxquelles ces fonctions pourront être appliquées, ainsi que les descriptions qualitatives de telles fonctions. L'objectif de cette thèse est d'obtenir une meilleure compréhension du succès des architectures profondes. Dans le premier article, nous testons la concordance entre nos intuitions---que les réseaux profonds sont nécessaires pour mieux apprendre avec des données comportant plusieurs facteurs de variation---et les résultats empiriques. Le second article est une étude approfondie de la question: pourquoi l'apprentissage non-supervisé aide à mieux généraliser dans un réseau profond? Nous explorons et évaluons plusieurs hypothèses tentant d'élucider le fonctionnement de ces modèles. Finalement, le troisième article cherche à définir de façon qualitative les fonctions modélisées par un réseau profond. Ces visualisations facilitent l'interprétation des représentations et invariances modélisées par une architecture profonde.
Resumo:
Les seize détecteurs MPX constituant le réseau ATLAS-MPX ont été placés à différentes positions dans le détecteur ATLAS et sa averne au CERN dans le but de mesurer en emps réel les champs de radiation produits ar des particules primaires (protons des faisceaux) et des particules secondaires (kaons, pions, g, protons) issues des collisions proton-proton. Des films de polyéthylène (PE) et de fluorure de lithium (6LiF) recouvrent les détecteurs afin d’augmenter leur sensibilité aux neutrons produits par les particules primaires et secondaires interagissant avec les matériaux présents dans l’environnement d’ATLAS. La reconnaissance des traces laissées par les particules dans un détecteur ATLAS-MPX se fait à partir des algorithmes du logiciel MAFalda (“Medipix Analysis Framework”) basé sur les librairies et le logiciel d’analyse de données ROOT. Une étude sur le taux d’identifications erronées et le chevauchement d’amas a été faite en reconstruisant les activités des sources 106Ru et 137Cs. L’efficacité de détection des neutrons rapides a été mesurée à l’aide des sources 252Cf et 241AmBe (neutrons d’énergie moyenne de 2.13 et 4.08 MeV respectivement). La moyenne des efficacités de détection mesurées pour les neutrons produits par les sources 252C f et 241AmBe a été calculée pour les convertisseurs 6LiF et PE et donnent (0.8580 ± 0.1490)% et (0.0254 ± 0.0031)% pour LiF et (0.0510 ± 0.0061)% et (0.0591 ± 0.0063)% pour PE à bas et à haut seuil d’énergie respectivement. Une simulation du calcul de l’efficacité de détection des neutrons dans le détecteur MPX a été réalisée avec le logiciel GEANT4. Des données MPX correspondant aux collisions proton-proton à 2.4 TeV et à 7 TeV dans le centre de masse ont été analysées. Les flux détectés d’électrons et de photons sont particulièrement élevés dans les détecteurs MPX01 et MPX14 car ils sont plus près du point de collision. Des flux de neutrons ont été estimés en utilisant les efficacités de détection mesurées. Une corrélation avec la luminosité du LHC a été établie et on prédit que pour les collisions à 14 TeV dans le centre de masse et avec une luminosité de 10^34 cm-1*s-1 il y aura environ 5.1x10^8 ± 1.5x10^7 et 1.6x10^9 ± 6.3x10^7 particules détectées par les détecteurs MPX01 et MPX14 respectivement.
Resumo:
«Construire hors limite: collisions fantastiques entre corps et machines dans la littérature fin-de-siècle française et anglaise» explore un ensemble de textes qui ont surgi à la fin du dix-neuvième siècle en réponse et en réaction à la fulgurante évolution de l’environnement scientifique et technologique, et qui considèrent la relation entre l’homme et la machine en fantasmant sur la zone grise où ils s’intersectent. Les principaux textes étudiés comprennent L’Ève future de Villiers de l’Isle-Adam, Le Surmâle d’Alfred Jarry, Trilby de George Du Maurier, Le Château des Carpathes de Jules Verne, ainsi qu’une sélection de contes dont nous pouvons qualifier de «contes à appareils», notamment «La Machine à parler» de Marcel Schwob. Utilisant la théorie des systèmes comme base méthodologique, cette dissertation cherche à réinterpréter les textes de la fin du dix-neuvième siècle qui naviguent les limites de l’humain et du mécanique et les surfaces sensibles où ils se touchent et interagissent en les réinscrivant dans un projet plus vaste de construction d’identité qui défie le temps chronologique et les échelles mathématiques. Le lien entre la théorie des systèmes et l’architecture – comme méthode d’organisation d’espace blanc en espace habitable – est exploré dans le but de comprendre la manière dont nous façonnons et interprétons le néant à l’origine de l’identité individuelle, et par association collective, en pratiquant littéralement la schématisation et la construction du corps. Des auteurs tels Villiers et Jarry imaginent la construction du corps comme une entreprise scientifique nécessairement fondée et réalisée avec les matériaux et les technologies disponibles, pour ensuite démanteler cette proposition en condamnant le corps technologique à la destruction. La construction d’une identité amplifiée par la technologie prend donc des proportions prométhéennes perpétuellement redessinées dans des actes cycliques de rasage (destruction) et d’érection (édification), et reflétées dans l’écriture palimpsestique du texte. L’intégrité du corps organique étant mis en question, le noyau même de ce que signifie l’être (dans son sens de verbe infinitif) humain pourrait bien s’avérer, si l’on considère la correspondance entre perte de voix et état pathologique dans les textes de Du Maurier, Verne et Schwob, être une structure des plus précaires, distinctement hors sens (unsound).
Resumo:
L'apprentissage profond est un domaine de recherche en forte croissance en apprentissage automatique qui est parvenu à des résultats impressionnants dans différentes tâches allant de la classification d'images à la parole, en passant par la modélisation du langage. Les réseaux de neurones récurrents, une sous-classe d'architecture profonde, s'avèrent particulièrement prometteurs. Les réseaux récurrents peuvent capter la structure temporelle dans les données. Ils ont potentiellement la capacité d'apprendre des corrélations entre des événements éloignés dans le temps et d'emmagasiner indéfiniment des informations dans leur mémoire interne. Dans ce travail, nous tentons d'abord de comprendre pourquoi la profondeur est utile. Similairement à d'autres travaux de la littérature, nos résultats démontrent que les modèles profonds peuvent être plus efficaces pour représenter certaines familles de fonctions comparativement aux modèles peu profonds. Contrairement à ces travaux, nous effectuons notre analyse théorique sur des réseaux profonds acycliques munis de fonctions d'activation linéaires par parties, puisque ce type de modèle est actuellement l'état de l'art dans différentes tâches de classification. La deuxième partie de cette thèse porte sur le processus d'apprentissage. Nous analysons quelques techniques d'optimisation proposées récemment, telles l'optimisation Hessian free, la descente de gradient naturel et la descente des sous-espaces de Krylov. Nous proposons le cadre théorique des méthodes à région de confiance généralisées et nous montrons que plusieurs de ces algorithmes développés récemment peuvent être vus dans cette perspective. Nous argumentons que certains membres de cette famille d'approches peuvent être mieux adaptés que d'autres à l'optimisation non convexe. La dernière partie de ce document se concentre sur les réseaux de neurones récurrents. Nous étudions d'abord le concept de mémoire et tentons de répondre aux questions suivantes: Les réseaux récurrents peuvent-ils démontrer une mémoire sans limite? Ce comportement peut-il être appris? Nous montrons que cela est possible si des indices sont fournis durant l'apprentissage. Ensuite, nous explorons deux problèmes spécifiques à l'entraînement des réseaux récurrents, à savoir la dissipation et l'explosion du gradient. Notre analyse se termine par une solution au problème d'explosion du gradient qui implique de borner la norme du gradient. Nous proposons également un terme de régularisation conçu spécifiquement pour réduire le problème de dissipation du gradient. Sur un ensemble de données synthétique, nous montrons empiriquement que ces mécanismes peuvent permettre aux réseaux récurrents d'apprendre de façon autonome à mémoriser des informations pour une période de temps indéfinie. Finalement, nous explorons la notion de profondeur dans les réseaux de neurones récurrents. Comparativement aux réseaux acycliques, la définition de profondeur dans les réseaux récurrents est souvent ambiguë. Nous proposons différentes façons d'ajouter de la profondeur dans les réseaux récurrents et nous évaluons empiriquement ces propositions.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
Commentaire / Commentary
Resumo:
Context and objectives. While 11% of all drivers are aged between 16 and 24, they represent 20% of all fatally injured drivers on the road network of the Province of Quebec. In collaboration with the Sûreté du Québec (SQ), this study seeks to: (1) offer a detailed description of the process (script) leading to fatal collisions involving young drivers; and (2) to recommend prevention measures. Methodology. The script perspective was used to relate the process leading to a fatal collision. The script perspective accounts for all steps that lead to the collision by focusing on: (1) all parties (the driver, friends, parents) and their actions; (2) contexts; and (3) environments. Data were collected from collision and investigation files (n=179). Descriptive and comparative analyses were then conducted to construct the script(s). Results. Results show that fatal collision scripts for 16-29 are different from scripts involving drivers of other age categories (30-59 year-old and 60 year-old and over). The typical script involves a young driver using his car to take part in leisure or festive activities. The latest often occur in a private residence, a bar or a restaurant. On site, young drivers frequently consume psychoactive substances (between 21 and 63.5% of them according to the scene of the script) and are accompanied by friends (between 18.4 and 73.9% according to the scene of the script). Friends often encourage drivers to have alcohol and/or drugs, and to adopt reckless behaviours (speeding and drinking-and-driving are respectively involved in 29.9 and 28.6% of fatal collisions). Conclusion and implications for prevention. Results suggest that fatal collisions involving young drivers could be avoided by encouraging prevention measures aimed at: (1) separating drinking and driving; (2) limiting access to alcohol and peer pressure; (3) raising awareness among potential guardians (e.g. responsible waiters, friends); and (4) increasing arrest risk.
Resumo:
Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.