16 resultados para Deep-focus earthquake
em Université de Montréal, Canada
Resumo:
L'apprentissage profond est un domaine de recherche en forte croissance en apprentissage automatique qui est parvenu à des résultats impressionnants dans différentes tâches allant de la classification d'images à la parole, en passant par la modélisation du langage. Les réseaux de neurones récurrents, une sous-classe d'architecture profonde, s'avèrent particulièrement prometteurs. Les réseaux récurrents peuvent capter la structure temporelle dans les données. Ils ont potentiellement la capacité d'apprendre des corrélations entre des événements éloignés dans le temps et d'emmagasiner indéfiniment des informations dans leur mémoire interne. Dans ce travail, nous tentons d'abord de comprendre pourquoi la profondeur est utile. Similairement à d'autres travaux de la littérature, nos résultats démontrent que les modèles profonds peuvent être plus efficaces pour représenter certaines familles de fonctions comparativement aux modèles peu profonds. Contrairement à ces travaux, nous effectuons notre analyse théorique sur des réseaux profonds acycliques munis de fonctions d'activation linéaires par parties, puisque ce type de modèle est actuellement l'état de l'art dans différentes tâches de classification. La deuxième partie de cette thèse porte sur le processus d'apprentissage. Nous analysons quelques techniques d'optimisation proposées récemment, telles l'optimisation Hessian free, la descente de gradient naturel et la descente des sous-espaces de Krylov. Nous proposons le cadre théorique des méthodes à région de confiance généralisées et nous montrons que plusieurs de ces algorithmes développés récemment peuvent être vus dans cette perspective. Nous argumentons que certains membres de cette famille d'approches peuvent être mieux adaptés que d'autres à l'optimisation non convexe. La dernière partie de ce document se concentre sur les réseaux de neurones récurrents. Nous étudions d'abord le concept de mémoire et tentons de répondre aux questions suivantes: Les réseaux récurrents peuvent-ils démontrer une mémoire sans limite? Ce comportement peut-il être appris? Nous montrons que cela est possible si des indices sont fournis durant l'apprentissage. Ensuite, nous explorons deux problèmes spécifiques à l'entraînement des réseaux récurrents, à savoir la dissipation et l'explosion du gradient. Notre analyse se termine par une solution au problème d'explosion du gradient qui implique de borner la norme du gradient. Nous proposons également un terme de régularisation conçu spécifiquement pour réduire le problème de dissipation du gradient. Sur un ensemble de données synthétique, nous montrons empiriquement que ces mécanismes peuvent permettre aux réseaux récurrents d'apprendre de façon autonome à mémoriser des informations pour une période de temps indéfinie. Finalement, nous explorons la notion de profondeur dans les réseaux de neurones récurrents. Comparativement aux réseaux acycliques, la définition de profondeur dans les réseaux récurrents est souvent ambiguë. Nous proposons différentes façons d'ajouter de la profondeur dans les réseaux récurrents et nous évaluons empiriquement ces propositions.
Resumo:
Les tâches de vision artificielle telles que la reconnaissance d’objets demeurent irrésolues à ce jour. Les algorithmes d’apprentissage tels que les Réseaux de Neurones Artificiels (RNA), représentent une approche prometteuse permettant d’apprendre des caractéristiques utiles pour ces tâches. Ce processus d’optimisation est néanmoins difficile. Les réseaux profonds à base de Machine de Boltzmann Restreintes (RBM) ont récemment été proposés afin de guider l’extraction de représentations intermédiaires, grâce à un algorithme d’apprentissage non-supervisé. Ce mémoire présente, par l’entremise de trois articles, des contributions à ce domaine de recherche. Le premier article traite de la RBM convolutionelle. L’usage de champs réceptifs locaux ainsi que le regroupement d’unités cachées en couches partageant les même paramètres, réduit considérablement le nombre de paramètres à apprendre et engendre des détecteurs de caractéristiques locaux et équivariant aux translations. Ceci mène à des modèles ayant une meilleure vraisemblance, comparativement aux RBMs entraînées sur des segments d’images. Le deuxième article est motivé par des découvertes récentes en neurosciences. Il analyse l’impact d’unités quadratiques sur des tâches de classification visuelles, ainsi que celui d’une nouvelle fonction d’activation. Nous observons que les RNAs à base d’unités quadratiques utilisant la fonction softsign, donnent de meilleures performances de généralisation. Le dernière article quand à lui, offre une vision critique des algorithmes populaires d’entraînement de RBMs. Nous montrons que l’algorithme de Divergence Contrastive (CD) et la CD Persistente ne sont pas robustes : tous deux nécessitent une surface d’énergie relativement plate afin que leur chaîne négative puisse mixer. La PCD à "poids rapides" contourne ce problème en perturbant légèrement le modèle, cependant, ceci génère des échantillons bruités. L’usage de chaînes tempérées dans la phase négative est une façon robuste d’adresser ces problèmes et mène à de meilleurs modèles génératifs.
Resumo:
La réflexion sur l’intégration au travail des nouvelles enseignantes touche de plus en plus la communauté des chercheurs en éducation. Avec la valorisation de la pratique réflexive, l’enseignante se voit plus que par le passé autorisé à exercer une grande liberté d’action dans son travail, ainsi qu’une grande autonomie en ce qui à trait à l’exécution de sa tâche. Cette liberté peut être lourde à porter, surtout lorsqu’on entre dans le métier. Aussi, pour soutenir cette liberté et la diriger, la référence aux valeurs demeure fondamentale. Dans le présent mémoire, nous tentons d’en savoir plus sur les valeurs qui animent ces nouvelles venues, et comment celles-ci les aident à vivre leur intégration et à concevoir leur place dans le métier. La cueillette des données effectuée à partir de leurs réflexions, souvent profondes, sur les valeurs personnelles, les valeurs au travail et le rapport au métier, permet une analyse du discours basée sur le ressenti et l’expérience. C’est en puisant dans les thèses de la modernité et de la postmodernité, toutes deux parlantes quant à l’époque actuelle, que nous tentons de mieux cerner et induire les valeurs propres aux enseignantes ayant participé à notre étude phénoménologique de type exploratoire. Grâce à l’analyse de contenu, nous sommes à même de constater que malgré une ligne de partage présente entre certaines valeurs dites modernes et postmodernes, il n’en demeure pas moins qu’une tendance se dessine : nos nouvelles enseignantes désirent être fidèles d’abord et avant tout à elles-mêmes, même si cela implique l’abandon du métier qu’elles envisagent toutes comme une possibilité, sans exception. Cela en dit long sur leurs priorités et leurs valeurs au travail. Il est clair qu’elles travaillent de manière à se sentir authentiques, toujours avec le souci de savoir s’adapter aux nouvelles situations. Cependant, même si certaines d’entre elles trouvent plus ardu de s’adapter à une demande en matière de flexibilité professionnelle à la hausse, il n’en demeure pas moins que la flexibilité au travail est un élément désormais bien intégré à l’habitus professionnel des enseignantes pratiquant depuis dix ans et moins. Si postmodernes que ça nos nouvelles enseignantes? Oui.
Resumo:
La thèse présente une description géométrique d’un germe de famille générique déployant un champ de vecteurs réel analytique avec un foyer faible à l’origine et son complexifié : le feuilletage holomorphe singulier associé. On montre que deux germes de telles familles sont orbitalement analytiquement équivalents si et seulement si les germes de familles de difféomorphismes déployant la complexification de leurs fonctions de retour de Poincaré sont conjuguées par une conjugaison analytique réelle. Le “caractère réel” de la famille correspond à sa Z2-équivariance dans R^4, et cela s’exprime comme l’invariance du plan réel sous le flot du système laquelle, à son tour, entraîne que l’expansion asymptotique de la fonction de Poincaré est réelle quand le paramètre est réel. Le pullback du plan réel après éclatement par la projection monoidal standard intersecte le feuilletage en une bande de Möbius réelle. La technique d’éclatement des singularités permet aussi de donner une réponse à la question de la “réalisation” d’un germe de famille déployant un germe de difféomorphisme avec un point fixe de multiplicateur égal à −1 et de codimension un comme application de semi-monodromie d’une famille générique déployant un foyer faible d’ordre un. Afin d’étudier l’espace des orbites de l’application de Poincaré, nous utilisons le point de vue de Glutsyuk, puisque la dynamique est linéarisable auprès des points singuliers : pour les valeurs réels du paramètre, notre démarche, classique, utilise une méthode géométrique, soit un changement de coordonée (coordonée “déroulante”) dans lequel la dynamique devient beaucoup plus simple. Mais le prix à payer est que la géométrie locale du plan complexe ambiante devient une surface de Riemann, sur laquelle deux notions de translation sont définies. Après avoir pris le quotient par le relèvement de la dynamique nous obtenons l’espace des orbites, ce qui s’avère être l’union de trois tores complexes plus les points singuliers (l’espace résultant est non-Hausdorff). Les translations, le caractère réel de l’application de Poincaré et le fait que cette application est un carré relient les différentes composantes du “module de Glutsyuk”. Cette propriété implique donc le fait qu’une seule composante de l’invariant Glutsyuk est indépendante.
Resumo:
Cette thèse porte sur une classe d'algorithmes d'apprentissage appelés architectures profondes. Il existe des résultats qui indiquent que les représentations peu profondes et locales ne sont pas suffisantes pour la modélisation des fonctions comportant plusieurs facteurs de variation. Nous sommes particulièrement intéressés par ce genre de données car nous espérons qu'un agent intelligent sera en mesure d'apprendre à les modéliser automatiquement; l'hypothèse est que les architectures profondes sont mieux adaptées pour les modéliser. Les travaux de Hinton (2006) furent une véritable percée, car l'idée d'utiliser un algorithme d'apprentissage non-supervisé, les machines de Boltzmann restreintes, pour l'initialisation des poids d'un réseau de neurones supervisé a été cruciale pour entraîner l'architecture profonde la plus populaire, soit les réseaux de neurones artificiels avec des poids totalement connectés. Cette idée a été reprise et reproduite avec succès dans plusieurs contextes et avec une variété de modèles. Dans le cadre de cette thèse, nous considérons les architectures profondes comme des biais inductifs. Ces biais sont représentés non seulement par les modèles eux-mêmes, mais aussi par les méthodes d'entraînement qui sont souvent utilisés en conjonction avec ceux-ci. Nous désirons définir les raisons pour lesquelles cette classe de fonctions généralise bien, les situations auxquelles ces fonctions pourront être appliquées, ainsi que les descriptions qualitatives de telles fonctions. L'objectif de cette thèse est d'obtenir une meilleure compréhension du succès des architectures profondes. Dans le premier article, nous testons la concordance entre nos intuitions---que les réseaux profonds sont nécessaires pour mieux apprendre avec des données comportant plusieurs facteurs de variation---et les résultats empiriques. Le second article est une étude approfondie de la question: pourquoi l'apprentissage non-supervisé aide à mieux généraliser dans un réseau profond? Nous explorons et évaluons plusieurs hypothèses tentant d'élucider le fonctionnement de ces modèles. Finalement, le troisième article cherche à définir de façon qualitative les fonctions modélisées par un réseau profond. Ces visualisations facilitent l'interprétation des représentations et invariances modélisées par une architecture profonde.
Resumo:
L'objectif ultime en géomorphologie fluviale est d'expliquer les formes des cours d'eau et leur évolution temporelle et spatiale. La multiplication des études nous a mené à la réalisation que les systèmes géomorphologiques sont complexes. Les formes observées sont plus que la somme des processus individuels qui les régissent en raison d’interactions et de rétroactions non-linéaires à de multiples échelles spatiales et temporelles. Dans ce contexte, le but général de la thèse est de proposer et de tester de nouvelles avenues de recherche afin de mieux appréhender la complexité des dynamiques fluviales en utilisant des approches méthodologiques et analytiques mettant l’accent sur les interactions entre l’écoulement, le transport de sédiments en charge fond et la morphologie du lit en rivière graveleuse. Cette orientation découle du constat que les paradigmes actuels en géomorphologie fluviale n’arrivent pas à expliquer adéquatement la variabilité naturelle du transport en charge de fond ainsi que des formes du lit qui en résultent. Cinq pistes de réflexion sont développées sous forme d’articles basés sur des études de cas : 1. L'intégration des échelles de variation de l'écoulement permet d’insérer la notion de structures turbulentes dans des pulsations de plus grande échelle et d'améliorer la compréhension de la variabilité du transport de sédiments. 2. La quantification des taux de changement de l’écoulement (accélération /décélération) au cours d’une crue permet d’expliquer la variabilité des flux de transport en charge fond autant que la magnitude de l’écoulement. 3. L’utilisation de techniques de mesures complémentaires révèle une nouvelle dynamique du lit des rivières graveleuses, la dilatation et la contraction du lit suite à une crue. 4. La remise en cause du fait généralement accepté que le transport en charge de fond est corrélé positivement à l'intensité des modifications morphologiques en raison d’un problème associé aux échelles différentes des processus en cause. 5. L’approche systémique des dynamiques fluviales par l’utilisation d’analyses multivariées permet d’appréhender la complexité des dynamiques de rétroactions linéaires et non-linéaires dans l’évolution d’un chenal et d’illustrer l’importance de l’historique récent des changements géomorphologiques en réponse aux crues. Cette thèse se veut une avancée conceptuelle issue d'une profonde réflexion sur les approches classiques que l'on utilise en géomorphologie fluviale depuis plusieurs décennies. Elle est basée sur un jeu de données unique récolté lors du suivi intensif de 21 évènements de crue dans un petit cours d’eau à lit de graviers, le ruisseau Béard (Québec). Le protocole expérimental axé sur la simultanéité des mesures de l’écoulement, de la morphologie du lit et du transport de sédiments en charge de fond a permis de centrer la recherche directement sur les interactions entre les processus plutôt que sur les processus individuels, une approche rarement utilisée en géomorphologie fluviale. Chacun des chapitres illustre un nouveau concept ou une nouvelle approche permettant de résoudre certaines des impasses rencontrées actuellement en géomorphologie fluviale. Ces travaux ont des implications importantes pour la compréhension de la dynamique des lits de rivières et des habitats fluviaux et servent de point de départ pour de nouveaux développements.
Resumo:
Étude de cas / Case study
Resumo:
Introduction: Il est important de minimiser le gaspillage et les risques associés aux soins sans valeur. La gestion de l’utilisation des antimicrobiens vise à optimiser leur emploi et doit être adaptée au milieu et à sa population. Objectifs: Évaluer les profiles d’utilisation actuels des antimicrobiens et fixer des objectifs pour les interventions en matière de gestion des antimicrobiens. Méthode: Vingt-et-un hôpitaux du Nouveau-Brunswick offrant des soins de courte durée en médecine générale, en chirurgie et en pédiatrie ont pris part à une enquête sur la prévalence ponctuelle. Tous les patients admis aux hôpitaux participants et ayant reçu au moins un antimicrobien systémique ont été inscrits à l’étude. Les principaux critères d’évaluation étaient le profil d’utilisation, selon l’indication et l’antimicrobien prescrit, le bienfondé de l’utilisation et la durée de la prophylaxie chirurgicale. Des statistiques descriptives et un test d’indépendance 2 furent utilisés pour l’analyse de données. Résultats: L’enquête a été menée de juin à août 2012. Un total de 2244 patients ont été admis pendant la durée de l’étude et 529 (23,6%) ont reçu un antimicrobien. Au total, 691 antimicrobiens ont été prescrits, soit 587 (85%) pour le traitement et 104 (15%) pour la prophylaxie. Les antimicrobiens les plus souvent prescrits pour le traitement (n=587) étaient des classes suivantes : quinolones (25,6%), pénicillines à spectre étendu (10,2%) et métronidazole (8,5%). Les indications les plus courantes du traitement étaient la pneumonie (30%), les infections gastro-intestinales (16%) et les infections de la peau et des tissus mous (14%). Selon des critères définis au préalable, 23% (n=134) des ordonnances pour le traitement étaient inappropriées et 20% (n=120) n’avaient aucune indication de documentée. Les domaines où les ordonnances étaient inappropriées étaient les suivants : défaut de passage de la voie intraveineuse à la voie orale (n=34, 6%), mauvaise dose (n=30, 5%), traitement d’une bactériurie asymptomatique (n=24, 4%) et doublement inutile (n=22, 4%). Dans 33% (n=27) des cas, les ordonnances pour la prophylaxie chirurgicale étaient pour une période de plus de 24 heures. Conclusions: Les résultats démontrent que les efforts de gestion des antimicrobiens doivent se concentrer sur les interventions conventionnelles de gestion de l’utilisation des antimicrobiens, l’amélioration de la documentation, l’optimisation de l’utilisation des quinolones et la réduction au minimum de la durée de la prophylaxie chirurgicale.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
Commentaire / Commentary
Resumo:
Functional near-infrared spectroscopy (fNIRS) acquired with electroencephalography (EEG) is a relatively new non-invasive neuroimaging technique with potential for long term monitoring of the epileptic brain. Simultaneous EEG-fNIRS recording allows the spatio-temporal reconstruction of the hemodynamic response in terms of the concentration changes in oxy-hemoglobin (HbO) and deoxy-hemoglobin (HbR) associated with recorded epileptic events such as interictal epileptic discharges (IEDs) or seizures. While most previous studies investigating fNIRS in epilepsy had limitations due to restricted spatial coverage and small sample sizes, this work includes a sufficiently large number of channels to provide an extensive bilateral coverage of the surface of the brain for a sample size of 40 patients with focal epilepsies. Topographic maps of significant activations due to each IED type were generated in four different views (dorsal, frontal, left and right) and were compared with the epileptic focus previously identified by an epileptologist. After excluding 5 patients due to the absence of IEDs and 6 more with mesial temporal foci too deep for fNIRS, we report that significant HbR (respectively HbO) concentration changes corresponding to IEDs were observed in 62% (resp. 38%) of patients with neocortical epilepsies. This HbR/HbO response was most significant in the epileptic focus region among all the activations in 28%/21% of patients.
Resumo:
Il est relativement bien établi que les crises focales entraînent une augmentation régionale du flot sanguin dans le but de soutenir la demande énergétique en hémoglobine oxygénée des neurones épileptiques. Des changements hémodynamiques précoces ont également été rapportés dans la région homologue controlatérale, bien que ceci ait été moins bien caractérisé. Dans cette étude, notre objectif est de mieux caractériser, lors de crises focales, la nature des changements hémodynamiques précoces dans la région homologue controlatérale au foyer épileptique. L'imagerie optique intrinsèque (IOI) et la microscopie deux-photons sont utilisées pour étudier les changements hémodynamiques dans la région homologue controlatérale au site de crises focales induites par l’injection de 4-aminopyridine (4-AP) dans le cortex somatosensitif ipsilatéral de souris. Dans l'étude d'IOI, des changements de l’oxyhémoglobine (HbO), de la désoxyhémoglobine (HbR) et du débit sanguin cérébral ont été observées dans la région homologue controlatérale au site de crises focales lors de toutes les crises. Toutefois, ces changements étaient hétérogènes, sans patron cohérent et reproduisible. Nos expériences avec la microscopie deux-photons n’ont pas révélé de changements hémodynamiques significatifs dans la région homotopique controlatérale lors de trains de pointes épileptiques. Nos résultats doivent être interprétés avec prudence compte tenu de plusieurs limitations: d’une part absence de mesures électrophysiologiques dans la région d’intérêt controlatérale au foyer simultanément à l’imagerie deux-photons et à l'IOI; d’autre part, lors des expériences avec le deux-photons, incapacité à générer de longues décharges ictales mais plutôt des trains de pointes, couverture spatiale limitée de la région d’intérêt controlatérale, et faible puissance suite au décès prématuré de plusieurs souris pour diverses raisons techniques. Nous terminons en discutant de divers moyens pour améliorer les expériences futures.
Resumo:
Full Text / Article complet
Resumo:
Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.