13 resultados para sparse URAs

em Université de Montréal, Canada


Relevância:

10.00% 10.00%

Publicador:

Resumo:

On étudie l’application des algorithmes de décomposition matricielles tel que la Factorisation Matricielle Non-négative (FMN), aux représentations fréquentielles de signaux audio musicaux. Ces algorithmes, dirigés par une fonction d’erreur de reconstruction, apprennent un ensemble de fonctions de base et un ensemble de coef- ficients correspondants qui approximent le signal d’entrée. On compare l’utilisation de trois fonctions d’erreur de reconstruction quand la FMN est appliquée à des gammes monophoniques et harmonisées: moindre carré, divergence Kullback-Leibler, et une mesure de divergence dépendente de la phase, introduite récemment. Des nouvelles méthodes pour interpréter les décompositions résultantes sont présentées et sont comparées aux méthodes utilisées précédemment qui nécessitent des connaissances du domaine acoustique. Finalement, on analyse la capacité de généralisation des fonctions de bases apprises par rapport à trois paramètres musicaux: l’amplitude, la durée et le type d’instrument. Pour ce faire, on introduit deux algorithmes d’étiquetage des fonctions de bases qui performent mieux que l’approche précédente dans la majorité de nos tests, la tâche d’instrument avec audio monophonique étant la seule exception importante.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L'obligation de sécurité informationnelle - c'est-à-dire la tâche qui incombe aux entreprises d'assurer l'intégrité, la confidentialité et la disponibilité de l'information découle, tant en droit québécois que dans une majorité de juridictions occidentales, d'une série de dispositions législatives imposant non pas l'adoption de comportements ou l'utilisation de technologies ou de procédés identifiables, mais bien l'implantation de mesures de sécurité «raisonnables », «adéquates », ou « suffisantes ». Or, dans un domaine aussi embryonnaire et complexe que celui de la sécurité informationnelle, domaine dans lequel les solutions disponibles sont multiples et où la jurisprudence est éparse, comment une entreprise peut-elle jauger avec justesse l'étendue de son obligation? Bref, comment établir ce que ferait une entreprise raisonnablement prudente et diligente dans un domaine où il n'existe actuellement aucune balise législative, jurisprudentielle ou même coutumière permettant de fixer avec justesse le niveau de diligence imposé par le législateur? L'absence de sécurité juridique offerte par une telle situation est patente et nécessite une reconfiguration du cadre opératoire de l'obligation de sécurité informationnelle afin d'en identifier les composantes et les objectifs. Cet exercice passera par la redéfinition de l'obligation de sécurité informationnelle comme obligation de réduire les risques qui guettent l'information à un niveau socialement acceptable. En effet, la sécurité pouvant être définie comme étant la gestion du risque, c'est donc le risque qui réside au cœur de cette obligation. Or, en analysant les risques qui guettent un système, soit en analysant les menaces qui visent à exploiter ses vulnérabilités, il est possible d'établir quelles contre-mesures s'avèrent utiles et les coûts associés à leur mise en œuvre. Par la suite, il devient envisageable, en recourant à la définition économique de la négligence et en prenant compte des probabilités de brèches de sécurité et des dommages escomptés, d'établir les sommes optimales à investir dans l'achat, l'entretien et la mise à jour de ces contre-mesures. Une telle analyse permet ainsi de quantifier avec un certain degré de précision l'étendue de l'obligation de sécurité informationnelle en offrant aux entreprises un outil s'inspirant de données matérielles auxquelles elles ont librement accès et s'intégrant aisément dans le contexte juridique contemporain.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Un facteur d’incertitude de 10 est utilisé par défaut lors de l’élaboration des valeurs toxicologiques de référence en santé environnementale, afin de tenir compte de la variabilité interindividuelle dans la population. La composante toxicocinétique de cette variabilité correspond à racine de 10, soit 3,16. Sa validité a auparavant été étudiée sur la base de données pharmaceutiques colligées auprès de diverses populations (adultes, enfants, aînés). Ainsi, il est possible de comparer la valeur de 3,16 au Facteur d’ajustement pour la cinétique humaine (FACH), qui constitue le rapport entre un centile élevé (ex. : 95e) de la distribution de la dose interne dans des sous-groupes présumés sensibles et sa médiane chez l’adulte, ou encore à l’intérieur d’une population générale. Toutefois, les données expérimentales humaines sur les polluants environnementaux sont rares. De plus, ces substances ont généralement des propriétés sensiblement différentes de celles des médicaments. Il est donc difficile de valider, pour les polluants, les estimations faites à partir des données sur les médicaments. Pour résoudre ce problème, la modélisation toxicocinétique à base physiologique (TCBP) a été utilisée pour simuler la variabilité interindividuelle des doses internes lors de l’exposition aux polluants. Cependant, les études réalisées à ce jour n’ont que peu permis d’évaluer l’impact des conditions d’exposition (c.-à-d. voie, durée, intensité), des propriétés physico/biochimiques des polluants, et des caractéristiques de la population exposée sur la valeur du FACH et donc la validité de la valeur par défaut de 3,16. Les travaux de la présente thèse visent à combler ces lacunes. À l’aide de simulations de Monte-Carlo, un modèle TCBP a d’abord été utilisé pour simuler la variabilité interindividuelle des doses internes (c.-à-d. chez les adultes, ainés, enfants, femmes enceintes) de contaminants de l’eau lors d’une exposition par voie orale, respiratoire, ou cutanée. Dans un deuxième temps, un tel modèle a été utilisé pour simuler cette variabilité lors de l’inhalation de contaminants à intensité et durée variables. Ensuite, un algorithme toxicocinétique à l’équilibre probabiliste a été utilisé pour estimer la variabilité interindividuelle des doses internes lors d’expositions chroniques à des contaminants hypothétiques aux propriétés physico/biochimiques variables. Ainsi, les propriétés de volatilité, de fraction métabolisée, de voie métabolique empruntée ainsi que de biodisponibilité orale ont fait l’objet d’analyses spécifiques. Finalement, l’impact du référent considéré et des caractéristiques démographiques sur la valeur du FACH lors de l’inhalation chronique a été évalué, en ayant recours également à un algorithme toxicocinétique à l’équilibre. Les distributions de doses internes générées dans les divers scénarios élaborés ont permis de calculer dans chaque cas le FACH selon l’approche décrite plus haut. Cette étude a mis en lumière les divers déterminants de la sensibilité toxicocinétique selon le sous-groupe et la mesure de dose interne considérée. Elle a permis de caractériser les déterminants du FACH et donc les cas où ce dernier dépasse la valeur par défaut de 3,16 (jusqu’à 28,3), observés presqu’uniquement chez les nouveau-nés et en fonction de la substance mère. Cette thèse contribue à améliorer les connaissances dans le domaine de l’analyse du risque toxicologique en caractérisant le FACH selon diverses considérations.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Le but du présent travail est d’apporter la preuve paléontologique mettant en évidence que le clade Raninoida était bien établi dans le Néotropique durant la période Crétacée, où il était représenté par les plus anciennes familles ou par quelques–uns des plus anciens membres des plus anciennes familles. Je décris des taxa raninoïdiens ou similaires, incluant Archaeochimaeridae n. fam. et Archaeochimaera macrophthalma n. gen. n. sp., du Cénomanien supérieur (~95 Ma.) de Colombie (Chapitre 3), Planocarcinus n. gen., Planocarcinus olssoni (Rathbun, 1937) n. comb. et Notopocorystes kerri n. sp., de l’Aptien supérieur (~115 Ma.) de Colombie (Luque et al., accepté) (Chapitre 2). Ces taxa nouveaux, plus la présence de Cenomanocarcinus vanstraeleni Stenzel, 1945, dans l’Albien supérieur de Colombie (Vega et al., 2010), et d’Araripecarcinus ferreirai Martins–Neto, 1987, dans l’Albien du Brésil (Luque et al., en cours) (Chapitre 4), représentent certains des plus anciens signalements de quatre des sept familles raninoïdiennes, au moins, connues à ce jour. La nouvelle famile Archaeochimaeridae se présente comme le groupe frère du clade Raninidae + clade Symethidae. Cependant, la combinaison unique de caractères primitifs, dérivés et homoplasiques est inégalable chez les Raninoida, et, en fait, chez les autres sections de crabes podotrèmes. Alors que les taxa raninoïdiens du Crétacé sont bien connus aux latitudes élevées, les signalements en Amérique du Sud tropicale sont rares et épars, avec pour résultat de considérables distorsions pour traiter des importantes questions biogéographiques et phylogénétiques. Sur la base de données taxonomiques, paléobiogéographiques et cladistiques, une ré–appréciation des toute premières distributions spatio–temporelle des “crabes grenouilles” est proposée, avec pour objet de contribuer à une plus large compréhension de la diversité, phylogénie et évolution des premiers brachyoures au cours des âges.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L'analyse en composantes indépendantes (ACI) est une méthode d'analyse statistique qui consiste à exprimer les données observées (mélanges de sources) en une transformation linéaire de variables latentes (sources) supposées non gaussiennes et mutuellement indépendantes. Dans certaines applications, on suppose que les mélanges de sources peuvent être groupés de façon à ce que ceux appartenant au même groupe soient fonction des mêmes sources. Ceci implique que les coefficients de chacune des colonnes de la matrice de mélange peuvent être regroupés selon ces mêmes groupes et que tous les coefficients de certains de ces groupes soient nuls. En d'autres mots, on suppose que la matrice de mélange est éparse par groupe. Cette hypothèse facilite l'interprétation et améliore la précision du modèle d'ACI. Dans cette optique, nous proposons de résoudre le problème d'ACI avec une matrice de mélange éparse par groupe à l'aide d'une méthode basée sur le LASSO par groupe adaptatif, lequel pénalise la norme 1 des groupes de coefficients avec des poids adaptatifs. Dans ce mémoire, nous soulignons l'utilité de notre méthode lors d'applications en imagerie cérébrale, plus précisément en imagerie par résonance magnétique. Lors de simulations, nous illustrons par un exemple l'efficacité de notre méthode à réduire vers zéro les groupes de coefficients non-significatifs au sein de la matrice de mélange. Nous montrons aussi que la précision de la méthode proposée est supérieure à celle de l'estimateur du maximum de la vraisemblance pénalisée par le LASSO adaptatif dans le cas où la matrice de mélange est éparse par groupe.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les alcaloïdes Daphniphyllum constituent une vaste famille de produits naturels isolés à partir de plantes à feuillage persistant couramment utilisés dans la médecine chinoise traditionnelle. Ils affichent une gamme impressionnante d'activités biologiques; antipyrétique, anti-inflammatoire, antioxydant et même anticancéreux. La calyciphylline B appartient à cette famille et possède un motif original comprenant sept stéréocentres adjacents, dont un stéréocentre quaternaire tout carbone, avec un échafaudage hexacyclique. Sa structure a été déterminée par données spectroscopiques, plus précisément par des techniques de RMN 2D. Malgré le peu d'information sur son activité biologique, sa synthèse représente sans le moindre doute un grand défi pour les chimistes organiciens. Le groupe de recherche du Prof. Hanessian a entrepris la synthèse totale de la calyciphylline B en 2010, laquelle est toujours en cours. Une nouvelle approche a été développée pour la préparation d'un intermédiaire azabicyclo[3.3.0]octane avancé. Ce mémoire résume les travaux de recherche de l'auteur sur les progrès réalisés pour la voie alternative élaborée par le groupe du prof. Hanessian. Le travail effectué comprend la formation d'un stéréocentre quaternaire, l'alkylation d'un énolate sur un triflate d'alkyle secondaire, une réduction diastéréosélective, une cyclisation réductrice ainsi qu'une oxydation de Wacker régiosélective.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Si au cours des dernières décennies les connaissances relatives aux délinquantes sexuelles se sont accrues, celles relatives aux co-délinquantes sont encore rares, alors que ces femmes représentent une part importante du total des délinquantes sexuelles. Le but de la présente étude était de mettre en lumière les trajectoires de vie des femmes qui agressent en compagnie de leur conjoint et de dresser un modèle descriptif du processus de leur passage à l’acte. Sur la base de 17 entretiens non directifs avec des femmes incarcérées en France pour des faits de co-délinquance sexuelle, notre recherche suggère que les co-délinquantes présentent majoritairement un historique de vie abusif et des difficultés émotionnelles, relationnelles, économiques et éducatives importantes. Ces facteurs de vulnérabilité ont été acquis au cours de leur enfance et par leurs expériences sentimentales négatives et abusives. Un modèle descriptif de leur passage à l’acte en trois phases a été établi. Il est apparu que la délinquance sexuelle des co-délinquantes se modifiait au fil des agressions, tant dans leur implication dans les abus qu’au niveau de leur coercition. Les données ont aussi révélé un nombre non négligeable de femmes qui agressent ensuite par elles-mêmes. Ces constatations nous ont amenés à une classification en trois catégories des femmes qui agressent sexuellement : les femmes asservies, les femmes impliquées et les femmes diversifiées.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Au cours des 30 dernières années, l’embonpoint et l’obésité infantile sont devenus de véritables défis pour la santé publique. Bien que l’obésité soit, à la base, un problème physiologique (i.e. balance calorique positive) une série de facteurs psychosociaux sont reliés à son développement. Dans cette thèse, nous avons étudié le rôle des facteurs périnataux et de la petite enfance dans le développement du surpoids, ainsi que la relation entre le surpoids et les troubles internalisés au cours de l’enfance et au début de l’adolescence. Nous avions trois objectifs généraux: 1) Modéliser le développement de l’indice de masse corporelle (IMC) ou du statut pondéral (le fait d’être en surpoids ou non) durant l’enfance, ainsi qu’estimer l’hétérogénéité dans la population au cours du temps (i.e. identification de trajectoires développementales de l’IMC). 2) Identifier les facteurs périnataux et de la petite enfance pouvant accroitre le risque qu’un enfant suive une trajectoire menant au surpoids adolescente. 3) Tester la possibilité que le surpoids durant l’enfance soit associé avec des problèmes de santé mentale internalisés à l’adolescence, et vérifier la possibilité qu’une telle association soit médiatisée par l’expérience de victimisation par les pairs et l’insatisfaction corporelle. Ce travail est mené dans une perspective de développement au cours de la vie (life span perspective), considérant l’accumulation des facteurs de risques au cours du temps ainsi que les facteurs qui se manifestent durant certaines périodes critiques de développement.1,2 Nous avons utilisé les données provenant de l’Étude Longitudinale du Développement des Enfants du Québec (ELDEQ), une cohorte de naissances de la province de Québec, Canada. L’échantillon initial était composé de 2120 familles avec un bébé de 5 mois nés au Québec en 1997. Ces familles ont été suivies annuellement ou à tous les deux ans jusqu’à ce que les enfants atteignent l’âge de 13 ans. En ce qui concerne le premier objectif de recherche, nous avons utilisé la méthode des trajectoires développementales fondée sur des groupes pour modéliser l’IMC en continu et en catégories (surpoids vs poids normal). Pour notre deuxième objectif, nous avons effectué des modèles de régression multinomiale afin d’identifier les facteurs périnataux et de la petite enfance associés aux différents groupes développementaux du statut pondéral. Les facteurs de risques putatifs ont été choisis parmi les facteurs identifiés dans la littérature et représentent l’environnement périnatal, les caractéristiques de l’enfant, ainsi que l’environnement familial. Ces facteurs ont été analysés longitudinalement dans la mesure du possible, et les facteurs pouvant servir de levier potentiel d’intervention, tels que l’usage de tabac chez la mère durant la grossesse, le sommeil de l’enfant ou le temps d’écoute de télévision, ont été sélectionnés pour l’analyse. Pour notre troisième objectif, nous avons examiné les associations longitudinales (de 6 à 12 ans) entre les scores-z d’IMC (selon la référence CDC 2000) et les problèmes internalisés avec les modèles d’équations structurales de type « cross-lagged ». Nous avons ensuite examiné comment la victimisation par les pairs et l’insatisfaction corporelle durant l’enfance peuvent médiatiser un lien potentiel entre le surpoids et les troubles internalisés au début de l’adolescence. Les contributions scientifiques de la présente thèse incluent l’identification de trajectoires distinctes du statut pondérale durant l’enfance (précoce, tardive, jamais en surpoids), ainsi que les facteurs de risques précoces et les profils de santé mentale pouvant différer selon la trajectoire d’un enfant. De plus, nous avons identifié des mécanismes importants qui expliquent une partie de l’association entre les trajectoires de surpoids et les troubles internalisés: la victimisation par les pairs et l’insatisfaction corporelle.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué. On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution générale du problème d'intelligence artificielle, en particulier en ce qui a trait à la nécessité d'efficience. La vision du calcul conditionnel distribué consiste à accélérer l'évaluation et l'entraînement de modèles profonds, ce qui est très différent de l'objectif usuel d'améliorer sa capacité de généralisation et d'optimisation. Le travail présenté ici a des liens étroits avec les modèles de type mélange d'experts. Dans le chapitre 2, nous présentons un nouvel algorithme d'apprentissage profond qui utilise une forme simple d'apprentissage par renforcement sur un modèle d'arbre de décisions à base de réseau de neurones. Nous démontrons la nécessité d'une contrainte d'équilibre pour maintenir la distribution d'exemples aux experts uniforme et empêcher les monopoles. Pour rendre le calcul efficient, l'entrainement et l'évaluation sont contraints à être éparse en utilisant un routeur échantillonnant des experts d'une distribution multinomiale étant donné un exemple. Dans le chapitre 3, nous présentons un nouveau modèle profond constitué d'une représentation éparse divisée en segments d'experts. Un modèle de langue à base de réseau de neurones est construit à partir des transformations éparses entre ces segments. L'opération éparse par bloc est implémentée pour utilisation sur des cartes graphiques. Sa vitesse est comparée à deux opérations denses du même calibre pour démontrer le gain réel de calcul qui peut être obtenu. Un modèle profond utilisant des opérations éparses contrôlées par un routeur distinct des experts est entraîné sur un ensemble de données d'un milliard de mots. Un nouvel algorithme de partitionnement de données est appliqué sur un ensemble de mots pour hiérarchiser la couche de sortie d'un modèle de langage, la rendant ainsi beaucoup plus efficiente. Le travail présenté dans cette thèse est au centre de la vision de calcul conditionnel distribué émis par Yoshua Bengio. Elle tente d'appliquer la recherche dans le domaine des mélanges d'experts aux modèles profonds pour améliorer leur vitesse ainsi que leur capacité d'optimisation. Nous croyons que la théorie et les expériences de cette thèse sont une étape importante sur la voie du calcul conditionnel distribué car elle cadre bien le problème, surtout en ce qui concerne la compétitivité des systèmes d'experts.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Le sanctuaire Agoa est une aire marine protégée dans la zone économique exclusive (ZEE) des Antilles françaises qui fut créée en 2010 pour la conservation des mammifères marins et de leurs habitats. Il est connu que le rorqual à bosse fréquente les eaux des Antilles de décembre à mai pour la reproduction et la mise bas. Par contre, peu d’information existe sur l’abondance, le comportement, la distribution et les pressions anthropiques sur cette espèce aux Antilles et encore moins dans le sanctuaire. Cette maîtrise s’intéresse principalement à connaître cette espèce dans un secteur précis de cette aire marine et les liens qu’elle entretient avec certains utilisateurs humains de son habitat. Le tout vise à informer les intervenants en place, autant institutionnels qu’utilisateurs, vers une mise en place de mesures de conservation adaptées. Un suivi terrestre hivernal de plus de 300 heures, en 2012 et 2013, a permis de déterminer l’utilisation de l’habitat et les pressions anthropiques sur une population de rorquals à bosse fréquentant le sud de la péninsule de la Pointe-des-Châteaux en Guadeloupe. Il s’agit du premier suivi terrestre de cette espèce aux Antilles françaises et un des premiers dans l'arc caribéen. La zone d’étude couvre environ 264 km2 et serait une des zones les plus fréquentées de l’archipel guadeloupéen par l’espèce. À l’aide d’un théodolite, la trajectoire de 107 groupes différents (137,8 heures, 699 remontées) a été décrite. Les résultats montrent que la zone d’étude est principalement fréquentée en mars et avril, avec une abondance maximale au début du mois d’avril. La forte présence de baleineaux, particulièrement au mois de mars, pousse à croire que cette zone est utilisée comme pouponnière. Le comportement n’est pas aléatoire dans la zone d’étude et les trajectoires convergent vers certaines zones ayant possiblement un lien avec la bathymétrie. De plus, la zone marine à proximité de la Pointe-des-Châteaux pourrait potentiellement être un lieu de convergence des groupes. Ceux-ci se déplacent à vitesse réduite en direction ENE en général, à l’exception des femelles accompagnées de baleineaux qui prennent une orientation tout autre, c’est-à-dire vers le ONO, et ce à plus grande vitesse. Bien que la pression d’observation soit considérée comme modérée, une forte proportion des remontées se trouve dans les corridors de navigation présents dans la zone d’étude. De plus, le corridor de navigation des navettes entre Saint-François et La Désirade comporte le plus grand risque relatif de collision mortelle. Une réduction de vitesse des embarcations fréquentant le corridor des navettes diminuerait significativement le risque de collision mortelle. Ces pistes de réflexion mèneront sans doute à d’autres études plus poussées afin de continuer à en apprendre sur l’écologie de cette espèce fascinante.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.