Biblioteca Digital

16 resultados para Feature Selection

em Université de Montréal, Canada

Apprentissage automatique pour la détection de relations d'affaire

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Les documents publiés par des entreprises, tels les communiqués de presse, contiennent une foule d’informations sur diverses activités des entreprises. C’est une source précieuse pour des analyses en intelligence d’affaire. Cependant, il est nécessaire de développer des outils pour permettre d’exploiter cette source automatiquement, étant donné son grand volume. Ce mémoire décrit un travail qui s’inscrit dans un volet d’intelligence d’affaire, à savoir la détection de relations d’affaire entre les entreprises décrites dans des communiqués de presse. Dans ce mémoire, nous proposons une approche basée sur la classification. Les méthodes de classifications existantes ne nous permettent pas d’obtenir une performance satisfaisante. Ceci est notamment dû à deux problèmes : la représentation du texte par tous les mots, qui n’aide pas nécessairement à spécifier une relation d’affaire, et le déséquilibre entre les classes. Pour traiter le premier problème, nous proposons une approche de représentation basée sur des mots pivots c’est-à-dire les noms d’entreprises concernées, afin de mieux cerner des mots susceptibles de les décrire. Pour le deuxième problème, nous proposons une classification à deux étapes. Cette méthode s’avère plus appropriée que les méthodes traditionnelles de ré-échantillonnage. Nous avons testé nos approches sur une collection de communiqués de presse dans le domaine automobile. Nos expérimentations montrent que les approches proposées peuvent améliorer la performance de classification. Notamment, la représentation du document basée sur les mots pivots nous permet de mieux centrer sur les mots utiles pour la détection de relations d’affaire. La classification en deux étapes apporte une solution efficace au problème de déséquilibre entre les classes. Ce travail montre que la détection automatique des relations d’affaire est une tâche faisable. Le résultat de cette détection pourrait être utilisé dans une analyse d’intelligence d’affaire.

Dealing with Moral Hazard and Adverse Selection Simultaneously

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Although Insurers Face Adverse Selection and Moral Hazard When They Set Insurance Contracts, These Two Types of Asymmetrical Information Have Been Given Separate Treatments Sofar in the Economic Literature. This Paper Is a First Attempt to Integrate Both Problems Into a Single Model. We Show How It Is Possible to Use Time in Order to Achieve a First-Best Allocation of Risks When Both Problems Are Present Simultaneously.

Finite-Sample Simulation-Based Inference in VAR Models with Applications to Order Selection and Causality Testing

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Statistical tests in vector autoregressive (VAR) models are typically based on large-sample approximations, involving the use of asymptotic distributions or bootstrap techniques. After documenting that such methods can be very misleading even with fairly large samples, especially when the number of lags or the number of equations is not small, we propose a general simulation-based technique that allows one to control completely the level of tests in parametric VAR models. In particular, we show that maximized Monte Carlo tests [Dufour (2002)] can provide provably exact tests for such models, whether they are stationary or integrated. Applications to order selection and causality testing are considered as special cases. The technique developed is applied to quarterly and monthly VAR models of the U.S. economy, comprising income, money, interest rates and prices, over the period 1965-1996.

SCaFoS: a tool for Selection, Concatenation and Fusion of Sequences for phylogenomics

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Affiliation: Département de Biochimie, Université de Montréal

Une hypothese de selection generalisee sur l'origine de la nature humaine, des institutions et de la richesse.

Relevância:

20.00% 20.00%

Publicador:

Firm Heterogeneity and Worker Self-Selection Bias Estimated Returns to Seniority.

Relevância:

20.00% 20.00%

Publicador:

Unit Root Tests ARMA Models with Data Dependent Methods for the Selection of the Truncation Lag.

Relevância:

20.00% 20.00%

Publicador:

Src family kinases are required for limb trajectory selection by spinal motor axons

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Signal relay by guidance receptors at the axonal growth cone is a process essential for the assembly of a functional nervous system. We investigated the in vivo function of Src family kinases (SFKs) as growth cone guidance signaling intermediates in the context of spinal lateral motor column (LMC) motor axon projection toward the ventral or dorsal limb mesenchyme. Using in situ mRNA detection we determined that Src and Fyn are expressed in LMC motor neurons of chick and mouse embryos at the time of limb trajectory selection. Inhibition of SFK activity by C-terminal Src kinase (Csk) overexpression in chickLMCaxons using in ovo electroporation resulted inLMC axons selecting the inappropriate dorsoventral trajectory within the limb mesenchyme, with medial LMC axon projecting into the dorsal and ventral limb nerve with apparently random incidence. We also detected LMC axon trajectory choice errors in Src mutant mice demonstrating a nonredundant role for Src in motor axon guidance in agreement with gain and loss of Src function in chickLMCneurons which led to the redirection ofLMCaxons. Finally, Csk-mediated SFK inhibition attenuated the retargeting ofLMCaxons caused by EphA or EphB over-expression, implying the participation of SFKs in Eph-mediated LMC motor axon guidance. In summary, our findings demonstrate that SFKs are essential for motor axon guidance and suggest that they play an important role in relaying ephrin:Eph signals that mediate the selection of motor axon trajectory in the limb.

Exogeneity, weak identification and instrument selection in econometrics

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La dernière décennie a connu un intérêt croissant pour les problèmes posés par les variables instrumentales faibles dans la littérature économétrique, c’est-à-dire les situations où les variables instrumentales sont faiblement corrélées avec la variable à instrumenter. En effet, il est bien connu que lorsque les instruments sont faibles, les distributions des statistiques de Student, de Wald, du ratio de vraisemblance et du multiplicateur de Lagrange ne sont plus standard et dépendent souvent de paramètres de nuisance. Plusieurs études empiriques portant notamment sur les modèles de rendements à l’éducation [Angrist et Krueger (1991, 1995), Angrist et al. (1999), Bound et al. (1995), Dufour et Taamouti (2007)] et d’évaluation des actifs financiers (C-CAPM) [Hansen et Singleton (1982,1983), Stock et Wright (2000)], où les variables instrumentales sont faiblement corrélées avec la variable à instrumenter, ont montré que l’utilisation de ces statistiques conduit souvent à des résultats peu fiables. Un remède à ce problème est l’utilisation de tests robustes à l’identification [Anderson et Rubin (1949), Moreira (2002), Kleibergen (2003), Dufour et Taamouti (2007)]. Cependant, il n’existe aucune littérature économétrique sur la qualité des procédures robustes à l’identification lorsque les instruments disponibles sont endogènes ou à la fois endogènes et faibles. Cela soulève la question de savoir ce qui arrive aux procédures d’inférence robustes à l’identification lorsque certaines variables instrumentales supposées exogènes ne le sont pas effectivement. Plus précisément, qu’arrive-t-il si une variable instrumentale invalide est ajoutée à un ensemble d’instruments valides? Ces procédures se comportent-elles différemment? Et si l’endogénéité des variables instrumentales pose des difficultés majeures à l’inférence statistique, peut-on proposer des procédures de tests qui sélectionnent les instruments lorsqu’ils sont à la fois forts et valides? Est-il possible de proposer les proédures de sélection d’instruments qui demeurent valides même en présence d’identification faible? Cette thèse se focalise sur les modèles structurels (modèles à équations simultanées) et apporte des réponses à ces questions à travers quatre essais. Le premier essai est publié dans Journal of Statistical Planning and Inference 138 (2008) 2649 – 2661. Dans cet essai, nous analysons les effets de l’endogénéité des instruments sur deux statistiques de test robustes à l’identification: la statistique d’Anderson et Rubin (AR, 1949) et la statistique de Kleibergen (K, 2003), avec ou sans instruments faibles. D’abord, lorsque le paramètre qui contrôle l’endogénéité des instruments est fixe (ne dépend pas de la taille de l’échantillon), nous montrons que toutes ces procédures sont en général convergentes contre la présence d’instruments invalides (c’est-à-dire détectent la présence d’instruments invalides) indépendamment de leur qualité (forts ou faibles). Nous décrivons aussi des cas où cette convergence peut ne pas tenir, mais la distribution asymptotique est modifiée d’une manière qui pourrait conduire à des distorsions de niveau même pour de grands échantillons. Ceci inclut, en particulier, les cas où l’estimateur des double moindres carrés demeure convergent, mais les tests sont asymptotiquement invalides. Ensuite, lorsque les instruments sont localement exogènes (c’est-à-dire le paramètre d’endogénéité converge vers zéro lorsque la taille de l’échantillon augmente), nous montrons que ces tests convergent vers des distributions chi-carré non centrées, que les instruments soient forts ou faibles. Nous caractérisons aussi les situations où le paramètre de non centralité est nul et la distribution asymptotique des statistiques demeure la même que dans le cas des instruments valides (malgré la présence des instruments invalides). Le deuxième essai étudie l’impact des instruments faibles sur les tests de spécification du type Durbin-Wu-Hausman (DWH) ainsi que le test de Revankar et Hartley (1973). Nous proposons une analyse en petit et grand échantillon de la distribution de ces tests sous l’hypothèse nulle (niveau) et l’alternative (puissance), incluant les cas où l’identification est déficiente ou faible (instruments faibles). Notre analyse en petit échantillon founit plusieurs perspectives ainsi que des extensions des précédentes procédures. En effet, la caractérisation de la distribution de ces statistiques en petit échantillon permet la construction des tests de Monte Carlo exacts pour l’exogénéité même avec les erreurs non Gaussiens. Nous montrons que ces tests sont typiquement robustes aux intruments faibles (le niveau est contrôlé). De plus, nous fournissons une caractérisation de la puissance des tests, qui exhibe clairement les facteurs qui déterminent la puissance. Nous montrons que les tests n’ont pas de puissance lorsque tous les instruments sont faibles [similaire à Guggenberger(2008)]. Cependant, la puissance existe tant qu’au moins un seul instruments est fort. La conclusion de Guggenberger (2008) concerne le cas où tous les instruments sont faibles (un cas d’intérêt mineur en pratique). Notre théorie asymptotique sous les hypothèses affaiblies confirme la théorie en échantillon fini. Par ailleurs, nous présentons une analyse de Monte Carlo indiquant que: (1) l’estimateur des moindres carrés ordinaires est plus efficace que celui des doubles moindres carrés lorsque les instruments sont faibles et l’endogenéité modérée [conclusion similaire à celle de Kiviet and Niemczyk (2007)]; (2) les estimateurs pré-test basés sur les tests d’exogenété ont une excellente performance par rapport aux doubles moindres carrés. Ceci suggère que la méthode des variables instrumentales ne devrait être appliquée que si l’on a la certitude d’avoir des instruments forts. Donc, les conclusions de Guggenberger (2008) sont mitigées et pourraient être trompeuses. Nous illustrons nos résultats théoriques à travers des expériences de simulation et deux applications empiriques: la relation entre le taux d’ouverture et la croissance économique et le problème bien connu du rendement à l’éducation. Le troisième essai étend le test d’exogénéité du type Wald proposé par Dufour (1987) aux cas où les erreurs de la régression ont une distribution non-normale. Nous proposons une nouvelle version du précédent test qui est valide même en présence d’erreurs non-Gaussiens. Contrairement aux procédures de test d’exogénéité usuelles (tests de Durbin-Wu-Hausman et de Rvankar- Hartley), le test de Wald permet de résoudre un problème courant dans les travaux empiriques qui consiste à tester l’exogénéité partielle d’un sous ensemble de variables. Nous proposons deux nouveaux estimateurs pré-test basés sur le test de Wald qui performent mieux (en terme d’erreur quadratique moyenne) que l’estimateur IV usuel lorsque les variables instrumentales sont faibles et l’endogénéité modérée. Nous montrons également que ce test peut servir de procédure de sélection de variables instrumentales. Nous illustrons les résultats théoriques par deux applications empiriques: le modèle bien connu d’équation du salaire [Angist et Krueger (1991, 1999)] et les rendements d’échelle [Nerlove (1963)]. Nos résultats suggèrent que l’éducation de la mère expliquerait le décrochage de son fils, que l’output est une variable endogène dans l’estimation du coût de la firme et que le prix du fuel en est un instrument valide pour l’output. Le quatrième essai résout deux problèmes très importants dans la littérature économétrique. D’abord, bien que le test de Wald initial ou étendu permette de construire les régions de confiance et de tester les restrictions linéaires sur les covariances, il suppose que les paramètres du modèle sont identifiés. Lorsque l’identification est faible (instruments faiblement corrélés avec la variable à instrumenter), ce test n’est en général plus valide. Cet essai développe une procédure d’inférence robuste à l’identification (instruments faibles) qui permet de construire des régions de confiance pour la matrices de covariances entre les erreurs de la régression et les variables explicatives (possiblement endogènes). Nous fournissons les expressions analytiques des régions de confiance et caractérisons les conditions nécessaires et suffisantes sous lesquelles ils sont bornés. La procédure proposée demeure valide même pour de petits échantillons et elle est aussi asymptotiquement robuste à l’hétéroscédasticité et l’autocorrélation des erreurs. Ensuite, les résultats sont utilisés pour développer les tests d’exogénéité partielle robustes à l’identification. Les simulations Monte Carlo indiquent que ces tests contrôlent le niveau et ont de la puissance même si les instruments sont faibles. Ceci nous permet de proposer une procédure valide de sélection de variables instrumentales même s’il y a un problème d’identification. La procédure de sélection des instruments est basée sur deux nouveaux estimateurs pré-test qui combinent l’estimateur IV usuel et les estimateurs IV partiels. Nos simulations montrent que: (1) tout comme l’estimateur des moindres carrés ordinaires, les estimateurs IV partiels sont plus efficaces que l’estimateur IV usuel lorsque les instruments sont faibles et l’endogénéité modérée; (2) les estimateurs pré-test ont globalement une excellente performance comparés à l’estimateur IV usuel. Nous illustrons nos résultats théoriques par deux applications empiriques: la relation entre le taux d’ouverture et la croissance économique et le modèle de rendements à l’éducation. Dans la première application, les études antérieures ont conclu que les instruments n’étaient pas trop faibles [Dufour et Taamouti (2007)] alors qu’ils le sont fortement dans la seconde [Bound (1995), Doko et Dufour (2009)]. Conformément à nos résultats théoriques, nous trouvons les régions de confiance non bornées pour la covariance dans le cas où les instruments sont assez faibles.

Formulation interactive des requêtes pour l’analyse et la compréhension du code source

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Nous proposons une approche basée sur la formulation interactive des requêtes. Notre approche sert à faciliter des tâches d’analyse et de compréhension du code source. Dans cette approche, l’analyste utilise un ensemble de filtres de base (linguistique, structurel, quantitatif, et filtre d’interactivité) pour définir des requêtes complexes. Ces requêtes sont construites à l’aide d’un processus interactif et itératif, où des filtres de base sont choisis et exécutés, et leurs résultats sont visualisés, changés et combinés en utilisant des opérateurs prédéfinis. Nous avons évalués notre approche par l’implantation des récentes contributions en détection de défauts de conception ainsi que la localisation de fonctionnalités dans le code. Nos résultats montrent que, en plus d’être générique, notre approche aide à la mise en œuvre des solutions existantes implémentées par des outils automatiques.

RNA recurrent motifs : identification and characterization

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La détermination de la structure tertiaire du ribosome fut une étape importante dans la compréhension du mécanisme de la synthèse des protéines. Par contre, l’élucidation de la structure du ribosome comme tel ne permet pas une compréhension de sa fonction. Pour mieux comprendre la nature des relations entre la structure et la fonction du ribosome, sa structure doit être étudiée de manière systématique. Au cours des dernières années, nous avons entrepris une démarche systématique afin d’identifier et de caractériser de nouveaux motifs structuraux qui existent dans la structure du ribosome et d’autres molécules contenant de l’ARN. L’analyse de plusieurs exemples d’empaquetage de deux hélices d’ARN dans la structure du ribosome nous a permis d’identifier un nouveau motif structural, nommé « G-ribo ». Dans ce motif, l’interaction d’une guanosine dans une hélice avec le ribose d’un nucléotide d’une autre hélice donne naissance à un réseau d’interactions complexes entre les nucléotides voisins. Le motif G-ribo est retrouvé à 8 endroits dans la structure du ribosome. La structure du G-ribo possède certaines particularités qui lui permettent de favoriser la formation d’un certain type de pseudo-nœuds dans le ribosome. L’analyse systématique de la structure du ribosome et de la ARNase P a permis d’identifier un autre motif structural, nommé « DTJ » ou « Double-Twist Joint motif ». Ce motif est formé de trois courtes hélices qui s’empilent l’une sur l’autre. Dans la zone de contact entre chaque paire d’hélices, deux paires de bases consécutives sont surenroulées par rapport à deux paires de bases consécutives retrouvées dans l’ARN de forme A. Un nucléotide d’une paire de bases est toujours connecté directement à un nucléotide de la paire de bases surenroulée, tandis que les nucléotides opposés sont connectés par un ou plusieurs nucléotides non appariés. L’introduction d’un surenroulement entre deux paires de bases consécutives brise l’empilement entre les nucléotides et déstabilise l’hélice d’ARN. Dans le motif DTJ, les nucléotides non appariés qui lient les deux paires de bases surenroulées interagissent avec une des trois hélices qui forment le motif, offrant ainsi une stratégie élégante de stabilisation de l’arrangement. Pour déterminer les contraintes de séquences imposées sur la structure tertiaire d’un motif récurrent dans le ribosome, nous avons développé une nouvelle approche expérimentale. Nous avons introduit des librairies combinatoires de certains nucléotides retrouvés dans des motifs particuliers du ribosome. Suite à l’analyse des séquences alternatives sélectionnées in vivo pour différents représentants d’un motif, nous avons été en mesure d’identifier les contraintes responsables de l’intégrité d’un motif et celles responsables d’interactions avec les éléments qui forment le contexte structural du motif. Les résultats présentés dans cette thèse élargissent considérablement notre compréhension des principes de formation de la structure d’ARN et apportent une nouvelle façon d’identifier et de caractériser de nouveaux motifs structuraux d’ARN.

Dissecting cell cycle protein complexes using the pptimized yeast cytosine deaminase protein-fragment complementation assay “You too can play with an edge”

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les protéines sont les produits finaux de la machinerie génétique. Elles jouent des rôles essentiels dans la définition de la structure, de l'intégrité et de la dynamique de la cellule afin de promouvoir les diverses transformations chimiques requises dans le métabolisme et dans la transmission des signaux biochimique. Nous savons que la doctrine centrale de la biologie moléculaire: un gène = un ARN messager = une protéine, est une simplification grossière du système biologique. En effet, plusieurs ARN messagers peuvent provenir d’un seul gène grâce à l’épissage alternatif. De plus, une protéine peut adopter plusieurs fonctions au courant de sa vie selon son état de modification post-traductionelle, sa conformation et son interaction avec d’autres protéines. La formation de complexes protéiques peut, en elle-même, être déterminée par l’état de modifications des protéines influencées par le contexte génétique, les compartiments subcellulaires, les conditions environmentales ou être intrinsèque à la croissance et la division cellulaire. Les complexes protéiques impliqués dans la régulation du cycle cellulaire sont particulièrement difficiles à disséquer car ils ne se forment qu’au cours de phases spécifiques du cycle cellulaire, ils sont fortement régulés par les modifications post-traductionnelles et peuvent se produire dans tous les compartiments subcellulaires. À ce jour, aucune méthode générale n’a été développée pour permettre une dissection fine de ces complexes macromoléculaires. L'objectif de cette thèse est d'établir et de démontrer une nouvelle stratégie pour disséquer les complexes protéines formés lors du cycle cellulaire de la levure Saccharomyces cerevisiae (S. cerevisiae). Dans cette thèse, je décris le développement et l'optimisation d'une stratégie simple de sélection basée sur un essai de complémentation de fragments protéiques en utilisant la cytosine déaminase de la levure comme sonde (PCA OyCD). En outre, je décris une série d'études de validation du PCA OyCD afin de l’utiliser pour disséquer les mécanismes d'activation des facteurs de transcription et des interactions protéine-protéines (IPPs) entre les régulateurs du cycle cellulaire. Une caractéristique clé du PCA OyCD est qu'il peut être utilisé pour détecter à la fois la formation et la dissociation des IPPs et émettre un signal détectable (la croissance des cellules) pour les deux types de sélections. J'ai appliqué le PCA OyCD pour disséquer les interactions entre SBF et MBF, deux facteurs de transcription clés régulant la transition de la phase G1 à la phase S. SBF et MBF sont deux facteurs de transcription hétérodimériques composés de deux sous-unités : une protéine qui peut lier directement l’ADN (Swi4 ou Mbp1, respectivement) et une protéine commune contenant un domain d’activation de la transcription appelée Swi6. J'ai appliqué le PCA OyCD afin de générer un mutant de Swi6 qui restreint ses activités transcriptionnelles à SBF, abolissant l’activité MBF. Nous avons isolé des souches portant des mutations dans le domaine C-terminal de Swi6, préalablement identifié comme responsable dans la formation de l’interaction avec Swi4 et Mbp1, et également important pour les activités de SBF et MBF. Nos résultats appuient un modèle où Swi6 subit un changement conformationnel lors de la liaison à Swi4 ou Mbp1. De plus, ce mutant de Swi6 a été utilisé pour disséquer le mécanisme de régulation de l’entrée de la cellule dans un nouveau cycle de division cellulaire appelé « START ». Nous avons constaté que le répresseur de SBF et MBF nommé Whi5 se lie directement au domaine C-terminal de Swi6. Finalement, j'ai appliqué le PCA OyCD afin de disséquer les complexes protéiques de la kinase cycline-dépendante de la levure nommé Cdk1. Cdk1 est la kinase essentielle qui régule la progression du cycle cellulaire et peut phosphoryler un grand nombre de substrats différents en s'associant à l'une des neuf protéines cycline régulatrice (Cln1-3, Clb1-6). Je décris une stratégie à haut débit, voir à une échelle génomique, visant à identifier les partenaires d'interaction de Cdk1 et d’y associer la cycline appropriée(s) requise(s) à l’observation d’une interaction en utilisant le PCA OyCD et des souches délétées pour chacune des cyclines. Mes résultats nous permettent d’identifier la phase(s) du cycle cellulaire où Cdk1 peut phosphoryler un substrat particulier et la fonction potentielle ou connue de Cdk1 pendant cette phase. Par exemple, nous avons identifié que l’interaction entre Cdk1 et la γ-tubuline (Tub4) est dépendante de Clb3. Ce résultat est conforme au rôle de Tub4 dans la nucléation et la croissance des faisceaux mitotiques émanant des centromères. Cette stratégie peut également être appliquée à l’étude d'autres IPPs qui sont contrôlées par des sous-unités régulatrices.

Mental illness in modern and contemporary theatre : An analysis of representations of mental illness in a selection of plays, accompanied by a new play about schizophrenia

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Extensive Social Choice and the Measurement of Group Fitness in Biological Hierarchies

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Extensive social choice theory is used to study the problem of measuring group fitness in a two-level biological hierarchy. Both fixed and variable group size are considered. Axioms are identified that imply that the group measure satisfies a form of consequentialism in which group fitness only depends on the viabilities and fecundities of the individuals at the lower level in the hierarchy. This kind of consequentialism can take account of the group fitness advantages of germ-soma specialization, which is not possible with an alternative social choice framework proposed by Okasha, but which is an essential feature of the index of group fitness for a multicellular organism introduced by Michod, Viossat, Solari, Hurand, and Nedelcu to analyze the unicellular-multicellular evolutionary transition. The new framework is also used to analyze the fitness decoupling between levels that takes place during an evolutionary transition.

Improving sampling, optimization and feature extraction in Boltzmann machines

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.

«
1
2
»