33 resultados para Training algorithms
em Université de Montréal, Canada
Resumo:
Les tâches de vision artificielle telles que la reconnaissance d’objets demeurent irrésolues à ce jour. Les algorithmes d’apprentissage tels que les Réseaux de Neurones Artificiels (RNA), représentent une approche prometteuse permettant d’apprendre des caractéristiques utiles pour ces tâches. Ce processus d’optimisation est néanmoins difficile. Les réseaux profonds à base de Machine de Boltzmann Restreintes (RBM) ont récemment été proposés afin de guider l’extraction de représentations intermédiaires, grâce à un algorithme d’apprentissage non-supervisé. Ce mémoire présente, par l’entremise de trois articles, des contributions à ce domaine de recherche. Le premier article traite de la RBM convolutionelle. L’usage de champs réceptifs locaux ainsi que le regroupement d’unités cachées en couches partageant les même paramètres, réduit considérablement le nombre de paramètres à apprendre et engendre des détecteurs de caractéristiques locaux et équivariant aux translations. Ceci mène à des modèles ayant une meilleure vraisemblance, comparativement aux RBMs entraînées sur des segments d’images. Le deuxième article est motivé par des découvertes récentes en neurosciences. Il analyse l’impact d’unités quadratiques sur des tâches de classification visuelles, ainsi que celui d’une nouvelle fonction d’activation. Nous observons que les RNAs à base d’unités quadratiques utilisant la fonction softsign, donnent de meilleures performances de généralisation. Le dernière article quand à lui, offre une vision critique des algorithmes populaires d’entraînement de RBMs. Nous montrons que l’algorithme de Divergence Contrastive (CD) et la CD Persistente ne sont pas robustes : tous deux nécessitent une surface d’énergie relativement plate afin que leur chaîne négative puisse mixer. La PCD à "poids rapides" contourne ce problème en perturbant légèrement le modèle, cependant, ceci génère des échantillons bruités. L’usage de chaînes tempérées dans la phase négative est une façon robuste d’adresser ces problèmes et mène à de meilleurs modèles génératifs.
Resumo:
Cette thèse porte sur une classe d'algorithmes d'apprentissage appelés architectures profondes. Il existe des résultats qui indiquent que les représentations peu profondes et locales ne sont pas suffisantes pour la modélisation des fonctions comportant plusieurs facteurs de variation. Nous sommes particulièrement intéressés par ce genre de données car nous espérons qu'un agent intelligent sera en mesure d'apprendre à les modéliser automatiquement; l'hypothèse est que les architectures profondes sont mieux adaptées pour les modéliser. Les travaux de Hinton (2006) furent une véritable percée, car l'idée d'utiliser un algorithme d'apprentissage non-supervisé, les machines de Boltzmann restreintes, pour l'initialisation des poids d'un réseau de neurones supervisé a été cruciale pour entraîner l'architecture profonde la plus populaire, soit les réseaux de neurones artificiels avec des poids totalement connectés. Cette idée a été reprise et reproduite avec succès dans plusieurs contextes et avec une variété de modèles. Dans le cadre de cette thèse, nous considérons les architectures profondes comme des biais inductifs. Ces biais sont représentés non seulement par les modèles eux-mêmes, mais aussi par les méthodes d'entraînement qui sont souvent utilisés en conjonction avec ceux-ci. Nous désirons définir les raisons pour lesquelles cette classe de fonctions généralise bien, les situations auxquelles ces fonctions pourront être appliquées, ainsi que les descriptions qualitatives de telles fonctions. L'objectif de cette thèse est d'obtenir une meilleure compréhension du succès des architectures profondes. Dans le premier article, nous testons la concordance entre nos intuitions---que les réseaux profonds sont nécessaires pour mieux apprendre avec des données comportant plusieurs facteurs de variation---et les résultats empiriques. Le second article est une étude approfondie de la question: pourquoi l'apprentissage non-supervisé aide à mieux généraliser dans un réseau profond? Nous explorons et évaluons plusieurs hypothèses tentant d'élucider le fonctionnement de ces modèles. Finalement, le troisième article cherche à définir de façon qualitative les fonctions modélisées par un réseau profond. Ces visualisations facilitent l'interprétation des représentations et invariances modélisées par une architecture profonde.
Resumo:
Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.
Resumo:
This article studies mobility patterns of German workers in light of a model of sector-specific human capital. Furthermore, I employ and describe little-used data on continuous on-the-job training occurring after apprenticeships. Results are presented describing the incidence and duration of continuous training. Continuous training is quite common, despite the high incidence of apprenticeships which precedes this part of a worker's career. Most previous studies have only distinguished between firm-specific and general human capital, usually concluding that training was general. Inconsistent with those conclusions, I show that German men are more likely to find a job within the same sector if they have received continuous training in that sector. These results are similar to those obtained for young U.S. workers, and suggest that sector-specific capital is an important feature of very different labor markets. In addition, they suggest that the observed effect of training on mobility is sensible to the state of the business cycle, indicating a more complex interaction between supply and demand that most theoretical models allow for.
Resumo:
Using data from the National Longitudinal Survey of Youth (NLSY), we re-examine the effect of formal on-the-job training on mobility patterns of young American workers. By employing parametric duration models, we evaluate the economic impact of training on productive time with an employer. Confirming previous studies, we find a positive and statistically significant impact of formal on-the-job training on tenure with the employer providing the training. However, the expected net duration of the time spent in the training program is generally not significantly increased. We proceed to document and analyze intra-sectoral and cross-sectoral mobility patterns in order to infer whether training provides firm-specific, industry-specific, or general human capital. The econometric analysis rejects a sequential model of job separation in favor of a competing risks specification. We find significant evidence for the industry-specificity of training. The probability of sectoral mobility upon job separation decreases with training received in the current industry, whether with the last employer or previous employers, and employment attachment increases with on-the-job training. These results are robust to a number of variations on the base model.
Resumo:
Cette thèse envisage un ensemble de méthodes permettant aux algorithmes d'apprentissage statistique de mieux traiter la nature séquentielle des problèmes de gestion de portefeuilles financiers. Nous débutons par une considération du problème général de la composition d'algorithmes d'apprentissage devant gérer des tâches séquentielles, en particulier celui de la mise-à-jour efficace des ensembles d'apprentissage dans un cadre de validation séquentielle. Nous énumérons les desiderata que des primitives de composition doivent satisfaire, et faisons ressortir la difficulté de les atteindre de façon rigoureuse et efficace. Nous poursuivons en présentant un ensemble d'algorithmes qui atteignent ces objectifs et présentons une étude de cas d'un système complexe de prise de décision financière utilisant ces techniques. Nous décrivons ensuite une méthode générale permettant de transformer un problème de décision séquentielle non-Markovien en un problème d'apprentissage supervisé en employant un algorithme de recherche basé sur les K meilleurs chemins. Nous traitons d'une application en gestion de portefeuille où nous entraînons un algorithme d'apprentissage à optimiser directement un ratio de Sharpe (ou autre critère non-additif incorporant une aversion au risque). Nous illustrons l'approche par une étude expérimentale approfondie, proposant une architecture de réseaux de neurones spécialisée à la gestion de portefeuille et la comparant à plusieurs alternatives. Finalement, nous introduisons une représentation fonctionnelle de séries chronologiques permettant à des prévisions d'être effectuées sur un horizon variable, tout en utilisant un ensemble informationnel révélé de manière progressive. L'approche est basée sur l'utilisation des processus Gaussiens, lesquels fournissent une matrice de covariance complète entre tous les points pour lesquels une prévision est demandée. Cette information est utilisée à bon escient par un algorithme qui transige activement des écarts de cours (price spreads) entre des contrats à terme sur commodités. L'approche proposée produit, hors échantillon, un rendement ajusté pour le risque significatif, après frais de transactions, sur un portefeuille de 30 actifs.
Resumo:
L'un des modèles d'apprentissage non-supervisé générant le plus de recherche active est la machine de Boltzmann --- en particulier la machine de Boltzmann restreinte, ou RBM. Un aspect important de l'entraînement ainsi que l'exploitation d'un tel modèle est la prise d'échantillons. Deux développements récents, la divergence contrastive persistante rapide (FPCD) et le herding, visent à améliorer cet aspect, se concentrant principalement sur le processus d'apprentissage en tant que tel. Notamment, le herding renonce à obtenir un estimé précis des paramètres de la RBM, définissant plutôt une distribution par un système dynamique guidé par les exemples d'entraînement. Nous généralisons ces idées afin d'obtenir des algorithmes permettant d'exploiter la distribution de probabilités définie par une RBM pré-entraînée, par tirage d'échantillons qui en sont représentatifs, et ce sans que l'ensemble d'entraînement ne soit nécessaire. Nous présentons trois méthodes: la pénalisation d'échantillon (basée sur une intuition théorique) ainsi que la FPCD et le herding utilisant des statistiques constantes pour la phase positive. Ces méthodes définissent des systèmes dynamiques produisant des échantillons ayant les statistiques voulues et nous les évaluons à l'aide d'une méthode d'estimation de densité non-paramétrique. Nous montrons que ces méthodes mixent substantiellement mieux que la méthode conventionnelle, l'échantillonnage de Gibbs.
Resumo:
Les facteurs de risque des maladies cardiovasculaires, telle, que la détérioration du profil lipidique, deviennent plus prononcés après la ménopause, ce qui fait de la maladie coronarienne, l’une des principales causes de décès chez les femmes ménopausées. Une proportion importante de femmes prennent du poids après la ménopause en particulier dans la région abdominale entraînant par conséquent des perturbations métaboliques. Des données récentes suggèrent également que l’absence des œstrogènes observée à la ménopause favorise le développement de la stéatose hépatique. Cette dernière a été incriminée pour incriminée dans le développement de la résistance à l'insuline, et est de ce fait considérée comme une composante hépatique du syndrome métabolique. Il est impératif d'établir des stratégies visant à contrecarrer l'accumulation de graisse dans le foie et l’accroissement du tissu adipeux chez les femmes ménopausées, en tenant compte que l'utilisation de l'hormonothérapie substitutive est de nos jours moins soutenue. Les quatre études de la présente thèse ont été conduites pour tenter de fournir des informations sur le traitement et la prévention de l’augmentation de la masse graisseuse et de la stéatose hépatique qu’entraîne la suppression des œstrogènes, à travers les modifications du mode de vie (diète et exercice physique) chez la rate ovariectomizée (Ovx); un modèle animal de la ménopause. Dans les deux premières études nous nous sommes concentrés sur l’augmentation de la masse graisseuse et sa reprise suite à une perte de poids. Dans la première étude, nous avons montré que les rates Ovx qui ont suivi un programme de restriction alimentaire (FR) ont diminué significativement (P < 0.01) leur poids corporel, leur contenu en graisses intra-abdominales ainsi que leurs triacylglycérols (TAG) hépatiques, comparativement aux rates Ovx nourries à la diète normale. De plus, l’entraînement en résistance (RT) a prévenu la reprise de poids corporel ainsi que l’accroissement du tissu adipeux et l’accumulation de lipides dans le foie des rates Ovx, après l’arrêt du régime amaigrissant. Les résultats de la deuxième étude ont confirmé l'efficacité de la restriction alimentaire associée à l’entraînement en résistance (FR + RT) dans la réduction du poids corporel, des lipides dans le foie et le tissu adipeux chez les rates Ovx. Tenant compte des résultats de notre première étude, l’entraînement en résistance seulement a constitué un atout pour atténuer le poids corporel et la masse grasse reprise par les rates Ovx suite à un programme de perte de poids (FR + RT); bien que l'impact ait été moindre comparé au maintien seul de la restriction alimentaire. De la même manière que la supplémentation en œstrogènes, les résultats de la troisième étude indiquent que l'entraînement en endurance mené concurremment avec l’ovariectomie a significativement atténué l'accumulation de lipides dans le foie ainsi que dans le tissu adipeux. Toutefois, l’entraînement en endurance effectué avant l'ovariectomie n'a pas protégé contre l'accumulation des graisses qu’entraîne l'ovariectomie, si celui-ci est interrompu après l'ovariectomie. Enfin, pour compléter les résultats antérieurs, nous avons montré dans la quatrième étude que l’expression des gènes impliqués dans la synthèse de lipide; SREBP-1c, SCD-1, ChREBP, et ACC dans le foie a augmenté après le retrait des œstrogènes, tandis qu’une diminution (P < 0.01) des niveaux d'ARNm de PPAR-α a été observée. De plus, l'expression hépatique des gènes des cytokines pro-inflammatoires incluant IKKβ, IL-6 ainsi que le contenu protéinique de NF-кB étaient augmentés (P < 0.01) chez les rates Ovx par rapport aux rates ayant subi une Ovx simulée (Sham). Toutes ces perturbations ont été améliorées avec la supplémentation en œstrogènes seulement, ainsi qu'avec l'entraînement en endurance seulement. Dans l'ensemble, nos résultats indiquent que l'exercice physique (en résistance ou en endurance) a un impact significatif sur la réduction de l'accumulation des lipides dans le foie et dans le tissu adipeux des rates Ovx. De plus, chez les rates Ovx, l’entraînement en endurance mimerait les effets des œstrogènes sur l'expression des gènes impliqués dans l'accumulation de lipides et l’inflammation préclinique dans le foie.
Resumo:
L’accumulation de triglycérides (TG) dans les hépatocytes est caractéristique de la stéatose hépatique non-alcoolique (SHNA). Cette dernière se produit dans diverses conditions dont le facteur commun est le métabolisme anormal des lipides. Le processus conduisant à l'accumulation des lipides dans le foie n’a pas encore été totalement élucidé. Toutefois, des lipides s'accumulent dans le foie lorsque les mécanismes qui favorisent leur exportation (oxydation et sécrétion) sont insuffisants par rapport aux mécanismes qui favorisent leur importation ou leur biosynthèse. De nos jours il est admis que la carence en œstrogènes est associée au développement de la stéatose hépatique. Bien que les résultats des études récentes révèlent l'implication des hormones ovariennes dans l'accumulation de lipides dans le foie, les mécanismes qui sous-tendent ce phénomène doivent encore être étudiés. En conséquence, les trois études présentées dans cette thèse ont été menées sur des rates ovariectomizées (Ovx), comme modèle animal de femmes post-ménopausées, pour étudier les effets du retrait des œstrogènes sur le métabolisme des lipides dans le foie, en considérant l'entraînement physique comme étant un élément positif pouvant contrecarrer ces effets. Il a été démontré que l'entraînement physique peut réduire l'accumulation de graisses dans le foie chez les rates Ovx. Dans la première étude, nous avons montré que chez les rates Ovx nourries à la diète riche en lipides (HF), les contenus de TG hépatiques étaient élevées (P < 0.01) comparativement aux rates Sham, 5 semaines après la chirurgie. Le changement de la diète HF par la diète standard (SD) chez les rates Sham a diminué l’accumulation de lipides dans le foie. Toutefois, chez les rates Ovx, 8 semaines après le changement de la HF par la SD le niveau de TG dans le foie était maintenu aussi élevé que chez les rates nourries continuellement avec la diète HF. Lorsque les TG hépatiques mesurés à la 13e semaine ont été comparés aux valeurs correspondant au retrait initial de la diète HF effectué à la 5e semaine, les niveaux de TG hépatiques chez les animaux Ovx ont été maintenus, indépendamment du changement du régime alimentaire; tandis que chez les rats Sham le passage à la SD a réduit (P < 0.05) les TG dans le foie. Les mêmes comparaisons avec la concentration des TG plasmatiques ont révélé une relation inverse. Ces résultats suggèrent que la résorption des lipides au foie est contrée par l'absence des œstrogènes. Dans cette continuité, nous avons utilisé une approche physiologique dans notre seconde étude pour investiguer la façon dont la carence en œstrogènes entraîne l’accumulation de graisses dans le foie, en nous focalisant sur la voie de l'exportation des lipides du foie. Les résultats de cette étude ont révélé que le retrait des œstrogènes a entraîné une augmentation (P < 0.01) de l’accumulation de lipides dans le foie en concomitance avec la baisse (P < 0.01) de production de VLDL-TG et une réduction l'ARNm et de la teneur en protéines microsomales de transfert des triglycérides (MTP). Tous ces effets ont été corrigés par la supplémentation en œstrogènes chez les rates Ovx. En outre, l'entraînement physique chez les rates Ovx a entraîné une réduction (P < 0.01) de l’accumulation de lipides dans le foie ainsi qu’une diminution (P < 0.01) de production de VLDL-TG accompagnée de celle de l'expression des gènes MTP et DGAT-2 (diacylglycérol acyltransférase-2). Des études récentes suggèrent que le peptide natriurétique auriculaire (ANP) devrait être au centre des intérêts des recherches sur les métabolismes énergétiques et lipidiques. Le ANP est relâché dans le plasma par les cellules cardiaques lorsque stimulée par l’oxytocine et exerce ses fonctions en se liant à son récepteur, le guanylyl cyclase-A (GC-A). En conséquence, dans la troisième étude, nous avons étudié les effets du blocage du système ocytocine-peptide natriurétique auriculaire (OT-ANP) en utilisant un antagoniste de l’ocytocine (OTA), sur l'expression des gènes guanylyl cyclase-A et certains marqueurs de l’inflammation dans le foie de rates Ovx. Nous avons observé une diminution (P < 0.05) de l’ARNm de la GC-A chez les rates Ovx et Sham sédentaires traitées avec l’OTA, tandis qu’une augmentation (P < 0.05) de l'expression de l’ARNm de la protéine C-réactive (CRP) hépatique a été notée chez ces animaux. L’exercice physique n'a apporté aucun changement sur l'expression hépatique de ces gènes que ce soit chez les rates Ovx ou Sham traitées avec l’OTA. En résumé, pour expliquer l’observation selon laquelle l’accumulation et la résorption de lipides dans le foie dépendent des mécanismes associés à des niveaux d’œstrogènes, nos résultats suggèrent que la diminution de production de VLDL-TG induite par une déficience en œstrogènes, pourrait être un des mecanismes responsables de l’accumulation de lipides dans le foie. L’exercice physique quant à lui diminue l'infiltration de lipides dans le foie ainsi que la production de VLDL-TG indépendamment des niveaux d'œstrogènes. En outre, l'expression des récepteurs de l’ANP a diminué par l'OTA chez les rates Ovx et Sham suggérant une action indirecte de l’ocytocine (OT) au niveau du foie indépendamment de la présence ou non des estrogènes. L’axe ocytocine-peptide natriurétique auriculaire, dans des conditions physiologiques normales, protègerait le foie contre l'inflammation à travers la modulation de l’expression de la GC-A.
Resumo:
Dans le domaine des neurosciences computationnelles, l'hypothèse a été émise que le système visuel, depuis la rétine et jusqu'au cortex visuel primaire au moins, ajuste continuellement un modèle probabiliste avec des variables latentes, à son flux de perceptions. Ni le modèle exact, ni la méthode exacte utilisée pour l'ajustement ne sont connus, mais les algorithmes existants qui permettent l'ajustement de tels modèles ont besoin de faire une estimation conditionnelle des variables latentes. Cela nous peut nous aider à comprendre pourquoi le système visuel pourrait ajuster un tel modèle; si le modèle est approprié, ces estimé conditionnels peuvent aussi former une excellente représentation, qui permettent d'analyser le contenu sémantique des images perçues. Le travail présenté ici utilise la performance en classification d'images (discrimination entre des types d'objets communs) comme base pour comparer des modèles du système visuel, et des algorithmes pour ajuster ces modèles (vus comme des densités de probabilité) à des images. Cette thèse (a) montre que des modèles basés sur les cellules complexes de l'aire visuelle V1 généralisent mieux à partir d'exemples d'entraînement étiquetés que les réseaux de neurones conventionnels, dont les unités cachées sont plus semblables aux cellules simples de V1; (b) présente une nouvelle interprétation des modèles du système visuels basés sur des cellules complexes, comme distributions de probabilités, ainsi que de nouveaux algorithmes pour les ajuster à des données; et (c) montre que ces modèles forment des représentations qui sont meilleures pour la classification d'images, après avoir été entraînés comme des modèles de probabilités. Deux innovations techniques additionnelles, qui ont rendu ce travail possible, sont également décrites : un algorithme de recherche aléatoire pour sélectionner des hyper-paramètres, et un compilateur pour des expressions mathématiques matricielles, qui peut optimiser ces expressions pour processeur central (CPU) et graphique (GPU).
Resumo:
Le problème de localisation-routage avec capacités (PLRC) apparaît comme un problème clé dans la conception de réseaux de distribution de marchandises. Il généralisele problème de localisation avec capacités (PLC) ainsi que le problème de tournées de véhicules à multiples dépôts (PTVMD), le premier en ajoutant des décisions liées au routage et le deuxième en ajoutant des décisions liées à la localisation des dépôts. Dans cette thèse on dévelope des outils pour résoudre le PLRC à l’aide de la programmation mathématique. Dans le chapitre 3, on introduit trois nouveaux modèles pour le PLRC basés sur des flots de véhicules et des flots de commodités, et on montre comment ceux-ci dominent, en termes de la qualité de la borne inférieure, la formulation originale à deux indices [19]. Des nouvelles inégalités valides ont été dévelopées et ajoutées aux modèles, de même que des inégalités connues. De nouveaux algorithmes de séparation ont aussi été dévelopés qui dans la plupart de cas généralisent ceux trouvés dans la litterature. Les résultats numériques montrent que ces modèles de flot sont en fait utiles pour résoudre des instances de petite à moyenne taille. Dans le chapitre 4, on présente une nouvelle méthode de génération de colonnes basée sur une formulation de partition d’ensemble. Le sous-problème consiste en un problème de plus court chemin avec capacités (PCCC). En particulier, on utilise une relaxation de ce problème dans laquelle il est possible de produire des routes avec des cycles de longueur trois ou plus. Ceci est complété par des nouvelles coupes qui permettent de réduire encore davantage le saut d’intégralité en même temps que de défavoriser l’apparition de cycles dans les routes. Ces résultats suggèrent que cette méthode fournit la meilleure méthode exacte pour le PLRC. Dans le chapitre 5, on introduit une nouvelle méthode heuristique pour le PLRC. Premièrement, on démarre une méthode randomisée de type GRASP pour trouver un premier ensemble de solutions de bonne qualité. Les solutions de cet ensemble sont alors combinées de façon à les améliorer. Finalement, on démarre une méthode de type détruir et réparer basée sur la résolution d’un nouveau modèle de localisation et réaffectation qui généralise le problème de réaffectaction [48].
Resumo:
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal