999 resultados para les modèles génératifs
Resumo:
Les décisions de localisation sont souvent soumises à des aspects dynamiques comme des changements dans la demande des clients. Pour y répondre, la solution consiste à considérer une flexibilité accrue concernant l’emplacement et la capacité des installations. Même lorsque la demande est prévisible, trouver le planning optimal pour le déploiement et l'ajustement dynamique des capacités reste un défi. Dans cette thèse, nous nous concentrons sur des problèmes de localisation avec périodes multiples, et permettant l'ajustement dynamique des capacités, en particulier ceux avec des structures de coûts complexes. Nous étudions ces problèmes sous différents points de vue de recherche opérationnelle, en présentant et en comparant plusieurs modèles de programmation linéaire en nombres entiers (PLNE), l'évaluation de leur utilisation dans la pratique et en développant des algorithmes de résolution efficaces. Cette thèse est divisée en quatre parties. Tout d’abord, nous présentons le contexte industriel à l’origine de nos travaux: une compagnie forestière qui a besoin de localiser des campements pour accueillir les travailleurs forestiers. Nous présentons un modèle PLNE permettant la construction de nouveaux campements, l’extension, le déplacement et la fermeture temporaire partielle des campements existants. Ce modèle utilise des contraintes de capacité particulières, ainsi qu’une structure de coût à économie d’échelle sur plusieurs niveaux. L'utilité du modèle est évaluée par deux études de cas. La deuxième partie introduit le problème dynamique de localisation avec des capacités modulaires généralisées. Le modèle généralise plusieurs problèmes dynamiques de localisation et fournit de meilleures bornes de la relaxation linéaire que leurs formulations spécialisées. Le modèle peut résoudre des problèmes de localisation où les coûts pour les changements de capacité sont définis pour toutes les paires de niveaux de capacité, comme c'est le cas dans le problème industriel mentionnée ci-dessus. Il est appliqué à trois cas particuliers: l'expansion et la réduction des capacités, la fermeture temporaire des installations, et la combinaison des deux. Nous démontrons des relations de dominance entre notre formulation et les modèles existants pour les cas particuliers. Des expériences de calcul sur un grand nombre d’instances générées aléatoirement jusqu’à 100 installations et 1000 clients, montrent que notre modèle peut obtenir des solutions optimales plus rapidement que les formulations spécialisées existantes. Compte tenu de la complexité des modèles précédents pour les grandes instances, la troisième partie de la thèse propose des heuristiques lagrangiennes. Basées sur les méthodes du sous-gradient et des faisceaux, elles trouvent des solutions de bonne qualité même pour les instances de grande taille comportant jusqu’à 250 installations et 1000 clients. Nous améliorons ensuite la qualité de la solution obtenue en résolvent un modèle PLNE restreint qui tire parti des informations recueillies lors de la résolution du dual lagrangien. Les résultats des calculs montrent que les heuristiques donnent rapidement des solutions de bonne qualité, même pour les instances où les solveurs génériques ne trouvent pas de solutions réalisables. Finalement, nous adaptons les heuristiques précédentes pour résoudre le problème industriel. Deux relaxations différentes sont proposées et comparées. Des extensions des concepts précédents sont présentées afin d'assurer une résolution fiable en un temps raisonnable.
Resumo:
L'apprentissage profond est un domaine de recherche en forte croissance en apprentissage automatique qui est parvenu à des résultats impressionnants dans différentes tâches allant de la classification d'images à la parole, en passant par la modélisation du langage. Les réseaux de neurones récurrents, une sous-classe d'architecture profonde, s'avèrent particulièrement prometteurs. Les réseaux récurrents peuvent capter la structure temporelle dans les données. Ils ont potentiellement la capacité d'apprendre des corrélations entre des événements éloignés dans le temps et d'emmagasiner indéfiniment des informations dans leur mémoire interne. Dans ce travail, nous tentons d'abord de comprendre pourquoi la profondeur est utile. Similairement à d'autres travaux de la littérature, nos résultats démontrent que les modèles profonds peuvent être plus efficaces pour représenter certaines familles de fonctions comparativement aux modèles peu profonds. Contrairement à ces travaux, nous effectuons notre analyse théorique sur des réseaux profonds acycliques munis de fonctions d'activation linéaires par parties, puisque ce type de modèle est actuellement l'état de l'art dans différentes tâches de classification. La deuxième partie de cette thèse porte sur le processus d'apprentissage. Nous analysons quelques techniques d'optimisation proposées récemment, telles l'optimisation Hessian free, la descente de gradient naturel et la descente des sous-espaces de Krylov. Nous proposons le cadre théorique des méthodes à région de confiance généralisées et nous montrons que plusieurs de ces algorithmes développés récemment peuvent être vus dans cette perspective. Nous argumentons que certains membres de cette famille d'approches peuvent être mieux adaptés que d'autres à l'optimisation non convexe. La dernière partie de ce document se concentre sur les réseaux de neurones récurrents. Nous étudions d'abord le concept de mémoire et tentons de répondre aux questions suivantes: Les réseaux récurrents peuvent-ils démontrer une mémoire sans limite? Ce comportement peut-il être appris? Nous montrons que cela est possible si des indices sont fournis durant l'apprentissage. Ensuite, nous explorons deux problèmes spécifiques à l'entraînement des réseaux récurrents, à savoir la dissipation et l'explosion du gradient. Notre analyse se termine par une solution au problème d'explosion du gradient qui implique de borner la norme du gradient. Nous proposons également un terme de régularisation conçu spécifiquement pour réduire le problème de dissipation du gradient. Sur un ensemble de données synthétique, nous montrons empiriquement que ces mécanismes peuvent permettre aux réseaux récurrents d'apprendre de façon autonome à mémoriser des informations pour une période de temps indéfinie. Finalement, nous explorons la notion de profondeur dans les réseaux de neurones récurrents. Comparativement aux réseaux acycliques, la définition de profondeur dans les réseaux récurrents est souvent ambiguë. Nous proposons différentes façons d'ajouter de la profondeur dans les réseaux récurrents et nous évaluons empiriquement ces propositions.
Resumo:
La leucémie aiguë lymphoblastique (LAL) est le cancer pédiatrique le plus fréquent. Elle est la cause principale de mortalité liée au cancer chez les enfants due à un groupe de patient ne répondant pas au traitement. Les patients peuvent aussi souffrir de plusieurs toxicités associées à un traitement intensif de chimiothérapie. Les études en pharmacogénétique de notre groupe ont montré une corrélation tant individuelle que combinée entre les variants génétiques particuliers d’enzymes dépendantes du folate, particulièrement la dihydrofolate réductase (DHFR) ainsi que la thymidylate synthase (TS), principales cibles du méthotrexate (MTX) et le risque élevé de rechute chez les patients atteints de la LAL. En outre, des variations dans le gène ATF5 impliqué dans la régulation de l’asparagine synthetase (ASNS) sont associées à un risque plus élevé de rechute ou à une toxicité ASNase dépendante chez les patients ayant reçu de l’asparaginase d’E.coli (ASNase). Le but principal de mon projet de thèse est de comprendre davantage d’un point de vue fonctionnel, le rôle de variations génétiques dans la réponse thérapeutique chez les patients atteints de la LAL, en se concentrant sur deux composants majeurs du traitement de la LAL soit le MTX ainsi que l’ASNase. Mon objectif spécifique était d’analyser une association trouvée dans des paramètres cliniques par le biais d’essais de prolifération cellulaire de lignées cellulaires lymphoblastoïdes (LCLs, n=93) et d’un modèle murin de xénogreffe de la LAL. Une variation génétique dans le polymorphisme TS (homozygosité de l’allèle de la répétition triple 3R) ainsi que l’haplotype *1b de DHFR (défini par une combinaison particulière d’allèle dérivé de six sites polymorphiques dans le promoteur majeur et mineur de DHFR) et de leurs effets sur la sensibilité au MTX ont été évalués par le biais d’essais de prolifération cellulaire. Des essais in vitro similaires sur la réponse à l’ASNase de E. Coli ont permis d’évaluer l’effet de la variation T1562C de la région 5’UTR de ATF5 ainsi que des haplotypes particuliers du gène ASNS (définis par deux variations génétiques et arbitrairement appelés haplotype *1). Le modèle murin de xénogreffe ont été utilisé pour évaluer l’effet du génotype 3R3R du gène TS. L’analyse de polymorphismes additionnels dans le gène ASNS a révélé une diversification de l’haplotype *1 en 5 sous-types définis par deux polymorphismes (rs10486009 et rs6971012,) et corrélé avec la sensibilité in vitro à l’ASNase et l’un d’eux (rs10486009) semble particulièrement important dans la réduction de la sensibilité in vitro à l’ASNase, pouvant expliquer une sensibilité réduite de l’haplotype *1 dans des paramètres cliniques. Aucune association entre ATF5 T1562C et des essais de prolifération cellulaire en réponse à ASNase de E.Coli n’a été détectée. Nous n’avons pas détecté une association liée au génotype lors d’analyse in vitro de sensibilité au MTX. Par contre, des résultats in vivo issus de modèle murin de xénogreffe ont montré une relation entre le génotype TS 3R/3R et la résistance de manière dose-dépendante au traitement par MTX. Les résultats obtenus ont permis de fournir une explication concernant un haut risque significatif de rechute rencontré chez les patients au génotype TS 3R/3R et suggèrent que ces patients pourraient recevoir une augmentation de leur dose de MTX. À travers ces expériences, nous avons aussi démontré que les modèles murins de xénogreffe peuvent servir comme outil préclinique afin d’explorer l’option d’un traitement individualisé. En conclusion, la connaissance acquise à travers mon projet de thèse a permis de confirmer et/ou d’identifier quelques variants dans la voix d’action du MTX et de l’ASNase qui pourraient faciliter la mise en place de stratégies d’individualisation de la dose, permettant la sélection d’un traitement optimum ou moduler la thérapie basé sur la génétique individuelle.
Resumo:
La perception visuelle ne se résume pas à la simple perception des variations de la quantité de lumière qui atteint la rétine. L’image naturelle est en effet composée de variation de contraste et de texture que l’on qualifie d’information de deuxième ordre (en opposition à l’information de premier ordre : luminance). Il a été démontré chez plusieurs espèces qu’un mouvement de deuxième ordre (variation spatiotemporelle du contraste ou de la texture) est aisément détecté. Les modèles de détection du mouvement tel le modèle d’énergie d’Adelson et Bergen ne permettent pas d’expliquer ces résultats, car le mouvement de deuxième ordre n’implique aucune variation de la luminance. Il existe trois modèles expliquant la détection du mouvement de deuxième ordre : la présence d’une circuiterie de type filter-rectify-filter, un mécanisme de feature-tracking ou simplement l’existence de non-linéarités précoces dans le traitement visuel. Par ailleurs, il a été proposé que l’information visuelle de deuxième ordre soit traitée par une circuiterie neuronale distincte de celle qui traite du premier ordre. Bon nombre d’études réfutent cependant cette théorie et s’entendent sur le fait qu’il n’y aurait qu’une séparation partielle à bas niveau. Les études électrophysiologiques sur la perception du mouvement de deuxième ordre ont principalement été effectuées chez le singe et le chat. Chez le chat, toutefois, seules les aires visuelles primaires (17 et 18) ont été extensivement étudiées. L’implication dans le traitement du deuxième ordre de l’aire dédiée à la perception du mouvement, le Sulcus syprasylvien postéro-médian latéral (PMLS), n’est pas encore connue. Pour ce faire, nous avons étudié les profils de réponse des neurones du PMLS évoqués par des stimuli dont la composante dynamique était de deuxième ordre. Les profils de réponses au mouvement de deuxième ordre sont très similaires au premier ordre, bien que moins sensibles. Nos données suggèrent que la perception du mouvement par le PMLS serait de type form-cue invariant. En somme, les résultats démontrent que le PMLS permet un traitement plus complexe du mouvement du deuxième ordre et sont en accord avec son rôle privilégié dans la perception du mouvement.
Resumo:
Dans cette thèse, je me suis intéressé aux effets des fluctuations du prix de pétrole sur l'activité macroéconomique selon la cause sous-jacente ces fluctuations. Les modèles économiques utilisés dans cette thèse sont principalement les modèles d'équilibre général dynamique stochastique (de l'anglais Dynamic Stochastic General Equilibrium, DSGE) et les modèles Vecteurs Autorégressifs, VAR. Plusieurs études ont examiné les effets des fluctuations du prix de pétrole sur les principaux variables macroéconomiques, mais très peu d'entre elles ont fait spécifiquement le lien entre les effets des fluctuations du prix du pétrole et la l'origine de ces fluctuations. Pourtant, il est largement admis dans les études plus récentes que les augmentations du prix du pétrole peuvent avoir des effets très différents en fonction de la cause sous-jacente de cette augmentation. Ma thèse, structurée en trois chapitres, porte une attention particulière aux sources de fluctuations du prix de pétrole et leurs impacts sur l'activité macroéconomique en général, et en particulier sur l'économie du Canada. Le premier chapitre examine comment les chocs d'offre de pétrole, de demande agrégée, et de demande de précaution de pétrole affectent l'économie du Canada, dans un Modèle d'équilibre Général Dynamique Stochastique estimé. L'estimation est réalisée par la méthode Bayésienne, en utilisant des données trimestrielles canadiennes sur la période 1983Q1 à 2010Q4. Les résultats montrent que les effets dynamiques des fluctuations du prix du pétrole sur les principaux agrégats macro-économiques canadiens varient en fonction de leurs sources. En particulier, une augmentation de 10% du prix réel du pétrole causée par des chocs positifs sur la demande globale étrangère a un effet positif significatif de l'ordre de 0,4% sur le PIB réel du Canada au moment de l'impact et l'effet reste positif sur tous les horizons. En revanche, une augmentation du prix réel du pétrole causée par des chocs négatifs sur l'offre de pétrole ou par des chocs positifs de la demande de pétrole de précaution a un effet négligeable sur le PIB réel du Canada au moment de l'impact, mais provoque une baisse légèrement significative après l'impact. En outre, parmi les chocs pétroliers identifiés, les chocs sur la demande globale étrangère ont été relativement plus important pour expliquer la fluctuation des principaux agrégats macroéconomiques du Canada au cours de la période d'estimation. Le deuxième chapitre utilise un modèle Structurel VAR en Panel pour examiner les liens entre les chocs de demande et d'offre de pétrole et les ajustements de la demande de travail et des salaires dans les industries manufacturières au Canada. Le modèle est estimé sur des données annuelles désagrégées au niveau industriel sur la période de 1975 à 2008. Les principaux résultats suggèrent qu'un choc positif de demande globale a un effet positif sur la demande de travail et les salaires, à court terme et à long terme. Un choc négatif sur l'offre de pétrole a un effet négatif relativement faible au moment de l'impact, mais l'effet devient positif après la première année. En revanche, un choc positif sur la demande précaution de pétrole a un impact négatif à tous les horizons. Les estimations industrie-par-industrie confirment les précédents résultats en panel. En outre, le papier examine comment les effets des différents chocs pétroliers sur la demande travail et les salaires varient en fonction du degré d'exposition commerciale et de l'intensité en énergie dans la production. Il ressort que les industries fortement exposées au commerce international et les industries fortement intensives en énergie sont plus vulnérables aux fluctuations du prix du pétrole causées par des chocs d'offre de pétrole ou des chocs de demande globale. Le dernier chapitre examine les implications en terme de bien-être social de l'introduction des inventaires en pétrole sur le marché mondial à l'aide d'un modèle DSGE de trois pays dont deux pays importateurs de pétrole et un pays exportateur de pétrole. Les gains de bien-être sont mesurés par la variation compensatoire de la consommation sous deux règles de politique monétaire. Les principaux résultats montrent que l'introduction des inventaires en pétrole a des effets négatifs sur le bien-être des consommateurs dans chacun des deux pays importateurs de pétrole, alors qu'il a des effets positifs sur le bien-être des consommateurs dans le pays exportateur de pétrole, quelle que soit la règle de politique monétaire. Par ailleurs, l'inclusion de la dépréciation du taux de change dans les règles de politique monétaire permet de réduire les coûts sociaux pour les pays importateurs de pétrole. Enfin, l'ampleur des effets de bien-être dépend du niveau d'inventaire en pétrole à l'état stationnaire et est principalement expliquée par les chocs sur les inventaires en pétrole.
Resumo:
La division cellulaire asymétrique (DCA) consiste en une division pendant laquelle des déterminants cellulaires sont distribués préférentiellement dans une des deux cellules filles. Par l’action de ces déterminants, la DCA générera donc deux cellules filles différentes. Ainsi, la DCA est importante pour générer la diversité cellulaire et pour maintenir l’homéostasie de certaines cellules souches. Pour induire une répartition asymétrique des déterminants cellulaires, le positionnement du fuseau mitotique doit être très bien contrôlé. Fréquemment ceci génère deux cellules filles de tailles différentes, car le fuseau mitotique n’est pas centré pendant la mitose, ce qui induit un positionnement asymétrique du sillon de clivage. Bien qu’un complexe impliquant des GTPases hétérotrimériques et des protéines liant les microtubules au cortex ait été impliqué directement dans le positionnement du fuseau mitotique, le mécanisme exact induisant le positionnement asymétrique du fuseau durant la DCA n'est pas encore compris. Des études récentes suggèrent qu’une régulation asymétrique du cytosquelette d’actine pourrait être responsable de ce positionnement asymétrique du faisceau mitotique. Donc, nous émettons l'hypothèse que des contractions asymétriques d’actine pendant la division cellulaire pourraient déplacer le fuseau mitotique et le sillon de clivage pour créer une asymétrie cellulaire. Nos résultats préliminaires ont démontré que le blebbing cortical, qui est une indication de tension corticale et de contraction, se produit préférentiellement dans la moitié antérieure de cellule précurseur d’organes sensoriels (SOP) pendant le stage de télophase. Nos données soutiennent l'idée que les petites GTPases de la famille Rho pourraient être impliqués dans la régulation du fuseau mitotique et ainsi contrôler la DCA des SOP. Les paramètres expérimentaux développés pour cette thèse, pour étudier la régulation de l’orientation et le positionnement du fuseau mitotique, ouvrirons de nouvelles avenues pour contrôler ce processus, ce qui pourrait être utile pour freiner la progression de cellules cancéreuses. Les résultats préliminaires de ce projet proposeront une manière dont les petites GTPases de la famille Rho peuvent être impliqués dans le contrôle de la division cellulaire asymétrique in vivo dans les SOP. Les modèles théoriques qui sont expliqués dans cette étude pourront servir à améliorer les méthodes quantitatives de biologie cellulaire de la DCA.
Resumo:
L’évaluation de l’exposition aux composés organiques volatils (COV) recourt couramment à l’analyse des métabolites urinaires en assumant qu’aucune interaction ne survient entre les composés. Or, des études antérieures ont démontré qu’une inhibition de type compétitive survient entre le toluène (TOL), l’éthylbenzène (EBZ) et le m-xylène (XYL). Le chloroforme, qui est également un solvant métabolisé par le CYP2E1, se retrouve souvent en présence des autres COV dans les échantillons de biosurveillance. La présente étude visait donc à évaluer si le chloroforme (CHL) peut lui aussi interagir avec ces COV et évaluer ces interactions au niveau de l’excrétion des biomarqueurs urinaires associés, soit l’o-crésol, l’acide mandélique et l’acide m-méthylhippurique pour TOL, EBZ et XYL respectivement. Afin d’obtenir des données humaines, cinq volontaires ont été exposés par inhalation à différentes combinaisons de COV (seuls et mélanges binaires ou quaternaires) où la concentration de chacun des composés était égale à 1/4 ou 1/8 de la valeur limite d’exposition (VLE) pour une durée de 6h. Des échantillons d’air exhalé, de sang et d’urine ont été récoltés. Ces données ont ensuite été comparées aux modèles pharmacocinétiques à base physiologique (PCBP) existants afin de les ajuster pour l’excrétion urinaire. Certaines différences ont été observées entre les expositions aux solvants seuls et les coexpositions, mais celles-ci semblent majoritairement attribuables aux remplacements de participants à travers les différentes expositions. Les valeurs de Vmax pour EBZ et CHL ont été optimisées afin de mieux prédire les niveaux sanguins de ces COV. À l’exception du modèle pour EBZ, tous les paramètres pour l’excrétion urinaire ont été obtenus à partir de la littérature. Les modèles adaptés dans cette étude ont permis de simuler adéquatement les données expérimentales.
Resumo:
Ce mémoire présente une analyse des représentations de dix-sept enseignants quant à l’intégration linguistique, socioscolaire, scolaire et sociale d’élèves allophones immigrants dans trois écoles secondaires pluriethniques de la région de Montréal. Cette étude a eu lieu dans le cadre d’un projet visant à décrire les modèles de services destinés aux élèves allophones immigrants à travers les perceptions d’acteurs scolaires québécois (De Koninck, Z. et F. Armand, 2012). Les représentations de huit enseignants de classes d’accueil et celles de neuf enseignants de classes ordinaires ont été dégagées à partir d’une analyse thématique de leur discours recueilli au moyen de six entrevues de groupe. Le questionnaire d’entrevue a mené les enseignants à dresser des bilans de l’intégration d’élèves allophones immigrants et à porter un regard sur leurs rôles. L’interprétation des résultats a permis de situer les représentations de l’intégration des enseignants sur un continuum d’acculturation. Les résultats révèlent que les enseignants de classes d’accueil ont généralement mis l’accent sur le bien-être affectif de leurs élèves et sur l’enseignement du français langue seconde, alors que les enseignants de classes ordinaires ont souvent rapporté traiter tous leurs élèves de manière égale. Par contre, des préoccupations en lien avec la place de la langue française au Québec ont mené plusieurs enseignants à justifier des dynamiques de ségrégation et à se représenter la langue maternelle et le milieu familial des élèves allophones immigrants comme des obstacles à l’intégration. Lorsqu’on les situe sur un continuum d’acculturation, les représentations de l’intégration de certains enseignants tendent vers le modèle interculturel, alors que celles d’autres enseignants se rapprochent de l’assimilation.
Resumo:
La présente thèse de doctorat porte sur la relation entre la perception de la justice organisationnelle, l’émission de comportements inadaptés au travail et la santé psychologique des individus au travail. En plus de développer un outil de mesure des comportements inadaptés au travail et d’entreprendre un processus de validation de celui-ci, le présent travail propose que les comportements inadaptés au travail puissent occuper un rôle soit protecteur ou explicatif dans la relation qui unit la perception de la justice organisationnelle avec la santé psychologique des individus au travail. Au sein de cette thèse, le premier article recense la documentation scientifique quant aux variables de la perception de la justice organisationnelle, de l’émission des comportements inadaptés au travail et de la santé psychologique des individus au travail, ainsi que les liens qui unissent ces variables. Aussi, les modèles conceptuels des rôles modérateur et médiateur des comportements inadaptés au travail sont proposés au sein de la relation entre la perception de la justice organisationnelle et la santé psychologique des individus au travail. Le deuxième article a pour objectif de développer un outil de mesure des comportements inadaptés au travail et de tester ses propriétés psychométriques. Ainsi, des analyses statistiques exploratoires et confirmatoires ont été effectuées. Afin d’appuyer la valeur critériée de l’outil proposé, une analyse corrélationnelle a été réalisée avec le critère de l’adaptation. Certaines valeurs psychométriques de l’outil sont validées par les résultats obtenus. Le troisième article examine empiriquement les modèles conceptuels des rôles anticipés des comportements inadaptés au travail dans la relation entre la perception de la justice organisationnelle et la santé psychologique des individus au travail. La perception de la justice organisationnelle a été vue sous les composantes distributive, procédurale, informationnelle et interpersonnelle. De son côté, la santé psychologique des individus a été observée par le biais des éléments du bien-être et de la détresse psychologique au travail. Les différentes analyses de régressions multiples hiérarchiques ont permis d’observer l’absence du rôle modérateur des comportements inadaptés au travail. Pour sa part, l’utilisation du test de Sobel a démontré la présence du rôle médiateur des comportements inadaptés au travail dans certaines relations. Plus exactement, celles-ci sont la relation entre la justice interpersonnelle et le bien-être psychologique au travail, la relation entre la justice interpersonnelle et la détresse psychologique au travail, ainsi que la relation entre la justice distributive et la détresse psychologique au travail. Finalement, la conclusion de la thèse présente une synthèse des résultats et expose les limites et pistes de recherches futures.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
Au cours des 30 dernières années, l’embonpoint et l’obésité infantile sont devenus de véritables défis pour la santé publique. Bien que l’obésité soit, à la base, un problème physiologique (i.e. balance calorique positive) une série de facteurs psychosociaux sont reliés à son développement. Dans cette thèse, nous avons étudié le rôle des facteurs périnataux et de la petite enfance dans le développement du surpoids, ainsi que la relation entre le surpoids et les troubles internalisés au cours de l’enfance et au début de l’adolescence. Nous avions trois objectifs généraux: 1) Modéliser le développement de l’indice de masse corporelle (IMC) ou du statut pondéral (le fait d’être en surpoids ou non) durant l’enfance, ainsi qu’estimer l’hétérogénéité dans la population au cours du temps (i.e. identification de trajectoires développementales de l’IMC). 2) Identifier les facteurs périnataux et de la petite enfance pouvant accroitre le risque qu’un enfant suive une trajectoire menant au surpoids adolescente. 3) Tester la possibilité que le surpoids durant l’enfance soit associé avec des problèmes de santé mentale internalisés à l’adolescence, et vérifier la possibilité qu’une telle association soit médiatisée par l’expérience de victimisation par les pairs et l’insatisfaction corporelle. Ce travail est mené dans une perspective de développement au cours de la vie (life span perspective), considérant l’accumulation des facteurs de risques au cours du temps ainsi que les facteurs qui se manifestent durant certaines périodes critiques de développement.1,2 Nous avons utilisé les données provenant de l’Étude Longitudinale du Développement des Enfants du Québec (ELDEQ), une cohorte de naissances de la province de Québec, Canada. L’échantillon initial était composé de 2120 familles avec un bébé de 5 mois nés au Québec en 1997. Ces familles ont été suivies annuellement ou à tous les deux ans jusqu’à ce que les enfants atteignent l’âge de 13 ans. En ce qui concerne le premier objectif de recherche, nous avons utilisé la méthode des trajectoires développementales fondée sur des groupes pour modéliser l’IMC en continu et en catégories (surpoids vs poids normal). Pour notre deuxième objectif, nous avons effectué des modèles de régression multinomiale afin d’identifier les facteurs périnataux et de la petite enfance associés aux différents groupes développementaux du statut pondéral. Les facteurs de risques putatifs ont été choisis parmi les facteurs identifiés dans la littérature et représentent l’environnement périnatal, les caractéristiques de l’enfant, ainsi que l’environnement familial. Ces facteurs ont été analysés longitudinalement dans la mesure du possible, et les facteurs pouvant servir de levier potentiel d’intervention, tels que l’usage de tabac chez la mère durant la grossesse, le sommeil de l’enfant ou le temps d’écoute de télévision, ont été sélectionnés pour l’analyse. Pour notre troisième objectif, nous avons examiné les associations longitudinales (de 6 à 12 ans) entre les scores-z d’IMC (selon la référence CDC 2000) et les problèmes internalisés avec les modèles d’équations structurales de type « cross-lagged ». Nous avons ensuite examiné comment la victimisation par les pairs et l’insatisfaction corporelle durant l’enfance peuvent médiatiser un lien potentiel entre le surpoids et les troubles internalisés au début de l’adolescence. Les contributions scientifiques de la présente thèse incluent l’identification de trajectoires distinctes du statut pondérale durant l’enfance (précoce, tardive, jamais en surpoids), ainsi que les facteurs de risques précoces et les profils de santé mentale pouvant différer selon la trajectoire d’un enfant. De plus, nous avons identifié des mécanismes importants qui expliquent une partie de l’association entre les trajectoires de surpoids et les troubles internalisés: la victimisation par les pairs et l’insatisfaction corporelle.
Resumo:
La polykystose rénale autosomique dominante (ADPKD) est une des maladies génétiques les plus communes. ADPKD se manifeste le plus souvent au stade adulte par la présence de kystes rénaux, et bien souvent de kystes hépatiques, avec une progression très variable. ADPKD mène à une insuffisance rénale: les seuls recours sont la dialyse puis la transplantation rénale. Les mutations dispersées sur les gènes PKD1 (majoritairement; la protéine polycystine-1, PC1) et PKD2 (la protéine polycystine-2, PC2) sont responsables de l’ADPKD. Le mécanisme pathogénétique de perte de fonction (LOF) et donc d’un effet récessif cellulaire est évoqué comme causatif de l’ADPKD. LOF est en effet supporté par les modèles murins d’inactivation de gènes PKD1/PKD2, qui développent de kystes, quoique in utéro et avec une rapidité impressionnante dans les reins mais pas dans le foie. Malgré de nombreuses études in vitro, le rôle de PC1/PC2 membranaire/ciliaire reste plutôt hypothétique et contexte-dépendant. Ces études ont associé PC1/PC2 à une panoplie de voies de signalisation et ont souligné une complexité structurelle et fonctionnelle exceptionnelle, dont l’implication a été testée notamment chez les modèles de LOF. Toutefois, les observations patho-cellulaires chez l’humain dont une expression soutenue, voire augmentée, de PKD1/PC1 et l’absence de phénotypes extrarénaux particuliers remet en question l’exclusivité du mécanisme de LOF. Il était donc primordial 1) d’éclaircir le mécanisme pathogénétique, 2) de générer des outils in vivo authentiques d’ADPKD en terme d’initiation et de progression de la maladie et 3) de mieux connaitre les fonctions des PC1/PC2 indispensables pour une translation clinique adéquate. Cette thèse aborde tous ces points. Tout d’abord, nous avons démontré qu’une augmentation de PKD1 endogène sauvage, tout comme chez l’humain, est pathogénétique en générant et caractérisant en détail un modèle murin transgénique de Pkd1 (Pkd1TAG). Ce modèle reproduit non seulement les caractéristiques humaines rénales, associées aux défauts du cil primaire, mais aussi extrarénales comme les kystes hépatiques. La sévérité du phénotype corrèle avec le niveau d’expression de Pkd1 ce qui supporte fortement un modèle de dosage. Dans un deuxième temps, nous avons démontré par les études de complémentations génétiques que ces deux organes reposent sur une balance du clivage GPS de Pc1, une modification post-traductionelle typique des aGPCR, et dont l’activité et l’abondance semblent strictement contrôlées. De plus, nous avons caractérisé extensivement la biogénèse de Pc1 et de ses dérivés in vivo générés suite au clivage GPS. Nous avons identifié une toute nouvelle forme et prédominante à la membrane, la forme Pc1deN, en plus de confirmer deux fragments N- et C-terminal de Pc1 (NTF et CTF, respectivement) qui eux s’associent de manière non-covalente. Nous avons démontré de façon importante que le trafic de Pc1deN i.e., une forme NTF détachée du CTF, est toutefois dépendant de l’intégrité du fragment CTF in vivo. Par la suite, nous avons généré un premier modèle humanisant une mutation PKD1 non-sens tronquée au niveau du domaine NTF(E3043X) en la reproduisant chez une souris transgénique (Pkd1extra). Structurellement, cette mutation, qui mimique la forme Pc1deN, s’est également avérée causative de PKD. Le modèle Pkd1extra a permis entre autre de postuler l’existence d’une cross-interaction entre différentes formes de Pc1. De plus, nos deux modèles murins sont tous les deux associés à des niveaux altérés de c-Myc et Pc2, et soutiennent une implication réelle de ces derniers dans l’ADPKD tou comme une interaction fonctionnelle entre les polycystines. Finalement, nous avons démontré un chevauchement significatif entre l’ADPKD et le dommage rénal aigüe (ischémie/AKI) dont une expression augmentée de Pc1 et Pc2 mais aussi une stimulation de plusieurs facteurs cystogéniques tel que la tubérine, la β-caténine et l’oncogène c-Myc. Nos études ont donc apporté des évidences cruciales sur la contribution du gène dosage dans l’ADPKD. Nous avons développé deux modèles murins qui serviront d’outil pour l’analyse de la pathologie humaine ainsi que pour la validation préclinique ADPKD. L’identification d’une nouvelle forme de Pc1 ajoute un niveau de complexité supplémentaire expliquant en partie une capacité de régulation de plusieurs voies de signalisation par Pc1. Nos résultats nous amènent à proposer de nouvelles approches thérapeutiques: d’une part, le ciblage de CTF i.e., de style chaperonne, et d’autre part le ciblage de modulateurs intracellulaires (c-Myc, Pc2, Hif1α). Ensemble, nos travaux sont d’une importance primordiale du point de vue informatif et pratique pour un avancement vers une thérapie contre l’ADPKD. Le partage de voies communes entre AKI et ADPKD ouvre la voie aux approches thérapeutiques parallèles pour un traitement assurément beaucoup plus rapide.
Resumo:
L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué. On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution générale du problème d'intelligence artificielle, en particulier en ce qui a trait à la nécessité d'efficience. La vision du calcul conditionnel distribué consiste à accélérer l'évaluation et l'entraînement de modèles profonds, ce qui est très différent de l'objectif usuel d'améliorer sa capacité de généralisation et d'optimisation. Le travail présenté ici a des liens étroits avec les modèles de type mélange d'experts. Dans le chapitre 2, nous présentons un nouvel algorithme d'apprentissage profond qui utilise une forme simple d'apprentissage par renforcement sur un modèle d'arbre de décisions à base de réseau de neurones. Nous démontrons la nécessité d'une contrainte d'équilibre pour maintenir la distribution d'exemples aux experts uniforme et empêcher les monopoles. Pour rendre le calcul efficient, l'entrainement et l'évaluation sont contraints à être éparse en utilisant un routeur échantillonnant des experts d'une distribution multinomiale étant donné un exemple. Dans le chapitre 3, nous présentons un nouveau modèle profond constitué d'une représentation éparse divisée en segments d'experts. Un modèle de langue à base de réseau de neurones est construit à partir des transformations éparses entre ces segments. L'opération éparse par bloc est implémentée pour utilisation sur des cartes graphiques. Sa vitesse est comparée à deux opérations denses du même calibre pour démontrer le gain réel de calcul qui peut être obtenu. Un modèle profond utilisant des opérations éparses contrôlées par un routeur distinct des experts est entraîné sur un ensemble de données d'un milliard de mots. Un nouvel algorithme de partitionnement de données est appliqué sur un ensemble de mots pour hiérarchiser la couche de sortie d'un modèle de langage, la rendant ainsi beaucoup plus efficiente. Le travail présenté dans cette thèse est au centre de la vision de calcul conditionnel distribué émis par Yoshua Bengio. Elle tente d'appliquer la recherche dans le domaine des mélanges d'experts aux modèles profonds pour améliorer leur vitesse ainsi que leur capacité d'optimisation. Nous croyons que la théorie et les expériences de cette thèse sont une étape importante sur la voie du calcul conditionnel distribué car elle cadre bien le problème, surtout en ce qui concerne la compétitivité des systèmes d'experts.
Resumo:
Les questions abordées dans les deux premiers articles de ma thèse cherchent à comprendre les facteurs économiques qui affectent la structure à terme des taux d'intérêt et la prime de risque. Je construis des modèles non linéaires d'équilibre général en y intégrant des obligations de différentes échéances. Spécifiquement, le premier article a pour objectif de comprendre la relation entre les facteurs macroéconomiques et le niveau de prime de risque dans un cadre Néo-keynésien d'équilibre général avec incertitude. L'incertitude dans le modèle provient de trois sources : les chocs de productivité, les chocs monétaires et les chocs de préférences. Le modèle comporte deux types de rigidités réelles à savoir la formation des habitudes dans les préférences et les coûts d'ajustement du stock de capital. Le modèle est résolu par la méthode des perturbations à l'ordre deux et calibré à l'économie américaine. Puisque la prime de risque est par nature une compensation pour le risque, l'approximation d'ordre deux implique que la prime de risque est une combinaison linéaire des volatilités des trois chocs. Les résultats montrent qu'avec les paramètres calibrés, les chocs réels (productivité et préférences) jouent un rôle plus important dans la détermination du niveau de la prime de risque relativement aux chocs monétaires. Je montre que contrairement aux travaux précédents (dans lesquels le capital de production est fixe), l'effet du paramètre de la formation des habitudes sur la prime de risque dépend du degré des coûts d'ajustement du capital. Lorsque les coûts d'ajustement du capital sont élevés au point que le stock de capital est fixe à l'équilibre, une augmentation du paramètre de formation des habitudes entraine une augmentation de la prime de risque. Par contre, lorsque les agents peuvent librement ajuster le stock de capital sans coûts, l'effet du paramètre de la formation des habitudes sur la prime de risque est négligeable. Ce résultat s'explique par le fait que lorsque le stock de capital peut être ajusté sans coûts, cela ouvre un canal additionnel de lissage de consommation pour les agents. Par conséquent, l'effet de la formation des habitudes sur la prime de risque est amoindri. En outre, les résultats montrent que la façon dont la banque centrale conduit sa politique monétaire a un effet sur la prime de risque. Plus la banque centrale est agressive vis-à-vis de l'inflation, plus la prime de risque diminue et vice versa. Cela est due au fait que lorsque la banque centrale combat l'inflation cela entraine une baisse de la variance de l'inflation. Par suite, la prime de risque due au risque d'inflation diminue. Dans le deuxième article, je fais une extension du premier article en utilisant des préférences récursives de type Epstein -- Zin et en permettant aux volatilités conditionnelles des chocs de varier avec le temps. L'emploi de ce cadre est motivé par deux raisons. D'abord des études récentes (Doh, 2010, Rudebusch and Swanson, 2012) ont montré que ces préférences sont appropriées pour l'analyse du prix des actifs dans les modèles d'équilibre général. Ensuite, l'hétéroscedasticité est une caractéristique courante des données économiques et financières. Cela implique que contrairement au premier article, l'incertitude varie dans le temps. Le cadre dans cet article est donc plus général et plus réaliste que celui du premier article. L'objectif principal de cet article est d'examiner l'impact des chocs de volatilités conditionnelles sur le niveau et la dynamique des taux d'intérêt et de la prime de risque. Puisque la prime de risque est constante a l'approximation d'ordre deux, le modèle est résolu par la méthode des perturbations avec une approximation d'ordre trois. Ainsi on obtient une prime de risque qui varie dans le temps. L'avantage d'introduire des chocs de volatilités conditionnelles est que cela induit des variables d'état supplémentaires qui apportent une contribution additionnelle à la dynamique de la prime de risque. Je montre que l'approximation d'ordre trois implique que les primes de risque ont une représentation de type ARCH-M (Autoregressive Conditional Heteroscedasticty in Mean) comme celui introduit par Engle, Lilien et Robins (1987). La différence est que dans ce modèle les paramètres sont structurels et les volatilités sont des volatilités conditionnelles de chocs économiques et non celles des variables elles-mêmes. J'estime les paramètres du modèle par la méthode des moments simulés (SMM) en utilisant des données de l'économie américaine. Les résultats de l'estimation montrent qu'il y a une évidence de volatilité stochastique dans les trois chocs. De plus, la contribution des volatilités conditionnelles des chocs au niveau et à la dynamique de la prime de risque est significative. En particulier, les effets des volatilités conditionnelles des chocs de productivité et de préférences sont significatifs. La volatilité conditionnelle du choc de productivité contribue positivement aux moyennes et aux écart-types des primes de risque. Ces contributions varient avec la maturité des bonds. La volatilité conditionnelle du choc de préférences quant à elle contribue négativement aux moyennes et positivement aux variances des primes de risque. Quant au choc de volatilité de la politique monétaire, son impact sur les primes de risque est négligeable. Le troisième article (coécrit avec Eric Schaling, Alain Kabundi, révisé et resoumis au journal of Economic Modelling) traite de l'hétérogénéité dans la formation des attentes d'inflation de divers groupes économiques et de leur impact sur la politique monétaire en Afrique du sud. La question principale est d'examiner si différents groupes d'agents économiques forment leurs attentes d'inflation de la même façon et s'ils perçoivent de la même façon la politique monétaire de la banque centrale (South African Reserve Bank). Ainsi on spécifie un modèle de prédiction d'inflation qui nous permet de tester l'arrimage des attentes d'inflation à la bande d'inflation cible (3% - 6%) de la banque centrale. Les données utilisées sont des données d'enquête réalisée par la banque centrale auprès de trois groupes d'agents : les analystes financiers, les firmes et les syndicats. On exploite donc la structure de panel des données pour tester l'hétérogénéité dans les attentes d'inflation et déduire leur perception de la politique monétaire. Les résultats montrent qu'il y a évidence d'hétérogénéité dans la manière dont les différents groupes forment leurs attentes. Les attentes des analystes financiers sont arrimées à la bande d'inflation cible alors que celles des firmes et des syndicats ne sont pas arrimées. En effet, les firmes et les syndicats accordent un poids significatif à l'inflation retardée d'une période et leurs prédictions varient avec l'inflation réalisée (retardée). Ce qui dénote un manque de crédibilité parfaite de la banque centrale au vu de ces agents.
Resumo:
Le nombre important de véhicules sur le réseau routier peut entraîner des problèmes d'encombrement et de sécurité. Les usagers des réseaux routiers qui nous intéressent sont les camionneurs qui transportent des marchandises, pouvant rouler avec des véhicules non conformes ou emprunter des routes interdites pour gagner du temps. Le transport de matières dangereuses est réglementé et certains lieux, surtout les ponts et les tunnels, leur sont interdits d'accès. Pour aider à faire appliquer les lois en vigueur, il existe un système de contrôles routiers composé de structures fixes et de patrouilles mobiles. Le déploiement stratégique de ces ressources de contrôle mise sur la connaissance du comportement des camionneurs que nous allons étudier à travers l'analyse de leurs choix de routes. Un problème de choix de routes peut se modéliser en utilisant la théorie des choix discrets, elle-même fondée sur la théorie de l'utilité aléatoire. Traiter ce type de problème avec cette théorie est complexe. Les modèles que nous utiliserons sont tels, que nous serons amenés à faire face à des problèmes de corrélation, puisque plusieurs routes partagent probablement des arcs. De plus, puisque nous travaillons sur le réseau routier du Québec, le choix de routes peut se faire parmi un ensemble de routes dont le nombre est potentiellement infini si on considère celles ayant des boucles. Enfin, l'étude des choix faits par un humain n'est pas triviale. Avec l'aide du modèle de choix de routes retenu, nous pourrons calculer une expression de la probabilité qu'une route soit prise par le camionneur. Nous avons abordé cette étude du comportement en commençant par un travail de description des données collectées. Le questionnaire utilisé par les contrôleurs permet de collecter des données concernant les camionneurs, leurs véhicules et le lieu du contrôle. La description des données observées est une étape essentielle, car elle permet de présenter clairement à un analyste potentiel ce qui est accessible pour étudier les comportements des camionneurs. Les données observées lors d'un contrôle constitueront ce que nous appellerons une observation. Avec les attributs du réseau, il sera possible de modéliser le réseau routier du Québec. Une sélection de certains attributs permettra de spécifier la fonction d'utilité et par conséquent la fonction permettant de calculer les probabilités de choix de routes par un camionneur. Il devient alors possible d'étudier un comportement en se basant sur des observations. Celles provenant du terrain ne nous donnent pas suffisamment d'information actuellement et même en spécifiant bien un modèle, l'estimation des paramètres n'est pas possible. Cette dernière est basée sur la méthode du maximum de vraisemblance. Nous avons l'outil, mais il nous manque la matière première que sont les observations, pour continuer l'étude. L'idée est de poursuivre avec des observations de synthèse. Nous ferons des estimations avec des observations complètes puis, pour se rapprocher des conditions réelles, nous continuerons avec des observations partielles. Ceci constitue d'ailleurs un défi majeur. Nous proposons pour ces dernières, de nous servir des résultats des travaux de (Bierlaire et Frejinger, 2008) en les combinant avec ceux de (Fosgerau, Frejinger et Karlström, 2013). Bien qu'elles soient de nature synthétiques, les observations que nous utilisons nous mèneront à des résultats tels, que nous serons en mesure de fournir une proposition concrète qui pourrait aider à optimiser les décisions des responsables des contrôles routiers. En effet, nous avons réussi à estimer, sur le réseau réel du Québec, avec un seuil de signification de 0,05 les valeurs des paramètres d'un modèle de choix de routes discrets, même lorsque les observations sont partielles. Ces résultats donneront lieu à des recommandations sur les changements à faire dans le questionnaire permettant de collecter des données.