586 resultados para Bootstrap paramétrique
Resumo:
In this paper, we study the asymptotic distribution of a simple two-stage (Hannan-Rissanen-type) linear estimator for stationary invertible vector autoregressive moving average (VARMA) models in the echelon form representation. General conditions for consistency and asymptotic normality are given. A consistent estimator of the asymptotic covariance matrix of the estimator is also provided, so that tests and confidence intervals can easily be constructed.
Resumo:
Statistical tests in vector autoregressive (VAR) models are typically based on large-sample approximations, involving the use of asymptotic distributions or bootstrap techniques. After documenting that such methods can be very misleading even with fairly large samples, especially when the number of lags or the number of equations is not small, we propose a general simulation-based technique that allows one to control completely the level of tests in parametric VAR models. In particular, we show that maximized Monte Carlo tests [Dufour (2002)] can provide provably exact tests for such models, whether they are stationary or integrated. Applications to order selection and causality testing are considered as special cases. The technique developed is applied to quarterly and monthly VAR models of the U.S. economy, comprising income, money, interest rates and prices, over the period 1965-1996.
Resumo:
L'un des modèles d'apprentissage non-supervisé générant le plus de recherche active est la machine de Boltzmann --- en particulier la machine de Boltzmann restreinte, ou RBM. Un aspect important de l'entraînement ainsi que l'exploitation d'un tel modèle est la prise d'échantillons. Deux développements récents, la divergence contrastive persistante rapide (FPCD) et le herding, visent à améliorer cet aspect, se concentrant principalement sur le processus d'apprentissage en tant que tel. Notamment, le herding renonce à obtenir un estimé précis des paramètres de la RBM, définissant plutôt une distribution par un système dynamique guidé par les exemples d'entraînement. Nous généralisons ces idées afin d'obtenir des algorithmes permettant d'exploiter la distribution de probabilités définie par une RBM pré-entraînée, par tirage d'échantillons qui en sont représentatifs, et ce sans que l'ensemble d'entraînement ne soit nécessaire. Nous présentons trois méthodes: la pénalisation d'échantillon (basée sur une intuition théorique) ainsi que la FPCD et le herding utilisant des statistiques constantes pour la phase positive. Ces méthodes définissent des systèmes dynamiques produisant des échantillons ayant les statistiques voulues et nous les évaluons à l'aide d'une méthode d'estimation de densité non-paramétrique. Nous montrons que ces méthodes mixent substantiellement mieux que la méthode conventionnelle, l'échantillonnage de Gibbs.
Resumo:
L'imputation est souvent utilisée dans les enquêtes pour traiter la non-réponse partielle. Il est bien connu que traiter les valeurs imputées comme des valeurs observées entraîne une sous-estimation importante de la variance des estimateurs ponctuels. Pour remédier à ce problème, plusieurs méthodes d'estimation de la variance ont été proposées dans la littérature, dont des méthodes adaptées de rééchantillonnage telles que le Bootstrap et le Jackknife. Nous définissons le concept de double-robustesse pour l'estimation ponctuelle et de variance sous l'approche par modèle de non-réponse et l'approche par modèle d'imputation. Nous mettons l'emphase sur l'estimation de la variance à l'aide du Jackknife qui est souvent utilisé dans la pratique. Nous étudions les propriétés de différents estimateurs de la variance à l'aide du Jackknife pour l'imputation par la régression déterministe ainsi qu'aléatoire. Nous nous penchons d'abord sur le cas de l'échantillon aléatoire simple. Les cas de l'échantillonnage stratifié et à probabilités inégales seront aussi étudiés. Une étude de simulation compare plusieurs méthodes d'estimation de variance à l'aide du Jackknife en terme de biais et de stabilité relative quand la fraction de sondage n'est pas négligeable. Finalement, nous établissons la normalité asymptotique des estimateurs imputés pour l'imputation par régression déterministe et aléatoire.
Resumo:
Objectifs : Analyser l’évolution de l’embonpoint chez les enfants québécois entre 4 et 8 ans et évaluer le rôle des différents facteurs de risque sur l’excès de poids persistant. Les données proviennent de l’étude longitudinale du développement des enfants du Québec (ÉLDEQ, 1998-2010). Cette enquête est réalisée par l’Institut de la statistique du Québec auprès d’une cohorte de 2120 nourrissons québécois nés en 1998, faisant l’objet d’un suivi annuel à partir de l’âge de 5 mois. Méthodes d’analyse : univariées, bivariées, modélisation semi-paramétrique, analyses de régressions logistique et log-linéaire (Poisson). Principaux résultats : i) L’excès de poids persistant chez les enfants âgés de 4 à 8 ans est un phénomène fluctuant, qui ne varie pas de façon significative selon le sexe ; ii) Le fait d’allaiter les enfants ne semble pas avoir un effet protecteur en ce qui concerne l’excès de poids ; iii) En ce qui concerne le poids à la naissance, les données dont on dispose ne nous permettent pas de tirer des conclusions ; iv) Le fait d’avoir une santé moins qu’excellente à la naissance semble augmenter le risque d’avoir un excès de poids persistant ; v)Ce qui influence surtout, c’est de toujours manger trop ou trop vite, ou le fait de vivre dans une famille avec un ou deux parents qui font de l’embonpoint ; vi) Les mères qui ont fume pendant leur grossesse présentent une probabilité plus élevée d’avoir des enfants avec un excès de poids persistant que celles qui n’ont pas fumé.
Resumo:
La complexité de l’étude des neuropathies héréditaires provient de leur hétérogénéité clinique et génétique et de la diversité des fibres composant les nerfs périphériques. Cette complexité se reflète dans les nombreuses classifications différentes. Les neuropathies héréditaires se classifient entre autres selon leur mode de transmission et leur atteinte sensitive, autonomique et motrice. Les neuropathies héréditaires sensitives et autonomiques (NHSA) se présentent avec une perte de la sensation distale aux membres, accompagnée d’autres manifestations selon le type de NHSA. L’étude des NHSA est facilitée lorsqu’il existe des grappes de familles originaires de régions du Québec où des effets fondateurs pour des maladies récessives ont déjà été identifiés. Nous avons recruté une grande famille canadienne-française originaire de Paspébiac dans la Baie-des-Chaleurs dans laquelle nous avons identifié quatre cas atteints d’une neuropathie héréditaire sensitive avec rétinite pigmentaire et ataxie (NHSRPA). Nous avons émis l’hypothèse que nous étions en présence d’une nouvelle forme de neuropathie héréditaire sensitive récessive à effet fondateur. Afin d’identifier la position chromosomique du gène muté responsable de la NHSRPA, nous avons tout d’abord complété un criblage du génome en génotypant des marqueurs microsatellites «single tandem repeat» (STR) sur des individus clés et nous avons ensuite procédé à une analyse de liaison génétique paramétrique. Ces études nous ont permis de lier cette famille au chromosome 1 et de définir un premier intervalle candidat de 6,7 Mb. Grâce à un génotypage de marqueurs «single nucleotide polymorphism» (SNP), nous avons réduit l’intervalle candidat à 5,3 Mb au locus 1q32,2-q32,3. Cette région contient 44 gènes candidats. Une revue plus fine de la littérature a fait ressortir qu’une famille espagnole et une américaine de souche hollandaise souffrant de la même maladie avaient déjà été liées au même locus. L’origine possiblement basque de notre famille gaspésienne nous a poussé à comparer l’haplotype porteur avec celui de la famille espagnole qui, quoi que gitane, provient du pays basque espagnol. Ces travaux ont démontré le partage d’une région de 203 kb. Afin de rétrécir davantage notre intervalle candidat, nous avons comparé les haplotypes des cas entre les deux familles et nous avons identifié un dernier intervalle candidat de 60 SNP au locus 1q32,3. Cette région ne contient que quatre gènes candidats dont le plus intéressant est le gène «activating transcription factor» (ATF3). À ce jour, aucune mutation n’a été trouvée dans le gène ATF3 et les gènes FAM71A, BATF3 et NSL1. Des expériences supplémentaires sont nécessaires afin d’identifier le gène muté responsable de la NHSRPA.
Resumo:
Cette thèse porte sur l'analyse bayésienne de données fonctionnelles dans un contexte hydrologique. L'objectif principal est de modéliser des données d'écoulements d'eau d'une manière parcimonieuse tout en reproduisant adéquatement les caractéristiques statistiques de celles-ci. L'analyse de données fonctionnelles nous amène à considérer les séries chronologiques d'écoulements d'eau comme des fonctions à modéliser avec une méthode non paramétrique. Dans un premier temps, les fonctions sont rendues plus homogènes en les synchronisant. Ensuite, disposant d'un échantillon de courbes homogènes, nous procédons à la modélisation de leurs caractéristiques statistiques en faisant appel aux splines de régression bayésiennes dans un cadre probabiliste assez général. Plus spécifiquement, nous étudions une famille de distributions continues, qui inclut celles de la famille exponentielle, de laquelle les observations peuvent provenir. De plus, afin d'avoir un outil de modélisation non paramétrique flexible, nous traitons les noeuds intérieurs, qui définissent les éléments de la base des splines de régression, comme des quantités aléatoires. Nous utilisons alors le MCMC avec sauts réversibles afin d'explorer la distribution a posteriori des noeuds intérieurs. Afin de simplifier cette procédure dans notre contexte général de modélisation, nous considérons des approximations de la distribution marginale des observations, nommément une approximation basée sur le critère d'information de Schwarz et une autre qui fait appel à l'approximation de Laplace. En plus de modéliser la tendance centrale d'un échantillon de courbes, nous proposons aussi une méthodologie pour modéliser simultanément la tendance centrale et la dispersion de ces courbes, et ce dans notre cadre probabiliste général. Finalement, puisque nous étudions une diversité de distributions statistiques au niveau des observations, nous mettons de l'avant une approche afin de déterminer les distributions les plus adéquates pour un échantillon de courbes donné.
Utilisation de splines monotones afin de condenser des tables de mortalité dans un contexte bayésien
Resumo:
Dans ce mémoire, nous cherchons à modéliser des tables à deux entrées monotones en lignes et/ou en colonnes, pour une éventuelle application sur les tables de mortalité. Nous adoptons une approche bayésienne non paramétrique et représentons la forme fonctionnelle des données par splines bidimensionnelles. L’objectif consiste à condenser une table de mortalité, c’est-à-dire de réduire l’espace d’entreposage de la table en minimisant la perte d’information. De même, nous désirons étudier le temps nécessaire pour reconstituer la table. L’approximation doit conserver les mêmes propriétés que la table de référence, en particulier la monotonie des données. Nous travaillons avec une base de fonctions splines monotones afin d’imposer plus facilement la monotonie au modèle. En effet, la structure flexible des splines et leurs dérivées faciles à manipuler favorisent l’imposition de contraintes sur le modèle désiré. Après un rappel sur la modélisation unidimensionnelle de fonctions monotones, nous généralisons l’approche au cas bidimensionnel. Nous décrivons l’intégration des contraintes de monotonie dans le modèle a priori sous l’approche hiérarchique bayésienne. Ensuite, nous indiquons comment obtenir un estimateur a posteriori à l’aide des méthodes de Monte Carlo par chaînes de Markov. Finalement, nous étudions le comportement de notre estimateur en modélisant une table de la loi normale ainsi qu’une table t de distribution de Student. L’estimation de nos données d’intérêt, soit la table de mortalité, s’ensuit afin d’évaluer l’amélioration de leur accessibilité.
Resumo:
Nous avons choisi de focaliser nos analyses sur les inégalités sociales de mortalité spécifiquement aux grands âges. Pour ce faire, l'utilisation de l'âge modal au décès combiné à la dispersion des décès au-delà de cet âge s'avère particulièrement adapté pour capter ces disparités puisque ces mesures ne sont pas tributaires de la mortalité prématurée. Ainsi, à partir de la distribution des âges au décès selon le niveau de défavorisation, au Québec au cours des périodes 2000-2002 et 2005-2007, nous avons déterminé l'âge le plus commun au décès et la dispersion des durées de vie au-delà de celui-ci. L'estimation de la distribution des décès selon l'âge et le niveau de défavorisation repose sur une approche non paramétrique de lissage par P-splines développée par Nadine Ouellette dans le cadre de sa thèse de doctorat. Nos résultats montrent que l'âge modal au décès ne permet pas de détecter des disparités dans la mortalité des femmes selon le niveau de défavorisation au Québec en 2000-2002 et en 2005-2007. Néanmoins, on assiste à un report de la mortalité vers des âges plus avancés alors que la compression de la mortalité semble s'être stabilisée. Pour les hommes, les inégalités sociales de mortalité sont particulièrement importantes entre le sous-groupe le plus favorisé et celui l'étant le moins. On constate un déplacement de la durée de vie la plus commune des hommes vers des âges plus élevés et ce, peu importe le niveau de défavorisation. Cependant, contrairement à leurs homologues féminins, le phénomène de compression de la mortalité semble toujours s'opérer.
Resumo:
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
La présente thèse de doctorat porte sur la relation entre la santé psychologique au travail, les besoins fondamentaux et la compétence en emploi. En plus de valider un questionnaire de compétences en emploi (QCE), cette thèse propose que les compétences en emploi puissent prédire la santé psychologique au travail par la satisfaction des besoins fondamentaux dans le domaine de l’enseignement. Le premier article a pour objectif de présenter la conception et la validation de l’instrument de mesure des compétences en emploi dans le domaine de l’enseignement. Une première étape dans notre étude a permis l’identification de trois solutions factorielles possibles : structure à un seul facteur, structure à deux facteurs et structure à un facteur de deuxième ordre. Les matrices des corrélations des énoncés étaient fiables, se prêtaient bien à l’analyse factorielle exploratoire et présentaient de bonnes cohérences internes. La deuxième étape de notre étude a été de type confirmatif. Chacune des trois solutions factorielles proposées a été analysée, ce qui a permis l’identification du modèle le mieux ajusté compte tenu des seuils empiriques des indices retenus pour l’analyse par équations structurelles. L’étude réalisée sur un échantillon d’enseignants québécois démontre que nous pouvons conclure aux bonnes qualités psychométriques de l’instrument analysé. Les limites et les apports de cette étude seront aussi présentés. Le deuxième article examine les liens entre les compétences en emploi dans le domaine de l’enseignement, la santé psychologique au travail et la satisfaction des trois besoins fondamentaux (autonomie, compétence et affiliation). Un modèle de médiation est testé par des analyses de modélisation par équations structurelles. Dans ce modèle, on considère que la satisfaction des trois besoins fondamentaux (autonomie, compétence et affiliation sociale) agisse comme médiateur dans la relation entre les compétences en emploi et la santé psychologique au travail. Une relation de médiation partielle (Baron & Kenny, 1986) a été trouvée dans notre échantillon, en utilisant l’analyse de rééchantillonnage par « bootstrap », dans le cadre de la modélisation par équations structurelles. Les limites de la recherche, ainsi que des suggestions de recherches futures seront proposées.
Resumo:
L’intérêt principal de cette recherche porte sur la validation d’une méthode statistique en pharmaco-épidémiologie. Plus précisément, nous allons comparer les résultats d’une étude précédente réalisée avec un devis cas-témoins niché dans la cohorte utilisé pour tenir compte de l’exposition moyenne au traitement : – aux résultats obtenus dans un devis cohorte, en utilisant la variable exposition variant dans le temps, sans faire d’ajustement pour le temps passé depuis l’exposition ; – aux résultats obtenus en utilisant l’exposition cumulative pondérée par le passé récent ; – aux résultats obtenus selon la méthode bayésienne. Les covariables seront estimées par l’approche classique ainsi qu’en utilisant l’approche non paramétrique bayésienne. Pour la deuxième le moyennage bayésien des modèles sera utilisé pour modéliser l’incertitude face au choix des modèles. La technique utilisée dans l’approche bayésienne a été proposée en 1997 mais selon notre connaissance elle n’a pas été utilisée avec une variable dépendante du temps. Afin de modéliser l’effet cumulatif de l’exposition variant dans le temps, dans l’approche classique la fonction assignant les poids selon le passé récent sera estimée en utilisant des splines de régression. Afin de pouvoir comparer les résultats avec une étude précédemment réalisée, une cohorte de personnes ayant un diagnostique d’hypertension sera construite en utilisant les bases des données de la RAMQ et de Med-Echo. Le modèle de Cox incluant deux variables qui varient dans le temps sera utilisé. Les variables qui varient dans le temps considérées dans ce mémoire sont iv la variable dépendante (premier évènement cérébrovasculaire) et une des variables indépendantes, notamment l’exposition
Resumo:
L'objectif principal de ce travail est d’étudier en profondeur certaines techniques biostatistiques avancées en recherche évaluative en chirurgie cardiaque adulte. Les études ont été conçues pour intégrer les concepts d'analyse de survie, analyse de régression avec “propensity score”, et analyse de coûts. Le premier manuscrit évalue la survie après la réparation chirurgicale de la dissection aigüe de l’aorte ascendante. Les analyses statistiques utilisées comprennent : analyses de survie avec régression paramétrique des phases de risque et d'autres méthodes paramétriques (exponentielle, Weibull), semi-paramétriques (Cox) ou non-paramétriques (Kaplan-Meier) ; survie comparée à une cohorte appariée pour l’âge, le sexe et la race utilisant des tables de statistiques de survie gouvernementales ; modèles de régression avec “bootstrapping” et “multinomial logit model”. L'étude a démontrée que la survie s'est améliorée sur 25 ans en lien avec des changements dans les techniques chirurgicales et d’imagerie diagnostique. Le second manuscrit est axé sur les résultats des pontages coronariens isolés chez des patients ayant des antécédents d'intervention coronarienne percutanée. Les analyses statistiques utilisées comprennent : modèles de régression avec “propensity score” ; algorithme complexe d'appariement (1:3) ; analyses statistiques appropriées pour les groupes appariés (différences standardisées, “generalized estimating equations”, modèle de Cox stratifié). L'étude a démontrée que l’intervention coronarienne percutanée subie 14 jours ou plus avant la chirurgie de pontages coronariens n'est pas associée à des résultats négatifs à court ou long terme. Le troisième manuscrit évalue les conséquences financières et les changements démographiques survenant pour un centre hospitalier universitaire suite à la mise en place d'un programme de chirurgie cardiaque satellite. Les analyses statistiques utilisées comprennent : modèles de régression multivariée “two-way” ANOVA (logistique, linéaire ou ordinale) ; “propensity score” ; analyses de coûts avec modèles paramétriques Log-Normal. Des modèles d’analyse de « survie » ont également été explorés, utilisant les «coûts» au lieu du « temps » comme variable dépendante, et ont menés à des conclusions similaires. L'étude a démontrée que, après la mise en place du programme satellite, moins de patients de faible complexité étaient référés de la région du programme satellite au centre hospitalier universitaire, avec une augmentation de la charge de travail infirmier et des coûts.