10 resultados para Small Area Estimation
em Université de Montréal, Canada
Resumo:
Cette thèse comporte trois articles dont un est publié et deux en préparation. Le sujet central de la thèse porte sur le traitement des valeurs aberrantes représentatives dans deux aspects importants des enquêtes que sont : l’estimation des petits domaines et l’imputation en présence de non-réponse partielle. En ce qui concerne les petits domaines, les estimateurs robustes dans le cadre des modèles au niveau des unités ont été étudiés. Sinha & Rao (2009) proposent une version robuste du meilleur prédicteur linéaire sans biais empirique pour la moyenne des petits domaines. Leur estimateur robuste est de type «plugin», et à la lumière des travaux de Chambers (1986), cet estimateur peut être biaisé dans certaines situations. Chambers et al. (2014) proposent un estimateur corrigé du biais. En outre, un estimateur de l’erreur quadratique moyenne a été associé à ces estimateurs ponctuels. Sinha & Rao (2009) proposent une procédure bootstrap paramétrique pour estimer l’erreur quadratique moyenne. Des méthodes analytiques sont proposées dans Chambers et al. (2014). Cependant, leur validité théorique n’a pas été établie et leurs performances empiriques ne sont pas pleinement satisfaisantes. Ici, nous examinons deux nouvelles approches pour obtenir une version robuste du meilleur prédicteur linéaire sans biais empirique : la première est fondée sur les travaux de Chambers (1986), et la deuxième est basée sur le concept de biais conditionnel comme mesure de l’influence d’une unité de la population. Ces deux classes d’estimateurs robustes des petits domaines incluent également un terme de correction pour le biais. Cependant, ils utilisent tous les deux l’information disponible dans tous les domaines contrairement à celui de Chambers et al. (2014) qui utilise uniquement l’information disponible dans le domaine d’intérêt. Dans certaines situations, un biais non négligeable est possible pour l’estimateur de Sinha & Rao (2009), alors que les estimateurs proposés exhibent un faible biais pour un choix approprié de la fonction d’influence et de la constante de robustesse. Les simulations Monte Carlo sont effectuées, et les comparaisons sont faites entre les estimateurs proposés et ceux de Sinha & Rao (2009) et de Chambers et al. (2014). Les résultats montrent que les estimateurs de Sinha & Rao (2009) et de Chambers et al. (2014) peuvent avoir un biais important, alors que les estimateurs proposés ont une meilleure performance en termes de biais et d’erreur quadratique moyenne. En outre, nous proposons une nouvelle procédure bootstrap pour l’estimation de l’erreur quadratique moyenne des estimateurs robustes des petits domaines. Contrairement aux procédures existantes, nous montrons formellement la validité asymptotique de la méthode bootstrap proposée. Par ailleurs, la méthode proposée est semi-paramétrique, c’est-à-dire, elle n’est pas assujettie à une hypothèse sur les distributions des erreurs ou des effets aléatoires. Ainsi, elle est particulièrement attrayante et plus largement applicable. Nous examinons les performances de notre procédure bootstrap avec les simulations Monte Carlo. Les résultats montrent que notre procédure performe bien et surtout performe mieux que tous les compétiteurs étudiés. Une application de la méthode proposée est illustrée en analysant les données réelles contenant des valeurs aberrantes de Battese, Harter & Fuller (1988). S’agissant de l’imputation en présence de non-réponse partielle, certaines formes d’imputation simple ont été étudiées. L’imputation par la régression déterministe entre les classes, qui inclut l’imputation par le ratio et l’imputation par la moyenne sont souvent utilisées dans les enquêtes. Ces méthodes d’imputation peuvent conduire à des estimateurs imputés biaisés si le modèle d’imputation ou le modèle de non-réponse n’est pas correctement spécifié. Des estimateurs doublement robustes ont été développés dans les années récentes. Ces estimateurs sont sans biais si l’un au moins des modèles d’imputation ou de non-réponse est bien spécifié. Cependant, en présence des valeurs aberrantes, les estimateurs imputés doublement robustes peuvent être très instables. En utilisant le concept de biais conditionnel, nous proposons une version robuste aux valeurs aberrantes de l’estimateur doublement robuste. Les résultats des études par simulations montrent que l’estimateur proposé performe bien pour un choix approprié de la constante de robustesse.
Resumo:
Il a été démontré que l’hétérotachie, variation du taux de substitutions au cours du temps et entre les sites, est un phénomène fréquent au sein de données réelles. Échouer à modéliser l’hétérotachie peut potentiellement causer des artéfacts phylogénétiques. Actuellement, plusieurs modèles traitent l’hétérotachie : le modèle à mélange des longueurs de branche (MLB) ainsi que diverses formes du modèle covarion. Dans ce projet, notre but est de trouver un modèle qui prenne efficacement en compte les signaux hétérotaches présents dans les données, et ainsi améliorer l’inférence phylogénétique. Pour parvenir à nos fins, deux études ont été réalisées. Dans la première, nous comparons le modèle MLB avec le modèle covarion et le modèle homogène grâce aux test AIC et BIC, ainsi que par validation croisée. A partir de nos résultats, nous pouvons conclure que le modèle MLB n’est pas nécessaire pour les sites dont les longueurs de branche diffèrent sur l’ensemble de l’arbre, car, dans les données réelles, le signaux hétérotaches qui interfèrent avec l’inférence phylogénétique sont généralement concentrés dans une zone limitée de l’arbre. Dans la seconde étude, nous relaxons l’hypothèse que le modèle covarion est homogène entre les sites, et développons un modèle à mélanges basé sur un processus de Dirichlet. Afin d’évaluer différents modèles hétérogènes, nous définissons plusieurs tests de non-conformité par échantillonnage postérieur prédictif pour étudier divers aspects de l’évolution moléculaire à partir de cartographies stochastiques. Ces tests montrent que le modèle à mélanges covarion utilisé avec une loi gamma est capable de refléter adéquatement les variations de substitutions tant à l’intérieur d’un site qu’entre les sites. Notre recherche permet de décrire de façon détaillée l’hétérotachie dans des données réelles et donne des pistes à suivre pour de futurs modèles hétérotaches. Les tests de non conformité par échantillonnage postérieur prédictif fournissent des outils de diagnostic pour évaluer les modèles en détails. De plus, nos deux études révèlent la non spécificité des modèles hétérogènes et, en conséquence, la présence d’interactions entre différents modèles hétérogènes. Nos études suggèrent fortement que les données contiennent différents caractères hétérogènes qui devraient être pris en compte simultanément dans les analyses phylogénétiques.
Surveillance de maladies chroniques à l'aide des données administratives : cas de l'asthme au Québec
Resumo:
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal.
Resumo:
Cette étude a pour but de tester si l’ajout de variables biomécaniques, telles que celles associées à la morphologie, la posture et l’équilibre, permet d’améliorer l’efficacité à dissocier 29 sujets ayant une scoliose progressive de 45 sujets ayant une scoliose non progressive. Dans une étude rétrospective, un groupe d’apprentissage (Cobb: 27,1±10,6°) a été utilisé avec cinq modèles faisant intervenir des variables cliniques, morphologiques, posturales et d’équilibre et la progression de la scoliose. Un groupe test (Cobb: 14,2±8,3°) a ensuite servit à évaluer les modèles dans une étude prospective. Afin d’établir l’efficacité de l’ajout de variables biomécaniques, le modèle de Lonstein et Carlson (1984) a été utilisé à titre d’étalon de mesures. Le groupe d’apprentissage a été utilisé pour développer quatre modèles de classification. Le modèle sans réduction fut composé de 35 variables tirées de la littérature. Dans le modèle avec réduction, une ANCOVA a servit de méthode de réduction pour passer de 35 à 8 variables et l’analyse par composantes principales a été utilisée pour passer de 35 à 7 variables. Le modèle expert fut composé de huit variables sélectionnées d’après l’expérience clinque. L’analyse discriminante, la régression logistique et l’analyse par composantes principales ont été appliquées afin de classer les sujets comme progressifs ou non progressifs. La régression logistique utilisée avec le modèle sans réduction a présenté l’efficience la plus élevée (0,94), tandis que l’analyse discriminante utilisée avec le modèle expert a montré l’efficience la plus faible (0,87). Ces résultats montrent un lien direct entre un ensemble de paramètres cliniques et biomécaniques et la progression de la scoliose idiopathique. Le groupe test a été utilisé pour appliquer les modèles développés à partir du groupe d’apprentissage. L’efficience la plus élevée (0,89) fut obtenue en utilisant l’analyse discriminante et la régression logistique avec le modèle sans réduction, alors que la plus faible (0,78) fut obtenue en utilisant le modèle de Lonstein et Carlson (1984). Ces valeurs permettent d’avancer que l’ajout de variables biomécaniques aux données cliniques améliore l’efficacité de la dissociation entre des sujets scoliotiques progressifs et non progressifs. Afin de vérifier la précision des modèles, les aires sous les courbes ROC ont été calculées. L’aire sous la courbe ROC la plus importante (0,93) fut obtenue avec l’analyse discriminante utilisée avec le modèle sans réduction, tandis que la plus faible (0,63) fut obtenue avec le modèle de Lonstein et Carlson (1984). Le modèle de Lonstein et Carlson (1984) n’a pu séparer les cas positifs des cas négatifs avec autant de précision que les modèles biomécaniques. L’ajout de variables biomécaniques aux données cliniques a permit d’améliorer l’efficacité de la dissociation entre des sujets scoliotiques progressifs et non progressifs. Ces résultats permettent d’avancer qu’il existe d’autres facteurs que les paramètres cliniques pour identifier les patients à risque de progresser. Une approche basée sur plusieurs types de paramètres tient compte de la nature multifactorielle de la scoliose idiopathique et s’avère probablement mieux adaptée pour en prédire la progression.
Resumo:
Dans ce mémoire, nous étudions le problème de l'estimation de la variance pour les estimateurs par double dilatation et de calage pour l'échantillonnage à deux phases. Nous proposons d'utiliser une décomposition de la variance différente de celle habituellement utilisée dans l'échantillonnage à deux phases, ce qui mène à un estimateur de la variance simplifié. Nous étudions les conditions sous lesquelles les estimateurs simplifiés de la variance sont valides. Pour ce faire, nous considérons les cas particuliers suivants : (1) plan de Poisson à la deuxième phase, (2) plan à deux degrés, (3) plan aléatoire simple sans remise aux deux phases, (4) plan aléatoire simple sans remise à la deuxième phase. Nous montrons qu'une condition cruciale pour la validité des estimateurs simplifiés sous les plans (1) et (2) consiste à ce que la fraction de sondage utilisée pour la première phase soit négligeable (ou petite). Nous montrons sous les plans (3) et (4) que, pour certains estimateurs de calage, l'estimateur simplifié de la variance est valide lorsque la fraction de sondage à la première phase est petite en autant que la taille échantillonnale soit suffisamment grande. De plus, nous montrons que les estimateurs simplifiés de la variance peuvent être obtenus de manière alternative en utilisant l'approche renversée (Fay, 1991 et Shao et Steel, 1999). Finalement, nous effectuons des études par simulation dans le but d'appuyer les résultats théoriques.
Resumo:
Il est bien établi que l'exposition à court terme aux particules fines dans l’air ambiant en milieu urbain a des effets sur la santé. Toutefois, peu d'études épidémiologiques ont évalué la relation entre les particules fines (PM2.5) de sources spécifiques comme celles dérivées de feux de forêt et les effets sur la santé. Pour l’instant, les risques de mortalité et de morbidité associés aux PM2.5 résultant de la combustion de végétation semblent similaires à ceux des PM2.5 urbaines. Dans le présent mémoire, nous avons comparé deux méthodes pour quantifier les risques de mortalité et de morbidité associés à l'augmentation des niveaux de PM2.5 à Montréal, dérivées de deux épisodes des feux de forêts majeurs dans le Nord du Québec. La première approche consistait à comparer les décès et les visites aux urgences observées enregistrées au cours des deux épisodes à Montréal à leurs moyennes respectives attendues durant des jours de référence. Nous avons également calculé la surmortalité et la surmorbidité prédites attribuables aux PM2.5 lors des épisodes, en projetant les risques relatifs (RR) rapportés par l’Environmental Protection Agency (EPA) des États-Unis pour les PM2.5 urbaines, ainsi qu’en appliquant des fonctions de risque estimées à partir des données estivales spécifiques à Montréal. Suivant la première approche, nous avons estimé une surmortalité de +10% pendant les deux épisodes. Cependant, aucune tendance claire n'a été observée pour les visites à l'urgence. Et suivant la 2e approche, la surmortalité prédite attribuable aux niveaux des PM2.5 dérivées des feux de forêt étaient moins élevés que ceux observés, soit de 1 à 4 cas seulement. Une faible surmortalité attribuable aux niveaux élevés des PM2.5 issues de feux de la forêt boréale du Québec a été estimée par les fonctions de risque ainsi que par la méthode de comparaison des décès observés aux moyennes attendues, sur l’Île de Montréal, située à des centaines de km des sites de feux.
Resumo:
Cette recherche a porté sur quelques enjeux importants liés à la gestion des aires marines protégées (AMP) en Indonésie en examinant comment celles-ci sont en mesure d'adapter leurs politiques afin de mieux répondre à l'évolution des conditions socioéconomiques et écologiques, quels ont été les impacts socioéconomiques de ces aires, et quelles sont les préoccupations environnementales des acteurs locaux dont les moyens de subsistance dépendent des ressources règlementées. Le «livelihoods framework » a servi de guide pour notre analyse des changements socioéconomiques dans la région, tandis que la notion d’« environmentality » d’Agrawal a fourni les bases théoriques pour l'examen de la formation de sujets environnementaux au parc national de Karimunjawa. Cette étude a montré que les changements de politique apportés au plan de la gestion du parc sont un pas dans la bonne direction, mais que les objectifs importants liés sa cogestion n'ont jamais été entièrement réalisés dans la pratique. Les résultats montrent également que d'importants changements socioéconomiques surviennent dans le parc, de nombreux pêcheurs se tournent vers des moyens de subsistance alternatifs, afin de compenser la baisse des prises de poissons. Enfin, cette étude a révélé que d'importants changements positifs dans les préoccupations environnementales sont survenus depuis la modification du zonage du parc, mais que ceux-ci ne se sont pas entièrement traduits en conformité avec les règles et règlements de l'AMP.
Resumo:
Cette thèse comporte trois essais sur les interactions sociales en sciences économiques. Ces essais s’intéressent à la fois au côté théeorique qu’empirique des interactions sociales. Le premier essai (chapitre 2) se concentre sur l’étude (théorique et empirique) de la formation de réseaux sociaux au sein de petites économies lorsque les individus ont des préférences homophilique et une contrainte de temps. Le deuxième essai (chapitre 3) se concentre sur l’étude (principalement empirique) de la formation de réseau sociaux au sein de larges économies où les comportement d’individus très distants sont aproximativement indépendants. Le dernier essai (chapitre 4) est une étude empirique des effets de pairs en éducation au sein des écoles secondaires du Québec. La méthode structurelle utilisée permet l’identification et l’estimation de l’effet de pairs endogène et des effets de pairs exogènes, tout en contrôlant pour la présence de chocs communs.
Resumo:
Le modèle GARCH à changement de régimes est le fondement de cette thèse. Ce modèle offre de riches dynamiques pour modéliser les données financières en combinant une structure GARCH avec des paramètres qui varient dans le temps. Cette flexibilité donne malheureusement lieu à un problème de path dependence, qui a empêché l'estimation du modèle par le maximum de vraisemblance depuis son introduction, il y a déjà près de 20 ans. La première moitié de cette thèse procure une solution à ce problème en développant deux méthodologies permettant de calculer l'estimateur du maximum de vraisemblance du modèle GARCH à changement de régimes. La première technique d'estimation proposée est basée sur l'algorithme Monte Carlo EM et sur l'échantillonnage préférentiel, tandis que la deuxième consiste en la généralisation des approximations du modèle introduites dans les deux dernières décennies, connues sous le nom de collapsing procedures. Cette généralisation permet d'établir un lien méthodologique entre ces approximations et le filtre particulaire. La découverte de cette relation est importante, car elle permet de justifier la validité de l'approche dite par collapsing pour estimer le modèle GARCH à changement de régimes. La deuxième moitié de cette thèse tire sa motivation de la crise financière de la fin des années 2000 pendant laquelle une mauvaise évaluation des risques au sein de plusieurs compagnies financières a entraîné de nombreux échecs institutionnels. À l'aide d'un large éventail de 78 modèles économétriques, dont plusieurs généralisations du modèle GARCH à changement de régimes, il est démontré que le risque de modèle joue un rôle très important dans l'évaluation et la gestion du risque d'investissement à long terme dans le cadre des fonds distincts. Bien que la littérature financière a dévoué beaucoup de recherche pour faire progresser les modèles économétriques dans le but d'améliorer la tarification et la couverture des produits financiers, les approches permettant de mesurer l'efficacité d'une stratégie de couverture dynamique ont peu évolué. Cette thèse offre une contribution méthodologique dans ce domaine en proposant un cadre statistique, basé sur la régression, permettant de mieux mesurer cette efficacité.
Resumo:
Le suivi thérapeutique est recommandé pour l’ajustement de la dose des agents immunosuppresseurs. La pertinence de l’utilisation de la surface sous la courbe (SSC) comme biomarqueur dans l’exercice du suivi thérapeutique de la cyclosporine (CsA) dans la transplantation des cellules souches hématopoïétiques est soutenue par un nombre croissant d’études. Cependant, pour des raisons intrinsèques à la méthode de calcul de la SSC, son utilisation en milieu clinique n’est pas pratique. Les stratégies d’échantillonnage limitées, basées sur des approches de régression (R-LSS) ou des approches Bayésiennes (B-LSS), représentent des alternatives pratiques pour une estimation satisfaisante de la SSC. Cependant, pour une application efficace de ces méthodologies, leur conception doit accommoder la réalité clinique, notamment en requérant un nombre minimal de concentrations échelonnées sur une courte durée d’échantillonnage. De plus, une attention particulière devrait être accordée à assurer leur développement et validation adéquates. Il est aussi important de mentionner que l’irrégularité dans le temps de la collecte des échantillons sanguins peut avoir un impact non-négligeable sur la performance prédictive des R-LSS. Or, à ce jour, cet impact n’a fait l’objet d’aucune étude. Cette thèse de doctorat se penche sur ces problématiques afin de permettre une estimation précise et pratique de la SSC. Ces études ont été effectuées dans le cadre de l’utilisation de la CsA chez des patients pédiatriques ayant subi une greffe de cellules souches hématopoïétiques. D’abord, des approches de régression multiple ainsi que d’analyse pharmacocinétique de population (Pop-PK) ont été utilisées de façon constructive afin de développer et de valider adéquatement des LSS. Ensuite, plusieurs modèles Pop-PK ont été évalués, tout en gardant à l’esprit leur utilisation prévue dans le contexte de l’estimation de la SSC. Aussi, la performance des B-LSS ciblant différentes versions de SSC a également été étudiée. Enfin, l’impact des écarts entre les temps d’échantillonnage sanguins réels et les temps nominaux planifiés, sur la performance de prédiction des R-LSS a été quantifié en utilisant une approche de simulation qui considère des scénarios diversifiés et réalistes représentant des erreurs potentielles dans la cédule des échantillons sanguins. Ainsi, cette étude a d’abord conduit au développement de R-LSS et B-LSS ayant une performance clinique satisfaisante, et qui sont pratiques puisqu’elles impliquent 4 points d’échantillonnage ou moins obtenus dans les 4 heures post-dose. Une fois l’analyse Pop-PK effectuée, un modèle structural à deux compartiments avec un temps de délai a été retenu. Cependant, le modèle final - notamment avec covariables - n’a pas amélioré la performance des B-LSS comparativement aux modèles structuraux (sans covariables). En outre, nous avons démontré que les B-LSS exhibent une meilleure performance pour la SSC dérivée des concentrations simulées qui excluent les erreurs résiduelles, que nous avons nommée « underlying AUC », comparée à la SSC observée qui est directement calculée à partir des concentrations mesurées. Enfin, nos résultats ont prouvé que l’irrégularité des temps de la collecte des échantillons sanguins a un impact important sur la performance prédictive des R-LSS; cet impact est en fonction du nombre des échantillons requis, mais encore davantage en fonction de la durée du processus d’échantillonnage impliqué. Nous avons aussi mis en évidence que les erreurs d’échantillonnage commises aux moments où la concentration change rapidement sont celles qui affectent le plus le pouvoir prédictif des R-LSS. Plus intéressant, nous avons mis en exergue que même si différentes R-LSS peuvent avoir des performances similaires lorsque basées sur des temps nominaux, leurs tolérances aux erreurs des temps d’échantillonnage peuvent largement différer. En fait, une considération adéquate de l'impact de ces erreurs peut conduire à une sélection et une utilisation plus fiables des R-LSS. Par une investigation approfondie de différents aspects sous-jacents aux stratégies d’échantillonnages limités, cette thèse a pu fournir des améliorations méthodologiques notables, et proposer de nouvelles voies pour assurer leur utilisation de façon fiable et informée, tout en favorisant leur adéquation à la pratique clinique.