15 resultados para Regression imputation

em Université de Montréal, Canada


Relevância:

70.00% 70.00%

Publicador:

Resumo:

L’imputation simple est très souvent utilisée dans les enquêtes pour compenser pour la non-réponse partielle. Dans certaines situations, la variable nécessitant l’imputation prend des valeurs nulles un très grand nombre de fois. Ceci est très fréquent dans les enquêtes entreprises qui collectent les variables économiques. Dans ce mémoire, nous étudions les propriétés de deux méthodes d’imputation souvent utilisées en pratique et nous montrons qu’elles produisent des estimateurs imputés biaisés en général. Motivé par un modèle de mélange, nous proposons trois méthodes d’imputation et étudions leurs propriétés en termes de biais. Pour ces méthodes d’imputation, nous considérons un estimateur jackknife de la variance convergent vers la vraie variance, sous l’hypothèse que la fraction de sondage est négligeable. Finalement, nous effectuons une étude par simulation pour étudier la performance des estimateurs ponctuels et de variance en termes de biais et d’erreur quadratique moyenne.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

L'imputation est souvent utilisée dans les enquêtes pour traiter la non-réponse partielle. Il est bien connu que traiter les valeurs imputées comme des valeurs observées entraîne une sous-estimation importante de la variance des estimateurs ponctuels. Pour remédier à ce problème, plusieurs méthodes d'estimation de la variance ont été proposées dans la littérature, dont des méthodes adaptées de rééchantillonnage telles que le Bootstrap et le Jackknife. Nous définissons le concept de double-robustesse pour l'estimation ponctuelle et de variance sous l'approche par modèle de non-réponse et l'approche par modèle d'imputation. Nous mettons l'emphase sur l'estimation de la variance à l'aide du Jackknife qui est souvent utilisé dans la pratique. Nous étudions les propriétés de différents estimateurs de la variance à l'aide du Jackknife pour l'imputation par la régression déterministe ainsi qu'aléatoire. Nous nous penchons d'abord sur le cas de l'échantillon aléatoire simple. Les cas de l'échantillonnage stratifié et à probabilités inégales seront aussi étudiés. Une étude de simulation compare plusieurs méthodes d'estimation de variance à l'aide du Jackknife en terme de biais et de stabilité relative quand la fraction de sondage n'est pas négligeable. Finalement, nous établissons la normalité asymptotique des estimateurs imputés pour l'imputation par régression déterministe et aléatoire.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Cette thèse comporte trois articles dont un est publié et deux en préparation. Le sujet central de la thèse porte sur le traitement des valeurs aberrantes représentatives dans deux aspects importants des enquêtes que sont : l’estimation des petits domaines et l’imputation en présence de non-réponse partielle. En ce qui concerne les petits domaines, les estimateurs robustes dans le cadre des modèles au niveau des unités ont été étudiés. Sinha & Rao (2009) proposent une version robuste du meilleur prédicteur linéaire sans biais empirique pour la moyenne des petits domaines. Leur estimateur robuste est de type «plugin», et à la lumière des travaux de Chambers (1986), cet estimateur peut être biaisé dans certaines situations. Chambers et al. (2014) proposent un estimateur corrigé du biais. En outre, un estimateur de l’erreur quadratique moyenne a été associé à ces estimateurs ponctuels. Sinha & Rao (2009) proposent une procédure bootstrap paramétrique pour estimer l’erreur quadratique moyenne. Des méthodes analytiques sont proposées dans Chambers et al. (2014). Cependant, leur validité théorique n’a pas été établie et leurs performances empiriques ne sont pas pleinement satisfaisantes. Ici, nous examinons deux nouvelles approches pour obtenir une version robuste du meilleur prédicteur linéaire sans biais empirique : la première est fondée sur les travaux de Chambers (1986), et la deuxième est basée sur le concept de biais conditionnel comme mesure de l’influence d’une unité de la population. Ces deux classes d’estimateurs robustes des petits domaines incluent également un terme de correction pour le biais. Cependant, ils utilisent tous les deux l’information disponible dans tous les domaines contrairement à celui de Chambers et al. (2014) qui utilise uniquement l’information disponible dans le domaine d’intérêt. Dans certaines situations, un biais non négligeable est possible pour l’estimateur de Sinha & Rao (2009), alors que les estimateurs proposés exhibent un faible biais pour un choix approprié de la fonction d’influence et de la constante de robustesse. Les simulations Monte Carlo sont effectuées, et les comparaisons sont faites entre les estimateurs proposés et ceux de Sinha & Rao (2009) et de Chambers et al. (2014). Les résultats montrent que les estimateurs de Sinha & Rao (2009) et de Chambers et al. (2014) peuvent avoir un biais important, alors que les estimateurs proposés ont une meilleure performance en termes de biais et d’erreur quadratique moyenne. En outre, nous proposons une nouvelle procédure bootstrap pour l’estimation de l’erreur quadratique moyenne des estimateurs robustes des petits domaines. Contrairement aux procédures existantes, nous montrons formellement la validité asymptotique de la méthode bootstrap proposée. Par ailleurs, la méthode proposée est semi-paramétrique, c’est-à-dire, elle n’est pas assujettie à une hypothèse sur les distributions des erreurs ou des effets aléatoires. Ainsi, elle est particulièrement attrayante et plus largement applicable. Nous examinons les performances de notre procédure bootstrap avec les simulations Monte Carlo. Les résultats montrent que notre procédure performe bien et surtout performe mieux que tous les compétiteurs étudiés. Une application de la méthode proposée est illustrée en analysant les données réelles contenant des valeurs aberrantes de Battese, Harter & Fuller (1988). S’agissant de l’imputation en présence de non-réponse partielle, certaines formes d’imputation simple ont été étudiées. L’imputation par la régression déterministe entre les classes, qui inclut l’imputation par le ratio et l’imputation par la moyenne sont souvent utilisées dans les enquêtes. Ces méthodes d’imputation peuvent conduire à des estimateurs imputés biaisés si le modèle d’imputation ou le modèle de non-réponse n’est pas correctement spécifié. Des estimateurs doublement robustes ont été développés dans les années récentes. Ces estimateurs sont sans biais si l’un au moins des modèles d’imputation ou de non-réponse est bien spécifié. Cependant, en présence des valeurs aberrantes, les estimateurs imputés doublement robustes peuvent être très instables. En utilisant le concept de biais conditionnel, nous proposons une version robuste aux valeurs aberrantes de l’estimateur doublement robuste. Les résultats des études par simulations montrent que l’estimateur proposé performe bien pour un choix approprié de la constante de robustesse.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Les logiciels utilisés sont Splus et R.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This paper studies seemingly unrelated linear models with integrated regressors and stationary errors. By adding leads and lags of the first differences of the regressors and estimating this augmented dynamic regression model by feasible generalized least squares using the long-run covariance matrix, we obtain an efficient estimator of the cointegrating vector that has a limiting mixed normal distribution. Simulation results suggest that this new estimator compares favorably with others already proposed in the literature. We apply these new estimators to the testing of purchasing power parity (PPP) among the G-7 countries. The test based on the efficient estimates rejects the PPP hypothesis for most countries.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The focus of the paper is the nonparametric estimation of an instrumental regression function P defined by conditional moment restrictions stemming from a structural econometric model : E[Y-P(Z)|W]=0 and involving endogenous variables Y and Z and instruments W. The function P is the solution of an ill-posed inverse problem and we propose an estimation procedure based on Tikhonov regularization. The paper analyses identification and overidentification of this model and presents asymptotic properties of the estimated nonparametric instrumental regression function.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This Paper Studies Tests of Joint Hypotheses in Time Series Regression with a Unit Root in Which Weakly Dependent and Heterogeneously Distributed Innovations Are Allowed. We Consider Two Types of Regression: One with a Constant and Lagged Dependent Variable, and the Other with a Trend Added. the Statistics Studied Are the Regression \"F-Test\" Originally Analysed by Dickey and Fuller (1981) in a Less General Framework. the Limiting Distributions Are Found Using Functinal Central Limit Theory. New Test Statistics Are Proposed Which Require Only Already Tabulated Critical Values But Which Are Valid in a Quite General Framework (Including Finite Order Arma Models Generated by Gaussian Errors). This Study Extends the Results on Single Coefficients Derived in Phillips (1986A) and Phillips and Perron (1986).

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Contexte - La variation interindividuelle de la réponse aux corticostéroïdes (CS) est un problème important chez les patients atteints de maladies inflammatoires d’intestin. Ce problème est bien plus accentué chez les enfants avec la prévalence de la corticodépendance extrêmement (~40 %) élevée. La maladie réfractaire au CS a des répercussions sur le développement et le bien-être physique et psychologique des patients et impose des coûts médicaux élevés, particulièrement avec la maladie active comparativement à la maladie en rémission, le coût étant 2-3 fois plus élevé en ambulatoire et 20 fois plus élevé en hôpital. Il est ainsi primordial de déterminer les marqueurs prédictifs de la réponse aux CS. Les efforts précédents de découvrir les marqueurs cliniques et démographiques ont été équivoques, ce qui souligne davantage le besoin de marqueurs moléculaires. L'action des CS se base sur des processus complexes déterminés génétiquement. Deux gènes, le ABCB1, appartenant à la famille des transporteurs transmembraneaux, et le NR3C1, encodant le récepteur glucocorticoïde, sont des éléments importants des voies métaboliques. Nous avons postulé que les variations dans ces gènes ont un rôle dans la variabilité observée de la réponse aux CS et pourraient servir en tant que les marqueurs prédictifs. Objectifs - Nous avons visé à: (1) examiner le fardeau de la maladie réfractaire aux CS chez les enfants avec la maladie de Crohn (MC) et le rôle des caractéristiques cliniques et démographiques potentiellement liés à la réponse; (2) étudier l'association entre les variantes d'ADN de gène ABCB1 et la réponse aux CS; (3) étudier les associations entre les variantes d'ADN de gène NR3C1 et la réponse aux CS. Méthodes - Afin d’atteindre ces objectifs, nous avons mené une étude de cohorte des patients recrutés dans deux cliniques pédiatriques tertiaires de gastroentérologie à l’Ottawa (CHEO) et à Montréal (HSJ). Les patients avec la MC ont été diagnostiqués avant l'âge de 18 ans selon les critères standard radiologiques, endoscopiques et histopathologiques. La corticorésistance et la corticodépendance ont été définies en adaptant les critères reconnus. L’ADN, acquise soit du sang ou de la salive, était génotypée pour des variations à travers de gènes ABCB1 et NR3C1 sélectionnées à l’aide de la méthodologie de tag-SNP. La fréquence de la corticorésistance et la corticodépendance a été estimée assumant une distribution binomiale. Les associations entre les variables cliniques/démographiques et la réponse aux CS ont été examinées en utilisant la régression logistique en ajustant pour des variables potentielles de confusion. Les associations entre variantes génétiques de ABCB1 et NR3C1 et la réponse aux CS ont été examinées en utilisant la régression logistique assumant différents modèles de la transmission. Les associations multimarqueurs ont été examinées en utilisant l'analyse de haplotypes. Les variantes nongénotypées ont été imputées en utilisant les données de HAPMAP et les associations avec SNPs imputés ont été examinées en utilisant des méthodes standard. Résultats - Parmi 645 patients avec la MC, 364 (56.2%) ont reçu CS. La majorité de patients étaient des hommes (54.9 %); présentaient la maladie de l’iléocôlon (51.7%) ou la maladie inflammatoire (84.6%) au diagnostic et étaient les Caucasiens (95.6 %). Huit pourcents de patients étaient corticorésistants et 40.9% - corticodépendants. Le plus bas âge au diagnostic (OR=1.34, 95% CI: 1.03-3.01, p=0.040), la maladie cœxistante de la région digestive supérieure (OR=1.35, 95% CI: 95% CI: 1.06-3.07, p=0.031) et l’usage simultané des immunomodulateurs (OR=0.35, 95% CI: 0.16-0.75, p=0.007) ont été associés avec la corticodépendance. Un total de 27 marqueurs génotypés à travers de ABCB1 (n=14) et NR3C1 (n=13) ont été en l'Équilibre de Hardy-Weinberg, à l’exception d’un dans le gène NR3C1 (rs258751, exclu). Dans ABCB1, l'allèle rare de rs2032583 (OR=0.56, 95% CI: 0.34-0.95, p=0.029) et génotype hétérozygote (OR=0.52, 95% CI: 0.28-0.95 p=0.035) ont été négativement associes avec la dépendance de CS. Un haplotype à 3 marqueurs, comprenant le SNP fonctionnel rs1045642 a été associé avec la dépendance de CS (p empirique=0.004). 24 SNPs imputés introniques et six haplotypes ont été significativement associés avec la dépendance de CS. Aucune de ces associations n'a cependant maintenu la signification après des corrections pour des comparaisons multiples. Dans NR3C1, trois SNPs: rs10482682 (OR=1.43, 95% CI: 0.99-2.08, p=0.047), rs6196 (OR=0.55, 95% CI: 0.31-0.95, p=0.024), et rs2963155 (OR=0.64, 95% CI: 0.42-0.98, p=0.039), ont été associés sous un modèle additif, tandis que rs4912911 (OR=0.37, 95% CI: 0.13-1.00, p=0.03) et rs2963156 (OR=0.32, 95% CI: 0.07-1.12, p=0.047) - sous un modèle récessif. Deux haplotypes incluant ces 5 SNPs (AAACA et GGGCG) ont été significativement (p=0.006 et 0.01 empiriques) associés avec la corticodépendance. 19 SNPs imputés ont été associés avec la dépendance de CS. Deux haplotypes multimarqueurs (p=0.001), incluant les SNPs génotypés et imputés, ont été associés avec la dépendance de CS. Conclusion - Nos études suggèrent que le fardeau de la corticodépendance est élevé parmi les enfants avec le CD. Les enfants plus jeunes au diagnostic et ceux avec la maladie coexistante de la région supérieure ainsi que ceux avec des variations dans les gènes ABCB1 et NR3C1 étaient plus susceptibles de devenir corticodépendants.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The main objective of this letter is to formulate a new approach of learning a Mahalanobis distance metric for nearest neighbor regression from a training sample set. We propose a modified version of the large margin nearest neighbor metric learning method to deal with regression problems. As an application, the prediction of post-operative trunk 3-D shapes in scoliosis surgery using nearest neighbor regression is described. Accuracy of the proposed method is quantitatively evaluated through experiments on real medical data.