10 resultados para imputation

em Université de Montréal, Canada


Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les logiciels utilisés sont Splus et R.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L’imputation simple est très souvent utilisée dans les enquêtes pour compenser pour la non-réponse partielle. Dans certaines situations, la variable nécessitant l’imputation prend des valeurs nulles un très grand nombre de fois. Ceci est très fréquent dans les enquêtes entreprises qui collectent les variables économiques. Dans ce mémoire, nous étudions les propriétés de deux méthodes d’imputation souvent utilisées en pratique et nous montrons qu’elles produisent des estimateurs imputés biaisés en général. Motivé par un modèle de mélange, nous proposons trois méthodes d’imputation et étudions leurs propriétés en termes de biais. Pour ces méthodes d’imputation, nous considérons un estimateur jackknife de la variance convergent vers la vraie variance, sous l’hypothèse que la fraction de sondage est négligeable. Finalement, nous effectuons une étude par simulation pour étudier la performance des estimateurs ponctuels et de variance en termes de biais et d’erreur quadratique moyenne.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L'imputation est souvent utilisée dans les enquêtes pour traiter la non-réponse partielle. Il est bien connu que traiter les valeurs imputées comme des valeurs observées entraîne une sous-estimation importante de la variance des estimateurs ponctuels. Pour remédier à ce problème, plusieurs méthodes d'estimation de la variance ont été proposées dans la littérature, dont des méthodes adaptées de rééchantillonnage telles que le Bootstrap et le Jackknife. Nous définissons le concept de double-robustesse pour l'estimation ponctuelle et de variance sous l'approche par modèle de non-réponse et l'approche par modèle d'imputation. Nous mettons l'emphase sur l'estimation de la variance à l'aide du Jackknife qui est souvent utilisé dans la pratique. Nous étudions les propriétés de différents estimateurs de la variance à l'aide du Jackknife pour l'imputation par la régression déterministe ainsi qu'aléatoire. Nous nous penchons d'abord sur le cas de l'échantillon aléatoire simple. Les cas de l'échantillonnage stratifié et à probabilités inégales seront aussi étudiés. Une étude de simulation compare plusieurs méthodes d'estimation de variance à l'aide du Jackknife en terme de biais et de stabilité relative quand la fraction de sondage n'est pas négligeable. Finalement, nous établissons la normalité asymptotique des estimateurs imputés pour l'imputation par régression déterministe et aléatoire.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les données manquantes sont fréquentes dans les enquêtes et peuvent entraîner d’importantes erreurs d’estimation de paramètres. Ce mémoire méthodologique en sociologie porte sur l’influence des données manquantes sur l’estimation de l’effet d’un programme de prévention. Les deux premières sections exposent les possibilités de biais engendrées par les données manquantes et présentent les approches théoriques permettant de les décrire. La troisième section porte sur les méthodes de traitement des données manquantes. Les méthodes classiques sont décrites ainsi que trois méthodes récentes. La quatrième section contient une présentation de l’Enquête longitudinale et expérimentale de Montréal (ELEM) et une description des données utilisées. La cinquième expose les analyses effectuées, elle contient : la méthode d’analyse de l’effet d’une intervention à partir de données longitudinales, une description approfondie des données manquantes de l’ELEM ainsi qu’un diagnostic des schémas et du mécanisme. La sixième section contient les résultats de l’estimation de l’effet du programme selon différents postulats concernant le mécanisme des données manquantes et selon quatre méthodes : l’analyse des cas complets, le maximum de vraisemblance, la pondération et l’imputation multiple. Ils indiquent (I) que le postulat sur le type de mécanisme MAR des données manquantes semble influencer l’estimation de l’effet du programme et que (II) les estimations obtenues par différentes méthodes d’estimation mènent à des conclusions similaires sur l’effet de l’intervention.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La question de la responsabilité pénale des intermédiaires techniques est un enjeu central et actuel dans la réglementation du cyberespace. Non seulement les implications économiques sont énormes mais c'est tout le cadre juridique de la responsabilité pénale des intermédiaires techniques qui est en cause. Or, l'environnement Internet comporte des spécificités qui rendent difficiles l'imputation de responsabilité à l'auteur de l'activité illicite qui peut alors se retrouver hors d'atteinte ou insolvable. La poursuite des intermédiaires techniques devient alors une solution envisageable aux autorités chargées de réprimer les délits, compte tenu de l'état de leur solvabilité et dans la mesure où ils sont plus facilement identifiables. Par le fait même, ces derniers se retrouvent alors pris dans l'engrenage judiciaire pour n'avoir que facilité la commission de l'activité en question, n'ayant aucunement pris part à la réalisation de celle-ci. L'absence dans le corpus législatif canadien d'un régime de responsabilité spécifiquement applicable aux intermédiaires techniques nous oblige à baliser les critères qui emportent leur responsabilité pénale, à partir de «principes directeurs» d'imputabilité se dégageant de plusieurs textes nationaux et internationaux. Dans ce contexte, le mémoire étudiera, dans un premier temps, les conditions d'ouverture de la responsabilité pénale des intermédiaires techniques en droit pénal canadien et, dans un deuxième temps, répondra à la question de savoir si le droit pénal canadien en matière d'imputabilité des intermédiaires techniques est conforme aux principes directeurs ressortant de normes et pratiques internationales.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Contexte - La variation interindividuelle de la réponse aux corticostéroïdes (CS) est un problème important chez les patients atteints de maladies inflammatoires d’intestin. Ce problème est bien plus accentué chez les enfants avec la prévalence de la corticodépendance extrêmement (~40 %) élevée. La maladie réfractaire au CS a des répercussions sur le développement et le bien-être physique et psychologique des patients et impose des coûts médicaux élevés, particulièrement avec la maladie active comparativement à la maladie en rémission, le coût étant 2-3 fois plus élevé en ambulatoire et 20 fois plus élevé en hôpital. Il est ainsi primordial de déterminer les marqueurs prédictifs de la réponse aux CS. Les efforts précédents de découvrir les marqueurs cliniques et démographiques ont été équivoques, ce qui souligne davantage le besoin de marqueurs moléculaires. L'action des CS se base sur des processus complexes déterminés génétiquement. Deux gènes, le ABCB1, appartenant à la famille des transporteurs transmembraneaux, et le NR3C1, encodant le récepteur glucocorticoïde, sont des éléments importants des voies métaboliques. Nous avons postulé que les variations dans ces gènes ont un rôle dans la variabilité observée de la réponse aux CS et pourraient servir en tant que les marqueurs prédictifs. Objectifs - Nous avons visé à: (1) examiner le fardeau de la maladie réfractaire aux CS chez les enfants avec la maladie de Crohn (MC) et le rôle des caractéristiques cliniques et démographiques potentiellement liés à la réponse; (2) étudier l'association entre les variantes d'ADN de gène ABCB1 et la réponse aux CS; (3) étudier les associations entre les variantes d'ADN de gène NR3C1 et la réponse aux CS. Méthodes - Afin d’atteindre ces objectifs, nous avons mené une étude de cohorte des patients recrutés dans deux cliniques pédiatriques tertiaires de gastroentérologie à l’Ottawa (CHEO) et à Montréal (HSJ). Les patients avec la MC ont été diagnostiqués avant l'âge de 18 ans selon les critères standard radiologiques, endoscopiques et histopathologiques. La corticorésistance et la corticodépendance ont été définies en adaptant les critères reconnus. L’ADN, acquise soit du sang ou de la salive, était génotypée pour des variations à travers de gènes ABCB1 et NR3C1 sélectionnées à l’aide de la méthodologie de tag-SNP. La fréquence de la corticorésistance et la corticodépendance a été estimée assumant une distribution binomiale. Les associations entre les variables cliniques/démographiques et la réponse aux CS ont été examinées en utilisant la régression logistique en ajustant pour des variables potentielles de confusion. Les associations entre variantes génétiques de ABCB1 et NR3C1 et la réponse aux CS ont été examinées en utilisant la régression logistique assumant différents modèles de la transmission. Les associations multimarqueurs ont été examinées en utilisant l'analyse de haplotypes. Les variantes nongénotypées ont été imputées en utilisant les données de HAPMAP et les associations avec SNPs imputés ont été examinées en utilisant des méthodes standard. Résultats - Parmi 645 patients avec la MC, 364 (56.2%) ont reçu CS. La majorité de patients étaient des hommes (54.9 %); présentaient la maladie de l’iléocôlon (51.7%) ou la maladie inflammatoire (84.6%) au diagnostic et étaient les Caucasiens (95.6 %). Huit pourcents de patients étaient corticorésistants et 40.9% - corticodépendants. Le plus bas âge au diagnostic (OR=1.34, 95% CI: 1.03-3.01, p=0.040), la maladie cœxistante de la région digestive supérieure (OR=1.35, 95% CI: 95% CI: 1.06-3.07, p=0.031) et l’usage simultané des immunomodulateurs (OR=0.35, 95% CI: 0.16-0.75, p=0.007) ont été associés avec la corticodépendance. Un total de 27 marqueurs génotypés à travers de ABCB1 (n=14) et NR3C1 (n=13) ont été en l'Équilibre de Hardy-Weinberg, à l’exception d’un dans le gène NR3C1 (rs258751, exclu). Dans ABCB1, l'allèle rare de rs2032583 (OR=0.56, 95% CI: 0.34-0.95, p=0.029) et génotype hétérozygote (OR=0.52, 95% CI: 0.28-0.95 p=0.035) ont été négativement associes avec la dépendance de CS. Un haplotype à 3 marqueurs, comprenant le SNP fonctionnel rs1045642 a été associé avec la dépendance de CS (p empirique=0.004). 24 SNPs imputés introniques et six haplotypes ont été significativement associés avec la dépendance de CS. Aucune de ces associations n'a cependant maintenu la signification après des corrections pour des comparaisons multiples. Dans NR3C1, trois SNPs: rs10482682 (OR=1.43, 95% CI: 0.99-2.08, p=0.047), rs6196 (OR=0.55, 95% CI: 0.31-0.95, p=0.024), et rs2963155 (OR=0.64, 95% CI: 0.42-0.98, p=0.039), ont été associés sous un modèle additif, tandis que rs4912911 (OR=0.37, 95% CI: 0.13-1.00, p=0.03) et rs2963156 (OR=0.32, 95% CI: 0.07-1.12, p=0.047) - sous un modèle récessif. Deux haplotypes incluant ces 5 SNPs (AAACA et GGGCG) ont été significativement (p=0.006 et 0.01 empiriques) associés avec la corticodépendance. 19 SNPs imputés ont été associés avec la dépendance de CS. Deux haplotypes multimarqueurs (p=0.001), incluant les SNPs génotypés et imputés, ont été associés avec la dépendance de CS. Conclusion - Nos études suggèrent que le fardeau de la corticodépendance est élevé parmi les enfants avec le CD. Les enfants plus jeunes au diagnostic et ceux avec la maladie coexistante de la région supérieure ainsi que ceux avec des variations dans les gènes ABCB1 et NR3C1 étaient plus susceptibles de devenir corticodépendants.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les travaux portent sur l’estimation de la variance dans le cas d’une non- réponse partielle traitée par une procédure d’imputation. Traiter les valeurs imputées comme si elles avaient été observées peut mener à une sous-estimation substantielle de la variance des estimateurs ponctuels. Les estimateurs de variance usuels reposent sur la disponibilité des probabilités d’inclusion d’ordre deux, qui sont parfois difficiles (voire impossibles) à calculer. Nous proposons d’examiner les propriétés d’estimateurs de variance obtenus au moyen d’approximations des probabilités d’inclusion d’ordre deux. Ces approximations s’expriment comme une fonction des probabilités d’inclusion d’ordre un et sont généralement valides pour des plans à grande entropie. Les résultats d’une étude de simulation, évaluant les propriétés des estimateurs de variance proposés en termes de biais et d’erreur quadratique moyenne, seront présentés.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Le sujet principal de cette thèse porte sur l'étude de l'estimation de la variance d'une statistique basée sur des données d'enquête imputées via le bootstrap (ou la méthode de Cyrano). L'application d'une méthode bootstrap conçue pour des données d'enquête complètes (en absence de non-réponse) en présence de valeurs imputées et faire comme si celles-ci étaient de vraies observations peut conduire à une sous-estimation de la variance. Dans ce contexte, Shao et Sitter (1996) ont introduit une procédure bootstrap dans laquelle la variable étudiée et l'indicateur de réponse sont rééchantillonnés ensemble et les non-répondants bootstrap sont imputés de la même manière qu'est traité l'échantillon original. L'estimation bootstrap de la variance obtenue est valide lorsque la fraction de sondage est faible. Dans le chapitre 1, nous commençons par faire une revue des méthodes bootstrap existantes pour les données d'enquête (complètes et imputées) et les présentons dans un cadre unifié pour la première fois dans la littérature. Dans le chapitre 2, nous introduisons une nouvelle procédure bootstrap pour estimer la variance sous l'approche du modèle de non-réponse lorsque le mécanisme de non-réponse uniforme est présumé. En utilisant seulement les informations sur le taux de réponse, contrairement à Shao et Sitter (1996) qui nécessite l'indicateur de réponse individuelle, l'indicateur de réponse bootstrap est généré pour chaque échantillon bootstrap menant à un estimateur bootstrap de la variance valide même pour les fractions de sondage non-négligeables. Dans le chapitre 3, nous étudions les approches bootstrap par pseudo-population et nous considérons une classe plus générale de mécanismes de non-réponse. Nous développons deux procédures bootstrap par pseudo-population pour estimer la variance d'un estimateur imputé par rapport à l'approche du modèle de non-réponse et à celle du modèle d'imputation. Ces procédures sont également valides même pour des fractions de sondage non-négligeables.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Cette thèse comporte trois articles dont un est publié et deux en préparation. Le sujet central de la thèse porte sur le traitement des valeurs aberrantes représentatives dans deux aspects importants des enquêtes que sont : l’estimation des petits domaines et l’imputation en présence de non-réponse partielle. En ce qui concerne les petits domaines, les estimateurs robustes dans le cadre des modèles au niveau des unités ont été étudiés. Sinha & Rao (2009) proposent une version robuste du meilleur prédicteur linéaire sans biais empirique pour la moyenne des petits domaines. Leur estimateur robuste est de type «plugin», et à la lumière des travaux de Chambers (1986), cet estimateur peut être biaisé dans certaines situations. Chambers et al. (2014) proposent un estimateur corrigé du biais. En outre, un estimateur de l’erreur quadratique moyenne a été associé à ces estimateurs ponctuels. Sinha & Rao (2009) proposent une procédure bootstrap paramétrique pour estimer l’erreur quadratique moyenne. Des méthodes analytiques sont proposées dans Chambers et al. (2014). Cependant, leur validité théorique n’a pas été établie et leurs performances empiriques ne sont pas pleinement satisfaisantes. Ici, nous examinons deux nouvelles approches pour obtenir une version robuste du meilleur prédicteur linéaire sans biais empirique : la première est fondée sur les travaux de Chambers (1986), et la deuxième est basée sur le concept de biais conditionnel comme mesure de l’influence d’une unité de la population. Ces deux classes d’estimateurs robustes des petits domaines incluent également un terme de correction pour le biais. Cependant, ils utilisent tous les deux l’information disponible dans tous les domaines contrairement à celui de Chambers et al. (2014) qui utilise uniquement l’information disponible dans le domaine d’intérêt. Dans certaines situations, un biais non négligeable est possible pour l’estimateur de Sinha & Rao (2009), alors que les estimateurs proposés exhibent un faible biais pour un choix approprié de la fonction d’influence et de la constante de robustesse. Les simulations Monte Carlo sont effectuées, et les comparaisons sont faites entre les estimateurs proposés et ceux de Sinha & Rao (2009) et de Chambers et al. (2014). Les résultats montrent que les estimateurs de Sinha & Rao (2009) et de Chambers et al. (2014) peuvent avoir un biais important, alors que les estimateurs proposés ont une meilleure performance en termes de biais et d’erreur quadratique moyenne. En outre, nous proposons une nouvelle procédure bootstrap pour l’estimation de l’erreur quadratique moyenne des estimateurs robustes des petits domaines. Contrairement aux procédures existantes, nous montrons formellement la validité asymptotique de la méthode bootstrap proposée. Par ailleurs, la méthode proposée est semi-paramétrique, c’est-à-dire, elle n’est pas assujettie à une hypothèse sur les distributions des erreurs ou des effets aléatoires. Ainsi, elle est particulièrement attrayante et plus largement applicable. Nous examinons les performances de notre procédure bootstrap avec les simulations Monte Carlo. Les résultats montrent que notre procédure performe bien et surtout performe mieux que tous les compétiteurs étudiés. Une application de la méthode proposée est illustrée en analysant les données réelles contenant des valeurs aberrantes de Battese, Harter & Fuller (1988). S’agissant de l’imputation en présence de non-réponse partielle, certaines formes d’imputation simple ont été étudiées. L’imputation par la régression déterministe entre les classes, qui inclut l’imputation par le ratio et l’imputation par la moyenne sont souvent utilisées dans les enquêtes. Ces méthodes d’imputation peuvent conduire à des estimateurs imputés biaisés si le modèle d’imputation ou le modèle de non-réponse n’est pas correctement spécifié. Des estimateurs doublement robustes ont été développés dans les années récentes. Ces estimateurs sont sans biais si l’un au moins des modèles d’imputation ou de non-réponse est bien spécifié. Cependant, en présence des valeurs aberrantes, les estimateurs imputés doublement robustes peuvent être très instables. En utilisant le concept de biais conditionnel, nous proposons une version robuste aux valeurs aberrantes de l’estimateur doublement robuste. Les résultats des études par simulations montrent que l’estimateur proposé performe bien pour un choix approprié de la constante de robustesse.