194 resultados para imputation
Resumo:
RESUMO - A obesidade constitui um importante problema de saúde pública com consequências económicas de grande dimensão. Os obesos têm um risco acrescido de contrair doenças e de sofrer morte prematura devido a problemas como a diabetes, hipertensão arterial, AVC, insuficiência cardíaca e algumas neoplasias malignas. O presente estudo tem como objectivo estimar o custo económico indirecto (valor da produção perdida) associado à obesidade em Portugal no ano de 2002. O estudo adopta uma abordagem tipo custos da doença baseada na prevalência. Os dados são retirados do Inquérito Nacional de Saúde e estatísticas de rotina publicadas pelo INE e por outros organismos oficiais. Consideram-se como obesas pessoas com índice de massa corporal (IMC) ≥ 30 kg/m2 e estabelecem-se como limites etários para participação em actividades económicas produtivas as idades compreendidas entre os 15 e os 64 anos. A estratégia de imputação de custos ao factor de risco obesidade caracteriza- se por estimar, para a população portuguesa, as proporções de doença e morte prematura atribuíveis à obesidade e em multiplicar as estimativas populacionais encontradas pelo valor da produtividade económica potencial das pessoas afectadas. O custo indirecto total da obesidade em Portugal no ano de 2002 foi estimado em 199,8 milhões de euros. A mortalidade contribuiu com 58,4% deste valor (117 milhões de euros) e a morbilidade com 41,6% (83 milhões de euros). Os custos da morbilidade advêm de mais de 1,6 milhões de dias de incapacidade anuais, principalmente por faltas ao trabalho associadas a doenças do sistema circulatório e diabetes tipo II. Os custos da mortalidade são o resultado de 18 733 potenciais anos de vida activa perdidos, numa razão de 3 mortes masculinas por cada morte feminina. Os resultados indicam que a obesidade acarreta consideráveis perdas económicas para o país. Comparando os resultados com um estudo complementar que calculou os custos directos (em cuidados de saúde) da obesidade, verifica-se que a componente indirecta representa 40,2% do total dos custos da obesidade. A implementação de estratégias que prevenissem ou reduzissem a incidência e prevalência de obesidade em Portugal poderia gerar ganhos de produtividade elevados. Para conhecer a dimensão destes ganhos é necessária mais investigação sobre os benefícios clínicos e relação custo-efectividade de estratégias para a redução da obesidade.
Resumo:
OBJECTIVES: The purpose of this study was to evaluate the association between inflammation and heart failure (HF) risk in older adults. BACKGROUND: Inflammation is associated with HF risk factors and also directly affects myocardial function. METHODS: The association of baseline serum concentrations of interleukin (IL)-6, tumor necrosis factor-alpha, and C-reactive protein (CRP) with incident HF was assessed with Cox models among 2,610 older persons without prevalent HF enrolled in the Health ABC (Health, Aging, and Body Composition) study (age 73.6 +/- 2.9 years; 48.3% men; 59.6% white). RESULTS: During follow-up (median 9.4 years), HF developed in 311 (11.9%) participants. In models controlling for clinical characteristics, ankle-arm index, and incident coronary heart disease, doubling of IL-6, tumor necrosis factor-alpha, and CRP concentrations was associated with 29% (95% confidence interval: 13% to 47%; p < 0.001), 46% (95% confidence interval: 17% to 84%; p = 0.001), and 9% (95% confidence interval: -1% to 24%; p = 0.087) increase in HF risk, respectively. In models including all 3 markers, IL-6, and tumor necrosis factor-alpha, but not CRP, remained significant. These associations were similar across sex and race and persisted in models accounting for death as a competing event. Post-HF ejection fraction was available in 239 (76.8%) cases; inflammatory markers had stronger association with HF with preserved ejection fraction. Repeat IL-6 and CRP determinations at 1-year follow-up did not provide incremental information. Addition of IL-6 to the clinical Health ABC HF model improved model discrimination (C index from 0.717 to 0.734; p = 0.001) and fit (decreased Bayes information criterion by 17.8; p < 0.001). CONCLUSIONS: Inflammatory markers are associated with HF risk among older adults and may improve HF risk stratification.
Resumo:
L'imputation est souvent utilisée dans les enquêtes pour traiter la non-réponse partielle. Il est bien connu que traiter les valeurs imputées comme des valeurs observées entraîne une sous-estimation importante de la variance des estimateurs ponctuels. Pour remédier à ce problème, plusieurs méthodes d'estimation de la variance ont été proposées dans la littérature, dont des méthodes adaptées de rééchantillonnage telles que le Bootstrap et le Jackknife. Nous définissons le concept de double-robustesse pour l'estimation ponctuelle et de variance sous l'approche par modèle de non-réponse et l'approche par modèle d'imputation. Nous mettons l'emphase sur l'estimation de la variance à l'aide du Jackknife qui est souvent utilisé dans la pratique. Nous étudions les propriétés de différents estimateurs de la variance à l'aide du Jackknife pour l'imputation par la régression déterministe ainsi qu'aléatoire. Nous nous penchons d'abord sur le cas de l'échantillon aléatoire simple. Les cas de l'échantillonnage stratifié et à probabilités inégales seront aussi étudiés. Une étude de simulation compare plusieurs méthodes d'estimation de variance à l'aide du Jackknife en terme de biais et de stabilité relative quand la fraction de sondage n'est pas négligeable. Finalement, nous établissons la normalité asymptotique des estimateurs imputés pour l'imputation par régression déterministe et aléatoire.
Resumo:
Les données manquantes sont fréquentes dans les enquêtes et peuvent entraîner d’importantes erreurs d’estimation de paramètres. Ce mémoire méthodologique en sociologie porte sur l’influence des données manquantes sur l’estimation de l’effet d’un programme de prévention. Les deux premières sections exposent les possibilités de biais engendrées par les données manquantes et présentent les approches théoriques permettant de les décrire. La troisième section porte sur les méthodes de traitement des données manquantes. Les méthodes classiques sont décrites ainsi que trois méthodes récentes. La quatrième section contient une présentation de l’Enquête longitudinale et expérimentale de Montréal (ELEM) et une description des données utilisées. La cinquième expose les analyses effectuées, elle contient : la méthode d’analyse de l’effet d’une intervention à partir de données longitudinales, une description approfondie des données manquantes de l’ELEM ainsi qu’un diagnostic des schémas et du mécanisme. La sixième section contient les résultats de l’estimation de l’effet du programme selon différents postulats concernant le mécanisme des données manquantes et selon quatre méthodes : l’analyse des cas complets, le maximum de vraisemblance, la pondération et l’imputation multiple. Ils indiquent (I) que le postulat sur le type de mécanisme MAR des données manquantes semble influencer l’estimation de l’effet du programme et que (II) les estimations obtenues par différentes méthodes d’estimation mènent à des conclusions similaires sur l’effet de l’intervention.
Resumo:
La question de la responsabilité pénale des intermédiaires techniques est un enjeu central et actuel dans la réglementation du cyberespace. Non seulement les implications économiques sont énormes mais c'est tout le cadre juridique de la responsabilité pénale des intermédiaires techniques qui est en cause. Or, l'environnement Internet comporte des spécificités qui rendent difficiles l'imputation de responsabilité à l'auteur de l'activité illicite qui peut alors se retrouver hors d'atteinte ou insolvable. La poursuite des intermédiaires techniques devient alors une solution envisageable aux autorités chargées de réprimer les délits, compte tenu de l'état de leur solvabilité et dans la mesure où ils sont plus facilement identifiables. Par le fait même, ces derniers se retrouvent alors pris dans l'engrenage judiciaire pour n'avoir que facilité la commission de l'activité en question, n'ayant aucunement pris part à la réalisation de celle-ci. L'absence dans le corpus législatif canadien d'un régime de responsabilité spécifiquement applicable aux intermédiaires techniques nous oblige à baliser les critères qui emportent leur responsabilité pénale, à partir de «principes directeurs» d'imputabilité se dégageant de plusieurs textes nationaux et internationaux. Dans ce contexte, le mémoire étudiera, dans un premier temps, les conditions d'ouverture de la responsabilité pénale des intermédiaires techniques en droit pénal canadien et, dans un deuxième temps, répondra à la question de savoir si le droit pénal canadien en matière d'imputabilité des intermédiaires techniques est conforme aux principes directeurs ressortant de normes et pratiques internationales.
Resumo:
Contexte - La variation interindividuelle de la réponse aux corticostéroïdes (CS) est un problème important chez les patients atteints de maladies inflammatoires d’intestin. Ce problème est bien plus accentué chez les enfants avec la prévalence de la corticodépendance extrêmement (~40 %) élevée. La maladie réfractaire au CS a des répercussions sur le développement et le bien-être physique et psychologique des patients et impose des coûts médicaux élevés, particulièrement avec la maladie active comparativement à la maladie en rémission, le coût étant 2-3 fois plus élevé en ambulatoire et 20 fois plus élevé en hôpital. Il est ainsi primordial de déterminer les marqueurs prédictifs de la réponse aux CS. Les efforts précédents de découvrir les marqueurs cliniques et démographiques ont été équivoques, ce qui souligne davantage le besoin de marqueurs moléculaires. L'action des CS se base sur des processus complexes déterminés génétiquement. Deux gènes, le ABCB1, appartenant à la famille des transporteurs transmembraneaux, et le NR3C1, encodant le récepteur glucocorticoïde, sont des éléments importants des voies métaboliques. Nous avons postulé que les variations dans ces gènes ont un rôle dans la variabilité observée de la réponse aux CS et pourraient servir en tant que les marqueurs prédictifs. Objectifs - Nous avons visé à: (1) examiner le fardeau de la maladie réfractaire aux CS chez les enfants avec la maladie de Crohn (MC) et le rôle des caractéristiques cliniques et démographiques potentiellement liés à la réponse; (2) étudier l'association entre les variantes d'ADN de gène ABCB1 et la réponse aux CS; (3) étudier les associations entre les variantes d'ADN de gène NR3C1 et la réponse aux CS. Méthodes - Afin d’atteindre ces objectifs, nous avons mené une étude de cohorte des patients recrutés dans deux cliniques pédiatriques tertiaires de gastroentérologie à l’Ottawa (CHEO) et à Montréal (HSJ). Les patients avec la MC ont été diagnostiqués avant l'âge de 18 ans selon les critères standard radiologiques, endoscopiques et histopathologiques. La corticorésistance et la corticodépendance ont été définies en adaptant les critères reconnus. L’ADN, acquise soit du sang ou de la salive, était génotypée pour des variations à travers de gènes ABCB1 et NR3C1 sélectionnées à l’aide de la méthodologie de tag-SNP. La fréquence de la corticorésistance et la corticodépendance a été estimée assumant une distribution binomiale. Les associations entre les variables cliniques/démographiques et la réponse aux CS ont été examinées en utilisant la régression logistique en ajustant pour des variables potentielles de confusion. Les associations entre variantes génétiques de ABCB1 et NR3C1 et la réponse aux CS ont été examinées en utilisant la régression logistique assumant différents modèles de la transmission. Les associations multimarqueurs ont été examinées en utilisant l'analyse de haplotypes. Les variantes nongénotypées ont été imputées en utilisant les données de HAPMAP et les associations avec SNPs imputés ont été examinées en utilisant des méthodes standard. Résultats - Parmi 645 patients avec la MC, 364 (56.2%) ont reçu CS. La majorité de patients étaient des hommes (54.9 %); présentaient la maladie de l’iléocôlon (51.7%) ou la maladie inflammatoire (84.6%) au diagnostic et étaient les Caucasiens (95.6 %). Huit pourcents de patients étaient corticorésistants et 40.9% - corticodépendants. Le plus bas âge au diagnostic (OR=1.34, 95% CI: 1.03-3.01, p=0.040), la maladie cœxistante de la région digestive supérieure (OR=1.35, 95% CI: 95% CI: 1.06-3.07, p=0.031) et l’usage simultané des immunomodulateurs (OR=0.35, 95% CI: 0.16-0.75, p=0.007) ont été associés avec la corticodépendance. Un total de 27 marqueurs génotypés à travers de ABCB1 (n=14) et NR3C1 (n=13) ont été en l'Équilibre de Hardy-Weinberg, à l’exception d’un dans le gène NR3C1 (rs258751, exclu). Dans ABCB1, l'allèle rare de rs2032583 (OR=0.56, 95% CI: 0.34-0.95, p=0.029) et génotype hétérozygote (OR=0.52, 95% CI: 0.28-0.95 p=0.035) ont été négativement associes avec la dépendance de CS. Un haplotype à 3 marqueurs, comprenant le SNP fonctionnel rs1045642 a été associé avec la dépendance de CS (p empirique=0.004). 24 SNPs imputés introniques et six haplotypes ont été significativement associés avec la dépendance de CS. Aucune de ces associations n'a cependant maintenu la signification après des corrections pour des comparaisons multiples. Dans NR3C1, trois SNPs: rs10482682 (OR=1.43, 95% CI: 0.99-2.08, p=0.047), rs6196 (OR=0.55, 95% CI: 0.31-0.95, p=0.024), et rs2963155 (OR=0.64, 95% CI: 0.42-0.98, p=0.039), ont été associés sous un modèle additif, tandis que rs4912911 (OR=0.37, 95% CI: 0.13-1.00, p=0.03) et rs2963156 (OR=0.32, 95% CI: 0.07-1.12, p=0.047) - sous un modèle récessif. Deux haplotypes incluant ces 5 SNPs (AAACA et GGGCG) ont été significativement (p=0.006 et 0.01 empiriques) associés avec la corticodépendance. 19 SNPs imputés ont été associés avec la dépendance de CS. Deux haplotypes multimarqueurs (p=0.001), incluant les SNPs génotypés et imputés, ont été associés avec la dépendance de CS. Conclusion - Nos études suggèrent que le fardeau de la corticodépendance est élevé parmi les enfants avec le CD. Les enfants plus jeunes au diagnostic et ceux avec la maladie coexistante de la région supérieure ainsi que ceux avec des variations dans les gènes ABCB1 et NR3C1 étaient plus susceptibles de devenir corticodépendants.
Resumo:
Les travaux portent sur l’estimation de la variance dans le cas d’une non- réponse partielle traitée par une procédure d’imputation. Traiter les valeurs imputées comme si elles avaient été observées peut mener à une sous-estimation substantielle de la variance des estimateurs ponctuels. Les estimateurs de variance usuels reposent sur la disponibilité des probabilités d’inclusion d’ordre deux, qui sont parfois difficiles (voire impossibles) à calculer. Nous proposons d’examiner les propriétés d’estimateurs de variance obtenus au moyen d’approximations des probabilités d’inclusion d’ordre deux. Ces approximations s’expriment comme une fonction des probabilités d’inclusion d’ordre un et sont généralement valides pour des plans à grande entropie. Les résultats d’une étude de simulation, évaluant les propriétés des estimateurs de variance proposés en termes de biais et d’erreur quadratique moyenne, seront présentés.
Resumo:
Le sujet principal de cette thèse porte sur l'étude de l'estimation de la variance d'une statistique basée sur des données d'enquête imputées via le bootstrap (ou la méthode de Cyrano). L'application d'une méthode bootstrap conçue pour des données d'enquête complètes (en absence de non-réponse) en présence de valeurs imputées et faire comme si celles-ci étaient de vraies observations peut conduire à une sous-estimation de la variance. Dans ce contexte, Shao et Sitter (1996) ont introduit une procédure bootstrap dans laquelle la variable étudiée et l'indicateur de réponse sont rééchantillonnés ensemble et les non-répondants bootstrap sont imputés de la même manière qu'est traité l'échantillon original. L'estimation bootstrap de la variance obtenue est valide lorsque la fraction de sondage est faible. Dans le chapitre 1, nous commençons par faire une revue des méthodes bootstrap existantes pour les données d'enquête (complètes et imputées) et les présentons dans un cadre unifié pour la première fois dans la littérature. Dans le chapitre 2, nous introduisons une nouvelle procédure bootstrap pour estimer la variance sous l'approche du modèle de non-réponse lorsque le mécanisme de non-réponse uniforme est présumé. En utilisant seulement les informations sur le taux de réponse, contrairement à Shao et Sitter (1996) qui nécessite l'indicateur de réponse individuelle, l'indicateur de réponse bootstrap est généré pour chaque échantillon bootstrap menant à un estimateur bootstrap de la variance valide même pour les fractions de sondage non-négligeables. Dans le chapitre 3, nous étudions les approches bootstrap par pseudo-population et nous considérons une classe plus générale de mécanismes de non-réponse. Nous développons deux procédures bootstrap par pseudo-population pour estimer la variance d'un estimateur imputé par rapport à l'approche du modèle de non-réponse et à celle du modèle d'imputation. Ces procédures sont également valides même pour des fractions de sondage non-négligeables.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
Cette thèse comporte trois articles dont un est publié et deux en préparation. Le sujet central de la thèse porte sur le traitement des valeurs aberrantes représentatives dans deux aspects importants des enquêtes que sont : l’estimation des petits domaines et l’imputation en présence de non-réponse partielle. En ce qui concerne les petits domaines, les estimateurs robustes dans le cadre des modèles au niveau des unités ont été étudiés. Sinha & Rao (2009) proposent une version robuste du meilleur prédicteur linéaire sans biais empirique pour la moyenne des petits domaines. Leur estimateur robuste est de type «plugin», et à la lumière des travaux de Chambers (1986), cet estimateur peut être biaisé dans certaines situations. Chambers et al. (2014) proposent un estimateur corrigé du biais. En outre, un estimateur de l’erreur quadratique moyenne a été associé à ces estimateurs ponctuels. Sinha & Rao (2009) proposent une procédure bootstrap paramétrique pour estimer l’erreur quadratique moyenne. Des méthodes analytiques sont proposées dans Chambers et al. (2014). Cependant, leur validité théorique n’a pas été établie et leurs performances empiriques ne sont pas pleinement satisfaisantes. Ici, nous examinons deux nouvelles approches pour obtenir une version robuste du meilleur prédicteur linéaire sans biais empirique : la première est fondée sur les travaux de Chambers (1986), et la deuxième est basée sur le concept de biais conditionnel comme mesure de l’influence d’une unité de la population. Ces deux classes d’estimateurs robustes des petits domaines incluent également un terme de correction pour le biais. Cependant, ils utilisent tous les deux l’information disponible dans tous les domaines contrairement à celui de Chambers et al. (2014) qui utilise uniquement l’information disponible dans le domaine d’intérêt. Dans certaines situations, un biais non négligeable est possible pour l’estimateur de Sinha & Rao (2009), alors que les estimateurs proposés exhibent un faible biais pour un choix approprié de la fonction d’influence et de la constante de robustesse. Les simulations Monte Carlo sont effectuées, et les comparaisons sont faites entre les estimateurs proposés et ceux de Sinha & Rao (2009) et de Chambers et al. (2014). Les résultats montrent que les estimateurs de Sinha & Rao (2009) et de Chambers et al. (2014) peuvent avoir un biais important, alors que les estimateurs proposés ont une meilleure performance en termes de biais et d’erreur quadratique moyenne. En outre, nous proposons une nouvelle procédure bootstrap pour l’estimation de l’erreur quadratique moyenne des estimateurs robustes des petits domaines. Contrairement aux procédures existantes, nous montrons formellement la validité asymptotique de la méthode bootstrap proposée. Par ailleurs, la méthode proposée est semi-paramétrique, c’est-à-dire, elle n’est pas assujettie à une hypothèse sur les distributions des erreurs ou des effets aléatoires. Ainsi, elle est particulièrement attrayante et plus largement applicable. Nous examinons les performances de notre procédure bootstrap avec les simulations Monte Carlo. Les résultats montrent que notre procédure performe bien et surtout performe mieux que tous les compétiteurs étudiés. Une application de la méthode proposée est illustrée en analysant les données réelles contenant des valeurs aberrantes de Battese, Harter & Fuller (1988). S’agissant de l’imputation en présence de non-réponse partielle, certaines formes d’imputation simple ont été étudiées. L’imputation par la régression déterministe entre les classes, qui inclut l’imputation par le ratio et l’imputation par la moyenne sont souvent utilisées dans les enquêtes. Ces méthodes d’imputation peuvent conduire à des estimateurs imputés biaisés si le modèle d’imputation ou le modèle de non-réponse n’est pas correctement spécifié. Des estimateurs doublement robustes ont été développés dans les années récentes. Ces estimateurs sont sans biais si l’un au moins des modèles d’imputation ou de non-réponse est bien spécifié. Cependant, en présence des valeurs aberrantes, les estimateurs imputés doublement robustes peuvent être très instables. En utilisant le concept de biais conditionnel, nous proposons une version robuste aux valeurs aberrantes de l’estimateur doublement robuste. Les résultats des études par simulations montrent que l’estimateur proposé performe bien pour un choix approprié de la constante de robustesse.
Resumo:
Learning Disability (LD) is a classification including several disorders in which a child has difficulty in learning in a typical manner, usually caused by an unknown factor or factors. LD affects about 15% of children enrolled in schools. The prediction of learning disability is a complicated task since the identification of LD from diverse features or signs is a complicated problem. There is no cure for learning disabilities and they are life-long. The problems of children with specific learning disabilities have been a cause of concern to parents and teachers for some time. The aim of this paper is to develop a new algorithm for imputing missing values and to determine the significance of the missing value imputation method and dimensionality reduction method in the performance of fuzzy and neuro fuzzy classifiers with specific emphasis on prediction of learning disabilities in school age children. In the basic assessment method for prediction of LD, checklists are generally used and the data cases thus collected fully depends on the mood of children and may have also contain redundant as well as missing values. Therefore, in this study, we are proposing a new algorithm, viz. the correlation based new algorithm for imputing the missing values and Principal Component Analysis (PCA) for reducing the irrelevant attributes. After the study, it is found that, the preprocessing methods applied by us improves the quality of data and thereby increases the accuracy of the classifiers. The system is implemented in Math works Software Mat Lab 7.10. The results obtained from this study have illustrated that the developed missing value imputation method is very good contribution in prediction system and is capable of improving the performance of a classifier.
Resumo:
As stated in Aitchison (1986), a proper study of relative variation in a compositional data set should be based on logratios, and dealing with logratios excludes dealing with zeros. Nevertheless, it is clear that zero observations might be present in real data sets, either because the corresponding part is completely absent –essential zeros– or because it is below detection limit –rounded zeros. Because the second kind of zeros is usually understood as “a trace too small to measure”, it seems reasonable to replace them by a suitable small value, and this has been the traditional approach. As stated, e.g. by Tauber (1999) and by Martín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2000), the principal problem in compositional data analysis is related to rounded zeros. One should be careful to use a replacement strategy that does not seriously distort the general structure of the data. In particular, the covariance structure of the involved parts –and thus the metric properties– should be preserved, as otherwise further analysis on subpopulations could be misleading. Following this point of view, a non-parametric imputation method is introduced in Martín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2000). This method is analyzed in depth by Martín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2003) where it is shown that the theoretical drawbacks of the additive zero replacement method proposed in Aitchison (1986) can be overcome using a new multiplicative approach on the non-zero parts of a composition. The new approach has reasonable properties from a compositional point of view. In particular, it is “natural” in the sense that it recovers the “true” composition if replacement values are identical to the missing values, and it is coherent with the basic operations on the simplex. This coherence implies that the covariance structure of subcompositions with no zeros is preserved. As a generalization of the multiplicative replacement, in the same paper a substitution method for missing values on compositional data sets is introduced
Resumo:
All of the imputation techniques usually applied for replacing values below the detection limit in compositional data sets have adverse effects on the variability. In this work we propose a modification of the EM algorithm that is applied using the additive log-ratio transformation. This new strategy is applied to a compositional data set and the results are compared with the usual imputation techniques
Resumo:
Low concentrations of elements in geochemical analyses have the peculiarity of being compositional data and, for a given level of significance, are likely to be beyond the capabilities of laboratories to distinguish between minute concentrations and complete absence, thus preventing laboratories from reporting extremely low concentrations of the analyte. Instead, what is reported is the detection limit, which is the minimum concentration that conclusively differentiates between presence and absence of the element. A spatially distributed exhaustive sample is employed in this study to generate unbiased sub-samples, which are further censored to observe the effect that different detection limits and sample sizes have on the inference of population distributions starting from geochemical analyses having specimens below detection limit (nondetects). The isometric logratio transformation is used to convert the compositional data in the simplex to samples in real space, thus allowing the practitioner to properly borrow from the large source of statistical techniques valid only in real space. The bootstrap method is used to numerically investigate the reliability of inferring several distributional parameters employing different forms of imputation for the censored data. The case study illustrates that, in general, best results are obtained when imputations are made using the distribution best fitting the readings above detection limit and exposes the problems of other more widely used practices. When the sample is spatially correlated, it is necessary to combine the bootstrap with stochastic simulation
Resumo:
There is almost not a case in exploration geology, where the studied data doesn’t includes below detection limits and/or zero values, and since most of the geological data responds to lognormal distributions, these “zero data” represent a mathematical challenge for the interpretation. We need to start by recognizing that there are zero values in geology. For example the amount of quartz in a foyaite (nepheline syenite) is zero, since quartz cannot co-exists with nepheline. Another common essential zero is a North azimuth, however we can always change that zero for the value of 360°. These are known as “Essential zeros”, but what can we do with “Rounded zeros” that are the result of below the detection limit of the equipment? Amalgamation, e.g. adding Na2O and K2O, as total alkalis is a solution, but sometimes we need to differentiate between a sodic and a potassic alteration. Pre-classification into groups requires a good knowledge of the distribution of the data and the geochemical characteristics of the groups which is not always available. Considering the zero values equal to the limit of detection of the used equipment will generate spurious distributions, especially in ternary diagrams. Same situation will occur if we replace the zero values by a small amount using non-parametric or parametric techniques (imputation). The method that we are proposing takes into consideration the well known relationships between some elements. For example, in copper porphyry deposits, there is always a good direct correlation between the copper values and the molybdenum ones, but while copper will always be above the limit of detection, many of the molybdenum values will be “rounded zeros”. So, we will take the lower quartile of the real molybdenum values and establish a regression equation with copper, and then we will estimate the “rounded” zero values of molybdenum by their corresponding copper values. The method could be applied to any type of data, provided we establish first their correlation dependency. One of the main advantages of this method is that we do not obtain a fixed value for the “rounded zeros”, but one that depends on the value of the other variable. Key words: compositional data analysis, treatment of zeros, essential zeros, rounded zeros, correlation dependency