943 resultados para statistical softwares
Resumo:
We discuss statistical inference problems associated with identification and testability in econometrics, and we emphasize the common nature of the two issues. After reviewing the relevant statistical notions, we consider in turn inference in nonparametric models and recent developments on weakly identified models (or weak instruments). We point out that many hypotheses, for which test procedures are commonly proposed, are not testable at all, while some frequently used econometric methods are fundamentally inappropriate for the models considered. Such situations lead to ill-defined statistical problems and are often associated with a misguided use of asymptotic distributional results. Concerning nonparametric hypotheses, we discuss three basic problems for which such difficulties occur: (1) testing a mean (or a moment) under (too) weak distributional assumptions; (2) inference under heteroskedasticity of unknown form; (3) inference in dynamic models with an unlimited number of parameters. Concerning weakly identified models, we stress that valid inference should be based on proper pivotal functions —a condition not satisfied by standard Wald-type methods based on standard errors — and we discuss recent developments in this field, mainly from the viewpoint of building valid tests and confidence sets. The techniques discussed include alternative proposed statistics, bounds, projection, split-sampling, conditioning, Monte Carlo tests. The possibility of deriving a finite-sample distributional theory, robustness to the presence of weak instruments, and robustness to the specification of a model for endogenous explanatory variables are stressed as important criteria assessing alternative procedures.
Resumo:
Contexte. Les études cas-témoins sont très fréquemment utilisées par les épidémiologistes pour évaluer l’impact de certaines expositions sur une maladie particulière. Ces expositions peuvent être représentées par plusieurs variables dépendant du temps, et de nouvelles méthodes sont nécessaires pour estimer de manière précise leurs effets. En effet, la régression logistique qui est la méthode conventionnelle pour analyser les données cas-témoins ne tient pas directement compte des changements de valeurs des covariables au cours du temps. Par opposition, les méthodes d’analyse des données de survie telles que le modèle de Cox à risques instantanés proportionnels peuvent directement incorporer des covariables dépendant du temps représentant les histoires individuelles d’exposition. Cependant, cela nécessite de manipuler les ensembles de sujets à risque avec précaution à cause du sur-échantillonnage des cas, en comparaison avec les témoins, dans les études cas-témoins. Comme montré dans une étude de simulation précédente, la définition optimale des ensembles de sujets à risque pour l’analyse des données cas-témoins reste encore à être élucidée, et à être étudiée dans le cas des variables dépendant du temps. Objectif: L’objectif général est de proposer et d’étudier de nouvelles versions du modèle de Cox pour estimer l’impact d’expositions variant dans le temps dans les études cas-témoins, et de les appliquer à des données réelles cas-témoins sur le cancer du poumon et le tabac. Méthodes. J’ai identifié de nouvelles définitions d’ensemble de sujets à risque, potentiellement optimales (le Weighted Cox model and le Simple weighted Cox model), dans lesquelles différentes pondérations ont été affectées aux cas et aux témoins, afin de refléter les proportions de cas et de non cas dans la population source. Les propriétés des estimateurs des effets d’exposition ont été étudiées par simulation. Différents aspects d’exposition ont été générés (intensité, durée, valeur cumulée d’exposition). Les données cas-témoins générées ont été ensuite analysées avec différentes versions du modèle de Cox, incluant les définitions anciennes et nouvelles des ensembles de sujets à risque, ainsi qu’avec la régression logistique conventionnelle, à des fins de comparaison. Les différents modèles de régression ont ensuite été appliqués sur des données réelles cas-témoins sur le cancer du poumon. Les estimations des effets de différentes variables de tabac, obtenues avec les différentes méthodes, ont été comparées entre elles, et comparées aux résultats des simulations. Résultats. Les résultats des simulations montrent que les estimations des nouveaux modèles de Cox pondérés proposés, surtout celles du Weighted Cox model, sont bien moins biaisées que les estimations des modèles de Cox existants qui incluent ou excluent simplement les futurs cas de chaque ensemble de sujets à risque. De plus, les estimations du Weighted Cox model étaient légèrement, mais systématiquement, moins biaisées que celles de la régression logistique. L’application aux données réelles montre de plus grandes différences entre les estimations de la régression logistique et des modèles de Cox pondérés, pour quelques variables de tabac dépendant du temps. Conclusions. Les résultats suggèrent que le nouveau modèle de Cox pondéré propose pourrait être une alternative intéressante au modèle de régression logistique, pour estimer les effets d’expositions dépendant du temps dans les études cas-témoins
Resumo:
Les séquences protéiques naturelles sont le résultat net de l’interaction entre les mécanismes de mutation, de sélection naturelle et de dérive stochastique au cours des temps évolutifs. Les modèles probabilistes d’évolution moléculaire qui tiennent compte de ces différents facteurs ont été substantiellement améliorés au cours des dernières années. En particulier, ont été proposés des modèles incorporant explicitement la structure des protéines et les interdépendances entre sites, ainsi que les outils statistiques pour évaluer la performance de ces modèles. Toutefois, en dépit des avancées significatives dans cette direction, seules des représentations très simplifiées de la structure protéique ont été utilisées jusqu’à présent. Dans ce contexte, le sujet général de cette thèse est la modélisation de la structure tridimensionnelle des protéines, en tenant compte des limitations pratiques imposées par l’utilisation de méthodes phylogénétiques très gourmandes en temps de calcul. Dans un premier temps, une méthode statistique générale est présentée, visant à optimiser les paramètres d’un potentiel statistique (qui est une pseudo-énergie mesurant la compatibilité séquence-structure). La forme fonctionnelle du potentiel est par la suite raffinée, en augmentant le niveau de détails dans la description structurale sans alourdir les coûts computationnels. Plusieurs éléments structuraux sont explorés : interactions entre pairs de résidus, accessibilité au solvant, conformation de la chaîne principale et flexibilité. Les potentiels sont ensuite inclus dans un modèle d’évolution et leur performance est évaluée en termes d’ajustement statistique à des données réelles, et contrastée avec des modèles d’évolution standards. Finalement, le nouveau modèle structurellement contraint ainsi obtenu est utilisé pour mieux comprendre les relations entre niveau d’expression des gènes et sélection et conservation de leur séquence protéique.
Resumo:
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
Contexte: L'obésité chez les jeunes représente aujourd’hui un problème de santé publique à l’échelle mondiale. Afin d’identifier des cibles potentielles pour des stratégies populationnelles de prévention, les liens entre les caractéristiques du voisinage, l’obésité chez les jeunes et les habitudes de vie font de plus en plus l’objet d’études. Cependant, la recherche à ce jour comporte plusieurs incohérences. But: L’objectif général de cette thèse est d’étudier la contribution de différentes caractéristiques du voisinage relativement à l’obésité chez les jeunes et les habitudes de vie qui y sont associées. Les objectifs spécifiques consistent à: 1) Examiner les associations entre la présence de différents commerces d’alimentation dans les voisinages résidentiels et scolaires des enfants et leurs habitudes alimentaires; 2) Examiner comment l’exposition à certaines caractéristiques du voisinage résidentiel détermine l’obésité au niveau familial (chez le jeune, la mère et le père), ainsi que l’obésité individuelle pour chaque membre de la famille; 3) Identifier des combinaisons de facteurs de risque individuels, familiaux et du voisinage résidentiel qui prédisent le mieux l’obésité chez les jeunes, et déterminer si ces profils de facteurs de risque prédisent aussi un changement dans l’obésité après un suivi de deux ans. Méthodes: Les données proviennent de l’étude QUALITY, une cohorte québécoise de 630 jeunes, âgés de 8-10 ans au temps 1, avec une histoire d’obésité parentale. Les voisinages de 512 participants habitant la Région métropolitaine de Montréal ont été caractérisés à l’aide de : 1) données spatiales provenant du recensement et de bases de données administratives, calculées pour des zones tampons à partir du réseau routier et centrées sur le lieu de la résidence et de l’école; et 2) des observations menées par des évaluateurs dans le voisinage résidentiel. Les mesures du voisinage étudiées se rapportent aux caractéristiques de l’environnement bâti, social et alimentaire. L’obésité a été estimée aux temps 1 et 2 à l’aide de l’indice de masse corporelle (IMC) calculé à partir du poids et de la taille mesurés. Les habitudes alimentaires ont été mesurées au temps 1 à l'aide de trois rappels alimentaires. Les analyses effectuées comprennent, entres autres, des équations d'estimation généralisées, des régressions multiniveaux et des analyses prédictives basées sur des arbres de décision. Résultats: Les résultats démontrent la présence d’associations avec l’obésité chez les jeunes et les habitudes alimentaires pour certaines caractéristiques du voisinage. En particulier, la présence de dépanneurs et de restaurants-minutes dans le voisinage résidentiel et scolaire est associée avec de moins bonnes habitudes alimentaires. La présence accrue de trafic routier, ainsi qu’un faible niveau de prestige et d’urbanisation dans le voisinage résidentiel sont associés à l’obésité familiale. Enfin, les résultats montrent qu’habiter un voisinage obésogène, caractérisé par une défavorisation socioéconomique, la présence de moins de parcs et de plus de dépanneurs, prédit l'obésité chez les jeunes lorsque combiné à la présence de facteurs de risque individuels et familiaux. Conclusion: Cette thèse contribue aux écrits sur les voisinages et l’obésité chez les jeunes en considérant à la fois l'influence potentielle du voisinage résidentiel et scolaire ainsi que l’influence de l’environnement familial, en utilisant des méthodes objectives pour caractériser le voisinage et en utilisant des méthodes statistiques novatrices. Les résultats appuient en outre la notion que les efforts de prévention de l'obésité doivent cibler les multiples facteurs de risque de l'obésité chez les jeunes dans les environnements bâtis, sociaux et familiaux de ces jeunes.
Resumo:
One of the major concerns of scoliosis patients undergoing surgical treatment is the aesthetic aspect of the surgery outcome. It would be useful to predict the postoperative appearance of the patient trunk in the course of a surgery planning process in order to take into account the expectations of the patient. In this paper, we propose to use least squares support vector regression for the prediction of the postoperative trunk 3D shape after spine surgery for adolescent idiopathic scoliosis. Five dimensionality reduction techniques used in conjunction with the support vector machine are compared. The methods are evaluated in terms of their accuracy, based on the leave-one-out cross-validation performed on a database of 141 cases. The results indicate that the 3D shape predictions using a dimensionality reduction obtained by simultaneous decomposition of the predictors and response variables have the best accuracy.
Resumo:
Department of Statistics, Cochin University of Science and Technology
Resumo:
The standard models for statistical signal extraction assume that the signal and noise are generated by linear Gaussian processes. The optimum filter weights for those models are derived using the method of minimum mean square error. In the present work we study the properties of signal extraction models under the assumption that signal/noise are generated by symmetric stable processes. The optimum filter is obtained by the method of minimum dispersion. The performance of the new filter is compared with their Gaussian counterparts by simulation.
Resumo:
The thesis mainly discussed the isolation and identification of a probiotic Lactobacillus plantarum, fermentative production of exopolysaccharide by the strain, its purification, structural characterisation and possible applications in food industry and therapeutics. The studies on the probiotic characterization explored the tolerance of the isolated LAB cultures to acid, bile, phenol, salt and mucin binding. These are some of the key factors that could satisfy the criteria for probiotic strains . The important factors required for a high EPS production in submerged fermentation was investigated with a collection of statistical and mathematical approach. Chapter 5 of the thesis explains the structural elucidation of EPS employing spectroscopic and chromatographic techniques. The studies helped in the exploration of the hetero-polysaccharide sequence from L. plantarum MTCC 9510. The thesis also explored the bioactivities of EPS from L. plantarum. As majority of chemical compounds identified as anti-cancerous are toxic to normal cells, the discovery and identification of new safe drugs has become an important goal of research in the biomedical sciences. The thesis has explored the anti-oxidant, anti-tumour and immunomodulating properties of EPS purified from Lactobacillus plantarum. The presence of (1, 3) linkages and its molecular weight presented the EPS with anti-oxidant, anti-tumour and immunomodulating properties under in vitro conditions.
Resumo:
Learning Disability (LD) is a general term that describes specific kinds of learning problems. It is a neurological condition that affects a child's brain and impairs his ability to carry out one or many specific tasks. The learning disabled children are neither slow nor mentally retarded. This disorder can make it problematic for a child to learn as quickly or in the same way as some child who isn't affected by a learning disability. An affected child can have normal or above average intelligence. They may have difficulty paying attention, with reading or letter recognition, or with mathematics. It does not mean that children who have learning disabilities are less intelligent. In fact, many children who have learning disabilities are more intelligent than an average child. Learning disabilities vary from child to child. One child with LD may not have the same kind of learning problems as another child with LD. There is no cure for learning disabilities and they are life-long. However, children with LD can be high achievers and can be taught ways to get around the learning disability. In this research work, data mining using machine learning techniques are used to analyze the symptoms of LD, establish interrelationships between them and evaluate the relative importance of these symptoms. To increase the diagnostic accuracy of learning disability prediction, a knowledge based tool based on statistical machine learning or data mining techniques, with high accuracy,according to the knowledge obtained from the clinical information, is proposed. The basic idea of the developed knowledge based tool is to increase the accuracy of the learning disability assessment and reduce the time used for the same. Different statistical machine learning techniques in data mining are used in the study. Identifying the important parameters of LD prediction using the data mining techniques, identifying the hidden relationship between the symptoms of LD and estimating the relative significance of each symptoms of LD are also the parts of the objectives of this research work. The developed tool has many advantages compared to the traditional methods of using check lists in determination of learning disabilities. For improving the performance of various classifiers, we developed some preprocessing methods for the LD prediction system. A new system based on fuzzy and rough set models are also developed for LD prediction. Here also the importance of pre-processing is studied. A Graphical User Interface (GUI) is designed for developing an integrated knowledge based tool for prediction of LD as well as its degree. The designed tool stores the details of the children in the student database and retrieves their LD report as and when required. The present study undoubtedly proves the effectiveness of the tool developed based on various machine learning techniques. It also identifies the important parameters of LD and accurately predicts the learning disability in school age children. This thesis makes several major contributions in technical, general and social areas. The results are found very beneficial to the parents, teachers and the institutions. They are able to diagnose the child’s problem at an early stage and can go for the proper treatments/counseling at the correct time so as to avoid the academic and social losses.
Resumo:
The overall focus of the thesis involves the International trade and cochin port a historical and statistical analysis 1881-1980.Analysing the trend of exports and imports through cochin port during the course of the last hundred years .This analysis has brought to light some very pertinent facts which , in our opinion,deserve serious consideration of the policy makers,the partise involved in trade and those who are interested in the development of the cochin port.Our study is restricted to twelve commodities -ten commodities of exports and two commodities of imports.The study reveals that the commodities that were exported from cochin are subjected to fluctuations -some mild and others wild. The projections only indicate the potential and unless we are very cautious the chance will be taken away by our competitors .With reference to the development of the port in particular and the states economy in general we would like to make a suggestion .This suggestion relates to declaring cochin as a free port .This will go a long way in the develppment of the port and the state's economy.The sooner it is done the better for the port and the state.