988 resultados para semi-parametric estimation
Resumo:
Given $n$ independent replicates of a jointly distributed pair $(X,Y)\in {\cal R}^d \times {\cal R}$, we wish to select from a fixed sequence of model classes ${\cal F}_1, {\cal F}_2, \ldots$ a deterministic prediction rule $f: {\cal R}^d \to {\cal R}$ whose risk is small. We investigate the possibility of empirically assessingthe {\em complexity} of each model class, that is, the actual difficulty of the estimation problem within each class. The estimated complexities are in turn used to define an adaptive model selection procedure, which is based on complexity penalized empirical risk.The available data are divided into two parts. The first is used to form an empirical cover of each model class, and the second is used to select a candidate rule from each cover based on empirical risk. The covering radii are determined empirically to optimize a tight upper bound on the estimation error. An estimate is chosen from the list of candidates in order to minimize the sum of class complexity and empirical risk. A distinguishing feature of the approach is that the complexity of each model class is assessed empirically, based on the size of its empirical cover.Finite sample performance bounds are established for the estimates, and these bounds are applied to several non-parametric estimation problems. The estimates are shown to achieve a favorable tradeoff between approximation and estimation error, and to perform as well as if the distribution-dependent complexities of the model classes were known beforehand. In addition, it is shown that the estimate can be consistent,and even possess near optimal rates of convergence, when each model class has an infinite VC or pseudo dimension.For regression estimation with squared loss we modify our estimate to achieve a faster rate of convergence.
Factors affecting hospital admission and recovery stay duration of in-patient motor victims in Spain
Resumo:
Hospital expenses are a major cost driver of healthcare systems in Europe, with motor injuries being the leading mechanism of hospitalizations. This paper investigates the injury characteristics which explain the hospitalization of victims of traffic accidents that took place in Spain. Using a motor insurance database with 16.081 observations a generalized Tobit regression model is applied to analyse the factors that influence both the likelihood of being admitted to hospital after a motor collision and the length of hospital stay in the event of admission. The consistency of Tobit estimates relies on the normality of perturbation terms. Here a semi-parametric regression model was fitted to test the consistency of estimates, concluding that a normal distribution of errors cannot be rejected. Among other results, it was found that older men with fractures and injuries located in the head and lower torso are more likely to be hospitalized after the collision, and that they also have a longer expected length of hospital recovery stay.
Resumo:
Type 2 diabetes increases the risk of cardiovascular mortality and these patients, even without previous myocardial infarction, run the risk of fatal coronary heart disease similar to non-diabetic patients surviving myocardial infarction. There is evidence showing that particulate matter air pollution is associated with increases in cardiopulmonary morbidity and mortality. The present study was carried out to evaluate the effect of diabetes mellitus on the association of air pollution with cardiovascular emergency room visits in a tertiary referral hospital in the city of São Paulo. Using a time-series approach, and adopting generalized linear Poisson regression models, we assessed the effect of daily variations in PM10, CO, NO2, SO2, and O3 on the daily number of emergency room visits for cardiovascular diseases in diabetic and non-diabetic patients from 2001 to 2003. A semi-parametric smoother (natural spline) was adopted to control long-term trends, linear term seasonal usage and weather variables. In this period, 45,000 cardiovascular emergency room visits were registered. The observed increase in interquartile range within the 2-day moving average of 8.0 µg/m³ SO2 was associated with 7.0% (95%CI: 4.0-11.0) and 20.0% (95%CI: 5.0-44.0) increases in cardiovascular disease emergency room visits by non-diabetic and diabetic groups, respectively. These data indicate that air pollution causes an increase of cardiovascular emergency room visits, and that diabetic patients are extremely susceptible to the adverse effects of air pollution on their health conditions.
Resumo:
This paper addresses the issue of estimating semiparametric time series models specified by their conditional mean and conditional variance. We stress the importance of using joint restrictions on the mean and variance. This leads us to take into account the covariance between the mean and the variance and the variance of the variance, that is, the skewness and kurtosis. We establish the direct links between the usual parametric estimation methods, namely, the QMLE, the GMM and the M-estimation. The ususal univariate QMLE is, under non-normality, less efficient than the optimal GMM estimator. However, the bivariate QMLE based on the dependent variable and its square is as efficient as the optimal GMM one. A Monte Carlo analysis confirms the relevance of our approach, in particular, the importance of skewness.
Resumo:
Objectifs : Analyser l’évolution de l’embonpoint chez les enfants québécois entre 4 et 8 ans et évaluer le rôle des différents facteurs de risque sur l’excès de poids persistant. Les données proviennent de l’étude longitudinale du développement des enfants du Québec (ÉLDEQ, 1998-2010). Cette enquête est réalisée par l’Institut de la statistique du Québec auprès d’une cohorte de 2120 nourrissons québécois nés en 1998, faisant l’objet d’un suivi annuel à partir de l’âge de 5 mois. Méthodes d’analyse : univariées, bivariées, modélisation semi-paramétrique, analyses de régressions logistique et log-linéaire (Poisson). Principaux résultats : i) L’excès de poids persistant chez les enfants âgés de 4 à 8 ans est un phénomène fluctuant, qui ne varie pas de façon significative selon le sexe ; ii) Le fait d’allaiter les enfants ne semble pas avoir un effet protecteur en ce qui concerne l’excès de poids ; iii) En ce qui concerne le poids à la naissance, les données dont on dispose ne nous permettent pas de tirer des conclusions ; iv) Le fait d’avoir une santé moins qu’excellente à la naissance semble augmenter le risque d’avoir un excès de poids persistant ; v)Ce qui influence surtout, c’est de toujours manger trop ou trop vite, ou le fait de vivre dans une famille avec un ou deux parents qui font de l’embonpoint ; vi) Les mères qui ont fume pendant leur grossesse présentent une probabilité plus élevée d’avoir des enfants avec un excès de poids persistant que celles qui n’ont pas fumé.
Resumo:
L'objectif principal de ce travail est d’étudier en profondeur certaines techniques biostatistiques avancées en recherche évaluative en chirurgie cardiaque adulte. Les études ont été conçues pour intégrer les concepts d'analyse de survie, analyse de régression avec “propensity score”, et analyse de coûts. Le premier manuscrit évalue la survie après la réparation chirurgicale de la dissection aigüe de l’aorte ascendante. Les analyses statistiques utilisées comprennent : analyses de survie avec régression paramétrique des phases de risque et d'autres méthodes paramétriques (exponentielle, Weibull), semi-paramétriques (Cox) ou non-paramétriques (Kaplan-Meier) ; survie comparée à une cohorte appariée pour l’âge, le sexe et la race utilisant des tables de statistiques de survie gouvernementales ; modèles de régression avec “bootstrapping” et “multinomial logit model”. L'étude a démontrée que la survie s'est améliorée sur 25 ans en lien avec des changements dans les techniques chirurgicales et d’imagerie diagnostique. Le second manuscrit est axé sur les résultats des pontages coronariens isolés chez des patients ayant des antécédents d'intervention coronarienne percutanée. Les analyses statistiques utilisées comprennent : modèles de régression avec “propensity score” ; algorithme complexe d'appariement (1:3) ; analyses statistiques appropriées pour les groupes appariés (différences standardisées, “generalized estimating equations”, modèle de Cox stratifié). L'étude a démontrée que l’intervention coronarienne percutanée subie 14 jours ou plus avant la chirurgie de pontages coronariens n'est pas associée à des résultats négatifs à court ou long terme. Le troisième manuscrit évalue les conséquences financières et les changements démographiques survenant pour un centre hospitalier universitaire suite à la mise en place d'un programme de chirurgie cardiaque satellite. Les analyses statistiques utilisées comprennent : modèles de régression multivariée “two-way” ANOVA (logistique, linéaire ou ordinale) ; “propensity score” ; analyses de coûts avec modèles paramétriques Log-Normal. Des modèles d’analyse de « survie » ont également été explorés, utilisant les «coûts» au lieu du « temps » comme variable dépendante, et ont menés à des conclusions similaires. L'étude a démontrée que, après la mise en place du programme satellite, moins de patients de faible complexité étaient référés de la région du programme satellite au centre hospitalier universitaire, avec une augmentation de la charge de travail infirmier et des coûts.
Resumo:
Le début de l’adolescence est une période de changements rapides où la détresse psychologique et l’expérimentation de la marijuana sont choses fréquentes. Certaines études longitudinales ont démontré que ces deux phénomènes ont tendance à se manifester conjointement tandis que d’autres n’ont pu observer de tel lien. Ces résultats divergents suggèrent que plusieurs questions persistent concernant la nature de cette relation. Cette thèse a pour objectif d’explorer la consommation de marijuana et la détresse psychologique en début d’adolescence afin de mieux saisir les changements à travers le temps, ainsi que d’examiner si ces deux problématiques évoluent conjointement et s’influencent réciproquement. Un échantillon de 448 adolescents garçons et filles fréquentant deux écoles secondaires de Montréal, ont été suivi de secondaire I à secondaire III. De 1999 à 2001, les participants ont complété un questionnaire à chaque année de l’étude incluant des mesures portant sur la consommation de marijuana et la détresse psychologique (IDPESQ-14). Un modèle de mixture semi-paramétrique (Nagin, 2005) a été utilisé afin d’identifier les trajectoires développementales de la consommation de marijuana et de détresse psychologique. Des analyses ont également été effectuées afin d’établir les liens d’appartenance entre chacune des trajectoires de consommation identifiées et la détresse psychologique lors de la première année de l`étude, ainsi qu’entre chacune des trajectoires de détresse psychologique et la consommation de marijuana en première année du secondaire. Finalement, des analyses de trajectoires jointes ont été effectuées afin de déterminer l’interrelation entre la consommation de marijuana et la détresse psychologique. Les résultats de notre étude suggèrent qu’il existe une grande hétérogénéité au niveau de la consommation de marijuana et la détresse psychologique. Trois trajectoires développementales ont été identifiées pour la consommation de marijuana: consommation légère, consommation grandissante et consommation élevée et stable. Trois trajectoires ont également été observées pour la détresse psychologique : basse, moyenne et élevée. Nos résultats démontrent la présence d’un lien entre la détresse psychologique rapportée lors de la première année de l’étude et les trajectoires de consommation problématiques. Ce lien a également été observé entre la consommation de marijuana rapportée lors de première année de l’étude et les trajectoires problématiques de détresse psychologique. Les analyses de trajectoires jointes démontrent la présence d’une concordance entre la consommation de marijuana et la détresse psychologique. Cette interrelation est toutefois complexe puisque les trajectoires de détresse psychologique élevée sont associées à un niveau de consommation de marijuana plus problématique mais l’inverse de cette association est moins probable. Notre étude met en lumière la nature asymétrique de la concordance entre la consommation de marijuana et la détresse psychologique.
Resumo:
L'Enquête rétrospective sur les travailleurs sélectionnés au Québec a permis d’analyser la relation formation-emploi des immigrantes — arrivées comme requérantes principales — et de jeter un regard sur le parcours en emploi de ces femmes, en comparaison avec leurs homologues masculins. Une attention particulière est mise sur l'effet de genre et de la région de provenance, ainsi que l'interaction entre ces deux variables. Des modèles semi-paramétriques de Cox mettent en exergue comment les caractéristiques individuelles, mais aussi les activités de formation dans la société d’accueil, affectent au fil du temps les risques relatifs d’obtenir un premier emploi correspondant à ses qualifications scolaires prémigratoires. Puis, des régressions linéaires font état des déterminants du salaire après deux ans sur le territoire. Les résultats montrent que l'accès à l'emploi qualifié n'est pas affecté différemment selon que l'immigrant soit un homme ou une femme. Des différences intragroupes apparaissent toutefois en fonction de la région de provenance, avec un net avantage pour les immigrants de l'Europe de l'Ouest et des États-Unis. L'accès au premier emploi (sans distinction pour les qualifications) et le salaire révèlent, quant à eux, des différences sur la base du genre, avec un désavantage pour les femmes. Chez ces dernières, l'insertion en emploi se fait de façon similaire entre les groupes régionaux, alors que les groupes d'hommes sont plus hétérogènes. D'ailleurs, certaines caractéristiques individuelles, comme la connaissance du français et la catégorie d'admission, affectent différemment les immigrants et les immigrantes dans l'accès au premier emploi.
Resumo:
Ouvrage réalisé sous la supervision du comité de jury composé des membres suivants: Dre Leila Ben Amor, Dre Diane Sauriol, Daniel Fiset, PhD. & Éric Lacourse PhD.
Resumo:
This paper explores the changing survival patterns of cereal crop variety innovations in the UK since the introduction of plant breeders’ rights in the mid-1960s. Using non-parametric, semi-parametric and parametric approaches, we examine the determinants of the survival of wheat variety innovations, focusing on the impacts of changes to Plant Variety Protection (PVP) regime over the last four decades. We find that the period since the introduction of the PVP regime has been characterised by the accelerated development of new varieties and increased private sector participation in the breeding of cereal crop varieties. However, the increased flow of varieties has been accompanied by a sharp decline in the longevity of innovations. These trends may have contributed to a reduction in the returns appropriated by plant breeders from protected variety innovations and may explain the decline of conventional plant breeding in the UK. It may also explain the persistent demand from the seed industry for stronger protection. The strengthening of the PVP regime in conformity with the UPOV Convention of 1991, the introduction of EU-wide protection through the Community Plant Variety Office and the introduction of royalties on farm-saved seed have had a positive effect on the longevity of protected variety innovations, but have not been adequate to offset the long term decline in survival durations.
Resumo:
We address the problem of automatically identifying and restoring damaged and contaminated images. We suggest a novel approach based on a semi-parametric model. This has two components, a parametric component describing known physical characteristics and a more flexible non-parametric component. The latter avoids the need for a detailed model for the sensor, which is often costly to produce and lacking in robustness. We assess our approach using an analysis of electroencephalographic images contaminated by eye-blink artefacts and highly damaged photographs contaminated by non-uniform lighting. These experiments show that our approach provides an effective solution to problems of this type.
Resumo:
The use of Bayesian inference in the inference of time-frequency representations has, thus far, been limited to offline analysis of signals, using a smoothing spline based model of the time-frequency plane. In this paper we introduce a new framework that allows the routine use of Bayesian inference for online estimation of the time-varying spectral density of a locally stationary Gaussian process. The core of our approach is the use of a likelihood inspired by a local Whittle approximation. This choice, along with the use of a recursive algorithm for non-parametric estimation of the local spectral density, permits the use of a particle filter for estimating the time-varying spectral density online. We provide demonstrations of the algorithm through tracking chirps and the analysis of musical data.
Resumo:
In this article, we introduce a semi-parametric Bayesian approach based on Dirichlet process priors for the discrete calibration problem in binomial regression models. An interesting topic is the dosimetry problem related to the dose-response model. A hierarchical formulation is provided so that a Markov chain Monte Carlo approach is developed. The methodology is applied to simulated and real data.
Resumo:
A number of recent works have introduced statistical methods for detecting genetic loci that affect phenotypic variability, which we refer to as variability-controlling quantitative trait loci (vQTL). These are genetic variants whose allelic state predicts how much phenotype values will vary about their expected means. Such loci are of great potential interest in both human and non-human genetic studies, one reason being that a detected vQTL could represent a previously undetected interaction with other genes or environmental factors. The simultaneous publication of these new methods in different journals has in many cases precluded opportunity for comparison. We survey some of these methods, the respective trade-offs they imply, and the connections between them. The methods fall into three main groups: classical non-parametric, fully parametric, and semi-parametric two-stage approximations. Choosing between alternatives involves balancing the need for robustness, flexibility, and speed. For each method, we identify important assumptions and limitations, including those of practical importance, such as their scope for including covariates and random effects. We show in simulations that both parametric methods and their semi-parametric approximations can give elevated false positive rates when they ignore mean-variance relationships intrinsic to the data generation process. We conclude that choice of method depends on the trait distribution, the need to include non-genetic covariates, and the population size and structure, coupled with a critical evaluation of how these fit with the assumptions of the statistical model.