On probability-based inference under data missing by design


Autoria(s): Saarela, Olli
Contribuinte(s)

Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, matematiikan ja tilastotieteen laitos

Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, institutionen för matematik och statistik

University of Helsinki, Faculty of Science, Department of Mathematics and Statistics

Department of Chronic Disease Prevention, National Institute for Health and Welfare, Helsinki, Finland

Data(s)

24/09/2010

Resumo

Whether a statistician wants to complement a probability model for observed data with a prior distribution and carry out fully probabilistic inference, or base the inference only on the likelihood function, may be a fundamental question in theory, but in practice it may well be of less importance if the likelihood contains much more information than the prior. Maximum likelihood inference can be justified as a Gaussian approximation at the posterior mode, using flat priors. However, in situations where parametric assumptions in standard statistical models would be too rigid, more flexible model formulation, combined with fully probabilistic inference, can be achieved using hierarchical Bayesian parametrization. This work includes five articles, all of which apply probability modeling under various problems involving incomplete observation. Three of the papers apply maximum likelihood estimation and two of them hierarchical Bayesian modeling. Because maximum likelihood may be presented as a special case of Bayesian inference, but not the other way round, in the introductory part of this work we present a framework for probability-based inference using only Bayesian concepts. We also re-derive some results presented in the original articles using the toolbox equipped herein, to show that they are also justifiable under this more general framework. Here the assumption of exchangeability and de Finetti's representation theorem are applied repeatedly for justifying the use of standard parametric probability models with conditionally independent likelihood contributions. It is argued that this same reasoning can be applied also under sampling from a finite population. The main emphasis here is in probability-based inference under incomplete observation due to study design. This is illustrated using a generic two-phase cohort sampling design as an example. The alternative approaches presented for analysis of such a design are full likelihood, which utilizes all observed information, and conditional likelihood, which is restricted to a completely observed set, conditioning on the rule that generated that set. Conditional likelihood inference is also applied for a joint analysis of prevalence and incidence data, a situation subject to both left censoring and left truncation. Other topics covered are model uncertainty and causal inference using posterior predictive distributions. We formulate a non-parametric monotonic regression model for one or more covariates and a Bayesian estimation procedure, and apply the model in the context of optimal sequential treatment regimes, demonstrating that inference based on posterior predictive distributions is feasible also in this case.

Bayes-päättely perustuu täysin määriteltyyn todennäköisyysmalliin, jossa malli havaintoaineistolle täydennetään priorijakaumalla. Frekvenssipäättely sitä vastoin perustuu pelkkään uskottavuusfunktioon. Teoriassa näiden kahden paradigman välinen ero on perustavanlaatuinen, mutta käytännössä ne tuottavat samankaltaisia tuloksia, jos etukäteisinformaation määrä on vähäinen. Kuitenkin, tilanteissa joissa tavanomaisiin tilastollisiin malleihin liittyvät parametriset oletukset olisivat liian rajoittavia, joustavampiin mallinmäärittelyihin päästään soveltamalla hierarkkisia Bayes-malleja. Koska suurimman uskottavuuden menetelmä voidaan esittää erikoistapauksena tai approksimaationa Bayes-päättelystä, mutta ei päinvastoin, voidaan teoreettinen kehikko todennäköisyyspohjaiselle päättelylle esittää käyttäen yksinomaan Bayesiläisiä käsitteitä. Työn pääpaino on todennäköisyyspäättelyn soveltamisessa tutkimusasetelman aiheuttaman epätäydellisen havainnoinnin tilanteissa. Tätä havainnollistetaan yleisellä kaksivaiheisella kohorttiotanta-asetelmalla. Esimerkkejä tällaisista epidemiologisista tutkimusasetelmista ovat tapaus-kohorttiotanta sekä sisäinen tapaus-verrokkiotanta. Näissä kustannusten säästämiseksi osa tiedoista kerätään vain osajoukolle koko tutkimuskohortista, mikä asettaa haasteita asetelmien tilastolliselle analyysille. Vaihtoehtoisista lähestymistavoista kohorttiotanta-asetelmien analyysiin käsitellään kokonaisuskottavuutta, joka hyödyntää kaiken havaitun informaation, sekä ehdollista uskottavuutta, joka on rajoitettu täysin havaittuun joukkoon, ehdollistaen kyseisen joukon tuottaneella valintasäännöllä. Ehdollista uskottavuuspäättelyä sovelletaan myös vallitsevuus- ja ilmaantuvuustiedon samanaikaiseen analyysiin. Muita käsiteltäviä aiheita ovat malliepävarmuus sekä posterioriennustejakaumien käyttö kausaalipäättelyssä. Työssä esitetään Bayesiläinen usean selittäjän monotoninen regressiomalli sekä sovelletaan sitä optimaalisten dynaamisten hoitokäytäntöjen löytämiseen.

Identificador

URN:ISBN:978-952-10-6419-7

http://hdl.handle.net/10138/21227

Idioma(s)

en

Publicador

Helsingin yliopisto

Helsingfors universitet

University of Helsinki

Relação

URN:ISBN:978-952-92-7801-5

Helsinki: 2010

Direitos

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.

Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden.

Palavras-Chave #tilastotiede
Tipo

Väitöskirja (artikkeli)

Doctoral dissertation (article-based)

Doktorsavhandling (sammanläggning)

Text