Generalised regression estimation for domain class frequencies


Autoria(s): Myrskylä, Mikko
Contribuinte(s)

Helsingin yliopisto, valtiotieteellinen tiedekunta, matematiikan ja tilastotieteen laitos

Helsingfors universitet, statsvetenskapliga fakulteten, matematiska och statistiska institutionen

University of Helsinki, Faculty of Social Sciences, Department of Mathematics and Statistics, Statistics

Data(s)

31/08/2007

Resumo

This study examines the properties of Generalised Regression (GREG) estimators for domain class frequencies and proportions. The family of GREG estimators forms the class of design-based model-assisted estimators. All GREG estimators utilise auxiliary information via modelling. The classic GREG estimator with a linear fixed effects assisting model (GREG-lin) is one example. But when estimating class frequencies, the study variable is binary or polytomous. Therefore logistic-type assisting models (e.g. logistic or probit model) should be preferred over the linear one. However, other GREG estimators than GREG-lin are rarely used, and knowledge about their properties is limited. This study examines the properties of L-GREG estimators, which are GREG estimators with fixed-effects logistic-type models. Three research questions are addressed. First, I study whether and when L-GREG estimators are more accurate than GREG-lin. Theoretical results and Monte Carlo experiments which cover both equal and unequal probability sampling designs and a wide variety of model formulations show that in standard situations, the difference between L-GREG and GREG-lin is small. But in the case of a strong assisting model, two interesting situations arise: if the domain sample size is reasonably large, L-GREG is more accurate than GREG-lin, and if the domain sample size is very small, estimation of assisting model parameters may be inaccurate, resulting in bias for L-GREG. Second, I study variance estimation for the L-GREG estimators. The standard variance estimator (S) for all GREG estimators resembles the Sen-Yates-Grundy variance estimator, but it is a double sum of prediction errors, not of the observed values of the study variable. Monte Carlo experiments show that S underestimates the variance of L-GREG especially if the domain sample size is minor, or if the assisting model is strong. Third, since the standard variance estimator S often fails for the L-GREG estimators, I propose a new augmented variance estimator (A). The difference between S and the new estimator A is that the latter takes into account the difference between the sample fit model and the census fit model. In Monte Carlo experiments, the new estimator A outperformed the standard estimator S in terms of bias, root mean square error and coverage rate. Thus the new estimator provides a good alternative to the standard estimator.

Työssäni tutkin väestöryhmittäisten luokkafrekvenssien ja osuuksien estimointia otoksesta. Tällaisten tietojen estimointi on yksi sovelletun tilastotieteen keskeisiä tehtäviä, esimerkkejä ovat työllisten tai työttömien lukumäärien estimointi kunnittain, tai taudin prevalenssin estimointi ikäryhmittäin. Estimoinnissa kaksi keskeistä tavoitetta ovat ensinnäkin tarkka estimointi, toiseksi hyvä arvio siitä kuinka tarkkaa estimointi todella oli. Tarkan estimaattorin rakentamisessa otoksen ulkopuolisen lisäinformaation hyödyntäminen on avainasemassa. Standardimenetelmässä lisäinformaatiota hyödynnetään lineaaristen mallien avulla. Lineaariset mallit kuitenkin sopivat parhaiten jatkuville muuttujille, ja luokkafrekvenssien estimoinnissa mallinnettava muuttuja on kaksi- tai moniluokkainen. Tällöin logistis-tyyppiset mallit olisivat luontevampia. Tällaisilla epälineaarisilla malleilla varustettuja estimaattoreita ei kuitenkaan ole juuri tutkittu, eikä niiden tarkkuudesta ole selvää kuvaa. Tutkimuksessani selvitetään logistis-tyyppisillä malleilla varustettujen yleistettyjen regressioestimaattoreiden (L-GREG estimaattoreiden) suhteellista tarkkuutta verrattuna perinteisiin lineaarisilla malleilla varustettuihin estimaattoreihin. Lisäksi L-GREG-estimaattoreille johdetaan uusi varianssiestimaattori, joka pyrkii vastaamaan kysymykseen kuinka tarkka itse estimaattori on. Tarkempi estimaattori mahdollistaa toisaalta tarkemman estimoinnin havaitusta aineistosta, tai annetun tarkkuuden saavuttamisen pienemmällä otoskoolla. Tutkimuksessa osoitetaan, että L-GREG-estimaattoreiden ja perinteisten lineaarisilla malleilla varustettujen estimaattoreiden tarkkuuserot voivat olla suuria, jopa kymmeniä prosentteja. L-GREG-estimaattorit ovat tarkempia erityisesti jos malli on tarkka ja otoskoko suuri, mutta toisaalta jos otoskoot ovat hyvin pieniä, tarkkuusero voi olla suuri mutta toiseen suuntaan. Jos malli ei ole erityisen tarkka, erot ovat pieniä. L-GREG-estimaattoreiden tarkkuuden arviointiin johdettu uusi menetelmä täydentää yleisesti käytössä olevaa menetelmää. Tämä standardimenetelmä kuitenkin usein yliarvioi tarkkuutta, tuottaen todellisuutta kapeampia luottamusvälejä. Tässä tutkimuksessa ehdotettu uusi menetelmä tuottaa huomattavasti todenmukaisempia tarkkuusarvioita, joten se on lupaava vaihtoehto standardimenetelmälle.

Identificador

URN:ISBN:978-952-467-712-7

http://hdl.handle.net/10138/23380

Idioma(s)

en

Publicador

Helsingin yliopisto

Helsingfors universitet

University of Helsinki

Relação

URN:ISBN:978-952-467-712-7

Helsinki: Multiprint Oy, 2007, Statistics Finland Research Reports. 0355-2071

Direitos

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.

Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden.

Palavras-Chave #tilastotiede
Tipo

Väitöskirja (monografia)

Doctoral dissertation (monograph)

Doktorsavhandling (monografi)

Text