Modern sample surveys started to spread after statistician at the U.S. Bureau of the Census in the 1940s had developed a sampling design for the Current Population Survey (CPS). A significant factor was also that digital computers became available for statisticians. In the beginning of 1950s, the theory was documented in textbooks on survey sampling. This thesis is about the development of the statistical inference for sample surveys. For the first time the idea of statistical inference was enunciated by a French scientist, P. S. Laplace. In 1781, he published a plan for a partial investigation in which he determined the sample size needed to reach the desired accuracy in estimation. The plan was based on Laplace s Principle of Inverse Probability and on his derivation of the Central Limit Theorem. They were published in a memoir in 1774 which is one of the origins of statistical inference. Laplace s inference model was based on Bernoulli trials and binominal probabilities. He assumed that populations were changing constantly. It was depicted by assuming a priori distributions for parameters. Laplace s inference model dominated statistical thinking for a century. Sample selection in Laplace s investigations was purposive. In 1894 in the International Statistical Institute meeting, Norwegian Anders Kiaer presented the idea of the Representative Method to draw samples. Its idea was that the sample would be a miniature of the population. It is still prevailing. The virtues of random sampling were known but practical problems of sample selection and data collection hindered its use. Arhtur Bowley realized the potentials of Kiaer s method and in the beginning of the 20th century carried out several surveys in the UK. He also developed the theory of statistical inference for finite populations. It was based on Laplace s inference model. R. A. Fisher contributions in the 1920 s constitute a watershed in the statistical science He revolutionized the theory of statistics. In addition, he introduced a new statistical inference model which is still the prevailing paradigm. The essential idea is to draw repeatedly samples from the same population and the assumption that population parameters are constants. Fisher s theory did not include a priori probabilities. Jerzy Neyman adopted Fisher s inference model and applied it to finite populations with the difference that Neyman s inference model does not include any assumptions of the distributions of the study variables. Applying Fisher s fiducial argument he developed the theory for confidence intervals. Neyman s last contribution to survey sampling presented a theory for double sampling. This gave the central idea for statisticians at the U.S. Census Bureau to develop the complex survey design for the CPS. Important criterion was to have a method in which the costs of data collection were acceptable, and which provided approximately equal interviewer workloads, besides sufficient accuracy in estimation.


Tutkielmassa sovelletaan aineiston edustavuutta mittaavaa laatuindikaattoria Suomen uhritutkimuspilottiin tilanteessa, jossa ilmenee vastauskatoa. Vastauskato on kasvava ongelma tilastotutkimuksissa: jos tutkimukseen osallistuneet eivät edusta otosjoukkoa tutkittavan asian suhteen, voi vastauskadosta aiheutuva harha olla estimoiduissa tunnusluvuissa hyvinkin suuri. Tutkimuksissa näkee usein julkaistavan vastausasteen ikään kuin se kertoisi aukottomasti tutkimuksen laadusta. Pelkkä korkea vastausaste ei kuitenkaan välttämättä takaa estimaattien harhattomuutta, sillä se ei kerro mitään vastanneiden ja vastaamattomien eroista tutkittavan asian suhteen. Tarvitaan siis muita mittareita, joilla vastanneiden laatua voitaisiin paremmin arvioida, ja R-indikaattori tarjoaa yhden vaihtoehdon. R-indikaattori mittaa otosalkioiden vastausalttiuksien välistä vaihtelua. R-indikaattorin estimoiminen edellyttää siis vastausalttiuksien estimointia, mikä puolestaan edellyttää apumuuttujien olemassaoloa kaikille otosalkioille. Vastausalttiuksien estimoimiseen käytettiin linkkifunktiona sekä logistista mallia että ja Särndalin ja Lundstrmin (2008) vastausvaikutusten mallia. Vastauskäyttäytymiseen vaikuttavan apumuuttujajoukon valinta tehtiin alan kirjallisuuteen perustuen (Groves & Couper 1998). Koska R-indikaattorin estimaattori on satunnaismuuttuja, täytyi sille estimoida varianssi ja mahdollinen harha (Shlomo ym. 2009). Estimoinnissa käytettiin Bootstrap-pseudotoistomenetelmää, jossa alkuperisestä aineistosta poimitaan niin kutsuttuja pseudo-otoksia, joiden avulla R-indikaattorin estimaattorille voidaan laskea keskivirhe. Suomen uhritutkimuspilotti koostui kolmesta eri tiedonkeruumenetelmällä poimitusta otoksesta: CAPI-, CATI- CAVVIotoksesta. Vastausasteet vaihtelivat aineistoissa paljon, mutta R-indikaattorin estimaatit olivat kaikille aineistoille liki samat. Suurempi vastausaste ei siis merkinnyt parempaa edustavuutta. Lisäksi CAVVI-aineistossa muistutusviestein ja -kirjein suoritettu vastausasteen kasvattaminen huononsi edustavuutta R-indikaattorin näkökulmasta. Mielivaltainen vastausasteen kasvattaminen ei siis ole välttämättä perusteltua. R-indikaattorin estimaattorin ominaisuuksien osalta empiiriset tulokset vahvistivat RISQ-projektin aiempia tutkimustuloksia. Estimaattorin arvo oli sitä pienempi mitä enemmän vastausalttiuden mallissa oli selittäjiä, koska tällöin vastausalttiuksien varianssi kasvoi (Schouten ym. 2009). Otoskoko vaikutti merkittävästi varianssin suuruuteen: mitä pienempi otoskoko oli, sitä leveämmät olivat luottamusvälit ja sitä vaikeampi oli tehdä johtopäätöksiä edustavuudesta.


Researchers and developers in academia and industry would benefit from a facility that enables them to easily locate, licence and use the kind of empirical data they need for testing and refining their hypotheses and to deposit and disseminate their data e.g. to support replication and validation of reported scientific experiments. To answer these needs initially in Finland, there is an ongoing project at University of Helsinki and its collaborators to create a user-friendly web service for researchers and developers in Finland and other countries. In our talk, we describe ongoing work to create a palette of extensive but easily available Finnish language resources and technologies for the research community, including lexical resources, wordnets, morphologically tagged corpora, dependency syntactic treebanks and parsebanks, open-source finite state toolkits and libraries and language models to support text analysis and processing at customer site. Also first publicly available results are presented.