23 resultados para Tilastotiede
Resumo:
Modern sample surveys started to spread after statistician at the U.S. Bureau of the Census in the 1940s had developed a sampling design for the Current Population Survey (CPS). A significant factor was also that digital computers became available for statisticians. In the beginning of 1950s, the theory was documented in textbooks on survey sampling. This thesis is about the development of the statistical inference for sample surveys. For the first time the idea of statistical inference was enunciated by a French scientist, P. S. Laplace. In 1781, he published a plan for a partial investigation in which he determined the sample size needed to reach the desired accuracy in estimation. The plan was based on Laplace s Principle of Inverse Probability and on his derivation of the Central Limit Theorem. They were published in a memoir in 1774 which is one of the origins of statistical inference. Laplace s inference model was based on Bernoulli trials and binominal probabilities. He assumed that populations were changing constantly. It was depicted by assuming a priori distributions for parameters. Laplace s inference model dominated statistical thinking for a century. Sample selection in Laplace s investigations was purposive. In 1894 in the International Statistical Institute meeting, Norwegian Anders Kiaer presented the idea of the Representative Method to draw samples. Its idea was that the sample would be a miniature of the population. It is still prevailing. The virtues of random sampling were known but practical problems of sample selection and data collection hindered its use. Arhtur Bowley realized the potentials of Kiaer s method and in the beginning of the 20th century carried out several surveys in the UK. He also developed the theory of statistical inference for finite populations. It was based on Laplace s inference model. R. A. Fisher contributions in the 1920 s constitute a watershed in the statistical science He revolutionized the theory of statistics. In addition, he introduced a new statistical inference model which is still the prevailing paradigm. The essential idea is to draw repeatedly samples from the same population and the assumption that population parameters are constants. Fisher s theory did not include a priori probabilities. Jerzy Neyman adopted Fisher s inference model and applied it to finite populations with the difference that Neyman s inference model does not include any assumptions of the distributions of the study variables. Applying Fisher s fiducial argument he developed the theory for confidence intervals. Neyman s last contribution to survey sampling presented a theory for double sampling. This gave the central idea for statisticians at the U.S. Census Bureau to develop the complex survey design for the CPS. Important criterion was to have a method in which the costs of data collection were acceptable, and which provided approximately equal interviewer workloads, besides sufficient accuracy in estimation.
Resumo:
Tutkielmassa sovelletaan aineiston edustavuutta mittaavaa laatuindikaattoria Suomen uhritutkimuspilottiin tilanteessa, jossa ilmenee vastauskatoa. Vastauskato on kasvava ongelma tilastotutkimuksissa: jos tutkimukseen osallistuneet eivät edusta otosjoukkoa tutkittavan asian suhteen, voi vastauskadosta aiheutuva harha olla estimoiduissa tunnusluvuissa hyvinkin suuri. Tutkimuksissa näkee usein julkaistavan vastausasteen ikään kuin se kertoisi aukottomasti tutkimuksen laadusta. Pelkkä korkea vastausaste ei kuitenkaan välttämättä takaa estimaattien harhattomuutta, sillä se ei kerro mitään vastanneiden ja vastaamattomien eroista tutkittavan asian suhteen. Tarvitaan siis muita mittareita, joilla vastanneiden laatua voitaisiin paremmin arvioida, ja R-indikaattori tarjoaa yhden vaihtoehdon. R-indikaattori mittaa otosalkioiden vastausalttiuksien välistä vaihtelua. R-indikaattorin estimoiminen edellyttää siis vastausalttiuksien estimointia, mikä puolestaan edellyttää apumuuttujien olemassaoloa kaikille otosalkioille. Vastausalttiuksien estimoimiseen käytettiin linkkifunktiona sekä logistista mallia että ja Särndalin ja Lundströmin (2008) vastausvaikutusten mallia. Vastauskäyttäytymiseen vaikuttavan apumuuttujajoukon valinta tehtiin alan kirjallisuuteen perustuen (Groves & Couper 1998). Koska R-indikaattorin estimaattori on satunnaismuuttuja, täytyi sille estimoida varianssi ja mahdollinen harha (Shlomo ym. 2009). Estimoinnissa käytettiin Bootstrap-pseudotoistomenetelmää, jossa alkuperäisestä aineistosta poimitaan niin kutsuttuja pseudo-otoksia, joiden avulla R-indikaattorin estimaattorille voidaan laskea keskivirhe. Suomen uhritutkimuspilotti koostui kolmesta eri tiedonkeruumenetelmällä poimitusta otoksesta: CAPI-, CATI- CAVVIotoksesta. Vastausasteet vaihtelivat aineistoissa paljon, mutta R-indikaattorin estimaatit olivat kaikille aineistoille liki samat. Suurempi vastausaste ei siis merkinnyt parempaa edustavuutta. Lisäksi CAVVI-aineistossa muistutusviestein ja -kirjein suoritettu vastausasteen kasvattaminen huononsi edustavuutta R-indikaattorin näkökulmasta. Mielivaltainen vastausasteen kasvattaminen ei siis ole välttämättä perusteltua. R-indikaattorin estimaattorin ominaisuuksien osalta empiiriset tulokset vahvistivat RISQ-projektin aiempia tutkimustuloksia. Estimaattorin arvo oli sitä pienempi mitä enemmän vastausalttiuden mallissa oli selittäjiä, koska tällöin vastausalttiuksien varianssi kasvoi (Schouten ym. 2009). Otoskoko vaikutti merkittävästi varianssin suuruuteen: mitä pienempi otoskoko oli, sitä leveämmät olivat luottamusvälit ja sitä vaikeampi oli tehdä johtopäätöksiä edustavuudesta.
Resumo:
Koettu terveys on subjektiivinen mittari, jota voidaan käyttää objektiivisten mittareiden ohella kunnan sosiaali- ja terveyspolitiikan onnistumisen arviointiin sekä ohjaamaan palveluiden järjestämistä. Tutkimuksessa selvitettiin mahdollisuuksia tuottaa pienalue-estimointimenetelmillä tietoa Espoon eri alueiden 20–64 -vuotiaan väestön kokemasta terveydestä. Erityisesti työ keskittyi selvittämään; kuinka pienille Espoon alueille voidaan tuottaa luotettavaa tietoa käytettävissä olevasta otosaineistosta ja miten käytetty mallitaso sekä otoskoon kasvattaminen muiden pääkaupunkiseudun asukkaiden vastauksilla vaikuttaa estimointitulokseen? Tutkimusaineistona käytettiin vuoden 2008 aikana Helsingin sosiaalialan osaamiskeskuksen keräämän Pääkaupunkiseudun hyvinvointitutkimus -aineiston lisäksi Aluesarjat-tilastotietokannasta sekä Tilastokeskuksen Väestötilastopalvelusta saatavaa tietoa. Pienalue-estimointimenetelminä käytettiin malliavusteista GREG-estimointia sekä malliperusteista EBLUP-estimointia. Sekä Espoon että koko pääkaupunkiseudun otosaineistosta muodostettujen yksikkö- ja aluetason mallien parametrien ja Espoon eri alueiden 20–64 -vuotiaaseen väestöön liittyvän tiedon avulla tuotettiin alue-estimaatteja Espoon pien-, tilasto- ja suuralueille. Koetun terveyden aluekeskiarvon estimointi onnistui kaikilla aluetasoilla kyseisen aluetason malliin perustuvalla EBLUP-estimaattorilla. GREG-estimaattori onnistui vain suuraluetason estimoinnissa, muilla aluetasoilla alueiden pienet otoskoot huononsivat GREG-estimaatin tarkkuutta. Yksikkötason sekamallin huono selitysvoima ja mallista puuttuva selittäjä huononsivat siihen perustuvan EBLUP-estimaattorin tarkkuutta. Estimoinnin kannalta mallitasoa tärkeämmäksi osoittautui mallin hyvyyden toteutuminen. Voiman lainaaminen kohdejoukon ulkopuoliselta otokselta heikensi satunnaisvaikutuksen merkitsevyyttä ja alue-estimaattien välistä vaihtelua sekä lisäsi estimaattien tarkkuutta. Pienaluetiedon tuottaminen onnistuu EBLUP-estimaattoreilla jopa 85 pienalueelle noin 800 havainnon otosaineistosta, mikäli käytössä on luotettavaa lisäinformaatiota ja hyvä malli. GREG-estimaattori sallii huonomman mallin käytön, mutta edellyttää suurempia pienalueittaisia otoskokoja kuin EBLUP-estimaattorit. EBLUP-estimaattoreiden etuna on alueittaisen otoskoon lisäksi mahdollisuus perustaa estimointi sekä yksikkötasoiseen että aluetasoiseen malliin. Pienalueestimointimenetelmät lisäävät otosaineistojen hyödyntämismahdollisuuksia. Onnistumisen takaa menetelmiin sisältyvien, aineistoon ja malliin kohdistuvien vaatimusten huomiointi tiedonkeruun suunnitteluvaiheessa mm. kysymysten asettelussa. Pienalue-estimointimenetelmien käyttö edellyttää tilastollista osaamista, kriittisyyttä saatuja tuloksia kohtaan ja vastuullisuutta tuloksia julkaistaessa. Laatuvaatimukset täyttävät pienalue-estimaatit soveltuvat hyvin päätöksenteon tueksi, kun halutaan vertailla alueita ja kohdentaa resursseja tarvelähtöisesti.
Kvadraattisten käyttäytymisfunktioiden eksakti aggregaatio analyysi- ja synteesioperaattorien avulla
Resumo:
Eksakti aggregaatio tarkoittaa makrotaloudellisten suureiden välisiä riippuvuussuhteita kuvaavan makroyhtälön johtamista mikrotaloudellisten toimijoiden (agenttien) toimintaa kuvaavista käyttäytymisfunktioista siten, että johdettu makroyhtälö antaa selitettävälle makromuuttujalle määritelmällisesti saman arvon kuin käyttäytymisfunktioiden makroaggregaatti (keskiarvo tai totaali) laskettuna koko mikrotason informaatiosta. Tässä tutkielmassa käsitellään eksaktia aggregaatiota erityisesti affiinien ja kvadraattisten käyttäytymisfunktioiden tapauksessa, mutta esitellään myös menetelmät, ja käsitteet, joilla aggregaatin-ongelmaa voidaan hallita käyttäytymisfunktioiden muodosta riippumatta. Affiinien ja kvadraattisten käyttäytymisfunktioiden eksakti aggregaatio tulkitaan yleisten analyysi- ja synteesioperaattorien avulla. Tarkastellun eksaktin aggregointitavan tuottaman makroyhtälön pääkomponentti on termi, joka ilmoittaa agenttien keskimääräisen vasteen keskimääräiseen syötteeseen. Tämän termin lisäksi käyttäytymisfunktioiden epälineaarisuus voi tuottaa epälineaarisuusefektin ja parametrien vaihtelu agenttien välillä voi tuottaa heterogeenisuusefektin. Kaksi jälkimmäistä komponenttia erottavat tämän aggregointimenetelmän selkeästi edustavan agentin menetelmästä, joka on yksi tyypillisimmistä tavoista lähestyä aggregointiongelmaa. Eksakti aggregaatio osoittaa, että tiettyjä poikkeuksia lukuun ottamatta mikroriippuvuuksista johdettuja makroriippuvuuksia ei ole mahdollista esittää pelkästään selittävien muuttujien keskiarvojen tai totaalien funktioina. Selittävinä makromuuttujina voivat esiintyä mm. selittävien mikromuuttujien varianssit tai mikromuuttujien ja -parametrien kovarianssit. Tällaisia muuttujia sisältävät termit syntyvät eksaktissa aggregaatiossa epälineaarisuus- ja heterogeenisuusefekteistä. Makromallit voivat antaa approksimatiivisesti oikeansuuntaisia tuloksia, vaikka niissä ei esiintyisi kaikkia eksaktin aggregaation epälineaarisuus- ja heterogeenisuusefektien tuottamissa termeissä esiintyviä selittäviä muuttujia. Tätä makromallien approksimatiivista toimivuutta on selitetty konjektuurilla, joiden mukaan normaaleissa olosuhteissa pienet muutokset selittävissä muuttujissa eivät vaikuta olennaisesti efektien kokoon. Tutkielmassa konjekt uuria havainnollistetaan GNU Ortave -kielellä ohjelmoiduin tietokonesimulaatioin. Konjektuurin toteutumisen syitä arvioidaan myös epälineaarisuus- ja heterogeenisuusefektien funktiomuodon perusteella. Lopuksi pohditaan, miten esitelty eksaktin aggregaation menetelmä sijoittuu yleiseen aggregaatiokeskusteluun.
Resumo:
Pro gradu -tutkielman tavoite on mallintaa suomalaisten yksityismetsien raakapuun tarjontaa vuosien 1999-2009 puukauppa-aineistolla. Tutkielman tulos on raakapuun kantohinnasta ja muista tarpeellisista selittävistä muuttujista riippuva tarjonnan funktio kaikille käsitellyille raakapuulajeille. Tutkielman toimeksiantaa UPM-Kymmene Oyj. Tarkoitus on, että tarjontafunktioiden ja lopputuotteidensa kysynnän tuntemuksen avulla UPM-Kymmene voi tarkastella mahdollisuuksiaan puunhankintaan tulevaisuudessa. Tutkielma esittelee suomalaisen raakapuumarkkinan erityispiirteitä, metsäekonomista teoriaa raakapuun tarjonnasta sekä aihetta koskevien aiempien empiiristen tutkimusten tuloksia. Esittelyn perusteella löydetään kysymyksenasettelun kannalta hinnan lisäksi kiinnostavimmat muuttujat tarjonnan vaihtelun selittämiseen. Osoittautuu, että vaikka kysyntäfunktion olemassaolon taloustieteellinen perusteltavuus suomalaisella raakapuumarkkinalla on kyseenalainen, ostomäärän ja hinnan samanaikainen määräytyminen aiheuttaa aineistossa riippuvuutta tarjontamallien virhetermin ja selittävänä muuttujana käytettävän kantohinnan välillä. Tutkielma jatkuu simultaanisuusharhan, instrumenttimuuttujamenetelmän ja kaksivaiheisen pienimmän neliösumman menetelmän esittelyllä seuraten Hamiltonin kirjaa 77me Serres Analysis (1994) sekä Davidsonin ja MacKinnonin kirjaa Econometric Theory and Methods (2004). Tarkentuvaa estimaattoria varten tarvitaan instrumenttimuuttujia, jotka valitaan kunkin raakapuulajin mallille erikseen. Osassa tarjontamalleista havaitaan estimolntimenetelmän kannalta olennaista muuttujien epästationaarisuutta, joka perustellaan seurauksettomaksi soveltaen johtopäätöksiä Hsiaon artikkelista Statistical Properties of the Tvvo-Stage Least Squares Estimator Under Cointegration (1997). Diagnostisen tarkastelun jälkeen mallit todetaan moitteettomiksi. Tulosten mukaan raakapuun tarjonnan hintajousto on korkeampi kuin esitellyissä aikaisemmissa empiirisissä tutkimuksissa. Lisäksi käsiteltyjen kuitupuulajien tarjontojen hintajoustot ovat tukkipuulajien joustoja korkeampia, mikä on metsänhoidollisin syin perusteltavaa. Tarjonta ei sen sijaan näytä juuri reagoineen käsitellylle aikajaksolle sattuneisiin veromuutoksiin. Osoittautuu myös, ettei tarjonta riipu voimakkaasti sijoitetun pääoman hinnasta eli korosta. Valtiotieteellisen tiedekunnan dekaani ja UPM-Kymmene sopivat vuonna 2009, että pro gradu -tutkielmasta säilytetään valtiotieteellisen tiedekunnan kirjastossa sensuroitua kappaletta, josta yksityiskohtaisimmat lopputulokset jätetään pois. Tämä tutkielman kappale on suppea, siten sivumäärältään tiivistelmäsivun tietoa lyhyempi.
Resumo:
Yksinkertaisuus on vahva induktiivisen päättelyn periaate. Se on läsnä monessa arkielämän tilanteessa epäformaalina peukalosääntönä, jonka mukaan yksinkertaisin selitys on paras. Yksinkertaisuuden periaatetta, eli Okkamin partaveistä, voidaan soveltaa myös tilastollisen päättelyn pohjana. Sen formaali versio, niin sanottu lyhimmän kuvauspituuden periaate (MDL-periaate), asettaa vaihtoehtoiset hypoteesit paremmuusjärjestykseen sen mukaan, mikä niistä mahdollistaa aineiston lyhimmän kuvauksen, kun kuvaus sisältää myös itse hypoteesin. Kuvauspituuden määrittämiseksi sovelletaan informaatioteorian ja tiedon tiivistämisen menetelmiä. Esitän tässä kirjoituksessa joitakin informaatioteorian käsitteitä. Kirjoituksen jälkipuoliskolla käydään läpi MDL-periaatteen alkeita.
Resumo:
Tutkielmassa käsitellään taulukkoaineistoihin liittyviä tilastollisia tietosuojakysymyksiä, kuten milloin julkaistavan taulukkoaineiston tilastoyksiköihin kohdistuu paljastumisriski ja millä menetelmillä tätä riskiä voidaan pienentää. Taulukkoaineistojen tilastollisia tietosuojamenetelmiä on tutkittu jo kymmeniä vuosia, mutta edelleen niiden soveltamiseen liittyy haasteita ja ratkaisemattomia kysymyksiä. Taulukkoaineistolla tai taulukolla tarkoitetaan tässä tutkielmassa taulukkomuotoon järjestettyä aggregoitua aineistoa. Yhteiskunta tarvitsee toimiakseen luotettavia tilastotietoja ja tilastoviranomaisten tehtävä on tuottaa niitä. Taulukko on perinteinen muoto julkaista tilastotietoja, joten niille on välttämätön tarve. Paitsi lainsäädäntö, myös tilastoalan eettiset periaatteet edellyttävät tilastoinnin kohteiden yksityisyyden suojaamista. Taulukkoaineisto on näin ollen suojattava ennen julkaisua, jos taulukkoon kohdistuu paljastumisriski. Taulukon paljastumisriski määritellään solukohtaisen paljastumisriskin avulla: taulukkoon kohdistuu riski, jos yhteenkin sen soluun kohdistuu riski. Soluun kohdistuu paljastumisriski, jos yksikin siihen kuuluva tilastoyksikkö on vaarassa paljastua julkaistun taulukon avulla. Paljastumisriskiä ei kokonaan voida poistaa, mutta tilastollisilla tietosuojamenetelmillä se pyritään laskemaan hyväksyttävälle tasolle. Tilastolliset tietosuojamenetelmät muokkaavat aineistoa rajoittamalla, muuntamalla tai korvaamalla, jolloin tietoa väistämättä menetetään. Samalla aineiston laatu, oikeellisuus, tarkkuus, täydellisyys ja käytettävyys kärsivät. Eri menetelmiä sovellettaessa eri määrä informaatiota häviää. Oikean tietosuojamenetelmän valinnassa tärkeimmät kriteerit ovat vaaditun suojaustason saavuttaminen ja taulukon tärkeiden analyyttisten ominaisuuksien säilyminen. Haasteena on löytää kunkin taulukon kohdalla oikea tasapaino tilastoyksiköihin kohdistuvan paljastumisriskin sekä menetetyn tiedon ja hyödyn välillä. Tilastollinen tietosuoja on haastava tilastotieteen osa-alue, koska jokaisella suojattavalla tilastolla on omat huomioonotettavat erityispiirteensä. Voidaan sanoa, että jokainen tilasto muodostaa suojaamisen kannalta oman erikoistapauksensa. Paljastumisriskiä ja erilaisia tilastollisia tietosuojamenetelmiä käsitellään tutkielmassa ensin teoreettisesti. Teoreettinen tarkastelu keskittyy kahteen menetelmään: peittämiseen ja kontrolloituun taulukon säätöön, eli CTA:han (engl. controlled tabular adjustment). Peittäminen on 1970-luvulta asti ollut suosittu suojausmenetelmä, mutta sen myötä taulukosta häviää liikaa tietoa. 2000-luvulla kehitetty vaihtoehtoinen menetelmä CTA pyrkii peittämistä paremmin säilyttämään suojattujen taulukoiden tärkeät ominaisuudet, kuten taulukon additiivisuuden ja soluarvojen jakauman. Tutkielman lopussa on lyhyt empiirinen osa, jossa peittämisen ja CTA:n toimivuutta käytännössä testataan todellisen yritysaineiston avulla. Menetelmiä vertailtaessa tultiin tulokseen, että taulukon laadun ja hyödyn säilyttämisen näkökulmasta CTA on peittämistä parempi menetelmä. Koska CTA on uusi menetelmä, sen soveltamiseen liittyy kuitenkin vielä ongelmia. CTA voi johtaa taulukon käyttäjää harhaan, jos käyttäjä ei ymmärrä menetelmän periaatteita.
Resumo:
Internet-yhteyksien käyttö yleistyi Suomessa vuoden 1993 jälkeen, mistä lähtien Internetiä on alettu käyttämään yhä enemmän tiedonkeruun apuvälineenä. Apuvälineenä Internetiä käytetään sekä yhteydenotossa vastaajiin että vastauksien keruussa. Internetin avulla tehtyihin kyselytutkimuksiin liittyy edelleen paljon avoimia metodologisia kysymyksiä. Useimmiten perinteistä, satunnaistettua otoksen keruuta ei voida suorittaa, koska kehikkoperusjoukkoa ei pystytä määrittelemään. Tällöin joudutaan turvautumaan itsevalikoituneeseen verkkotiedonkeruuseen, jossa kyselyä mainostetaan avoimesti tutkimuksen kohteena olevalle ryhmälle ja vastaajat itse päättävät osallistuvatko kyselyyn vai eivät. Samalla Internet-populaation alipeitto voi aiheuttaa harhaa tutkimustuloksiin, jos tavoiteperusjoukkona on jokin suuri populaatio, jossa kaikki eivät käytä Internetiä. Tutkielman tavoite on antaa kuva verkkotiedonkeruun ajanmukaisista menetelmistä sekä erityisesti selvittää itsevalikoituneen verkkotiedonkeruun tilastollista metodologiaa, mahdollisuuksia ja rajoituksia. Tarkoituksena on myös selvittää, kuinka hyvin valikoituneen verkkokyselytutkimuksen harhan korjaaminen onnistuu ajanmukaisilla painotusmenetelmillä. Kyselytutkimusten vastauskadosta sekä valikoituneisuudesta johtuvaa harhaa voidaan korjata painotusmenetelmillä, jos vastauskadon mekanismia tai valikoitumismekanismia pystytään selittämään. Harhaa voidaan korjata sopivien apumuuttujien avulla, jotka korreloivat tulosmuuttujan tai osallistumispäätöksen kanssa. Apumuuttujien tiedot täytyy olla tiedossa sekä kyselyyn osallistujilta että ei-osallistujilta. Perinteisen todennäköisyysotantaan perustuvan aineiston vastauskadosta johtuvaa harhaa korjataan useimmiten jälkiosituspainoilla. Itsevalikoituneen verkkokyselytutkimuksen valikoitumisharhan korjaamiseen on esitetty kaksivaiheista painotusmenetelmää, jonka tarkoituksena on korjata harhaa, joka johtuu Internetin käyttömahdollisuudesta sekä itse osallistumispäätöksestä. Internetin käyttömahdollisuus voidaan mallintaa propensiteettipistemäärän avulla, jonka käänteislukua voidaan käyttää painokertoimena harhan korjaamiseksi. Osallistumispäätöksestä johtuvaa harhaa voidaan korjata tasaamalla aineiston apumuuttujien reunajakaumat vastaamaan populaation reunajakaumia. Tutkimuksessa tarkastellaan kolmea aineistoa. Kelan tutkimusosasto keräsi vuoden 2010 syyskuussa pilotin itsevalikoituneesta verkkokyselytutkimuksesta. Kyselyllä pyrittiin kartoittamaan Suomen 16–80-vuotiaiden kansalaisten yksityisten terveys- ja hammashoitopalvelujen hintatietoja ja tarpeita. Sama kysely lähetettiin myös otosperusteisesti Kelan työntekijöille. Molemmissa kyselyissä vastaukset kerättiin sähköisellä Internet-kyselyllä. Lisäksi tutkielmassa tarkastellaan TNS Gallupin otosperusteisesti Suomen kansalaisilta keräämään suppeampaa puhelinhaastattelukyselyä, jota käytettiin myös itsevalikoituneen aineiston kalibrointiaineistona. Kyselytutkimusaineistojen vastauskatoa korjattiin erilaisilla painotusmenetelmillä, joiden avulla pystyttiin tarkastelemaan kuinka hyvin eri painotusmenetelmät pystyvät korjaamaan valikoitumisesta johtuvaa harhaa. Otosperusteisia verkkokyselytutkimuksia korjattiin jälkiosituspainoilla ja painotuksissa onnistuttiin hyvin, koska aineistossa ei ollut suurta valikoituneisuutta. Itsevalikoituneen verkkokyselytutkimuksen painotuksessa jouduttiin kohtaamaan paljon ongelmia, koska aineisto oli suuresti valikoitunut, ja siinä oli paljon vastauskatoa. Itsevalikoituneen aineiston valikoitumisen harhaa onnistuttiin kuitenkin osaksi korjaamaan, ja osa tulosmuuttujien jakaumatiedoista vastasi lähes otosperusteisen kyselytutkimuksen jakaumatietoja. Tutkimuksen keskeisin tulos oli, että vaikka verkkokyselyn tekeminen on halvempaa ja vähemmän työläämpää kuin otosperusteisen kyselytutkimuksen tekeminen, verkkokyselytutkimuksen suunnitteluun on panostettava entistä enemmän. Itsevalikoituneen verkkokyselytutkimuksen keruussa on suunniteltava tarkemmin kyselyn mainostaminen vastaajaehdokkaille, jotta valikoitumisesta johtuvaa harhaa voidaan paremmin hallita. Tutkimuksessa kävi myös ilmi, että sekä asennetta ja käyttäytymistä kuvaavia kysymyksiä on tärkeä olla kyselytutkimuksissa mukana, koska näiden avulla pystytään selittämään paremmin valikoitumisesta johtuvaa harhaa, kuin pelkästään sosiodemografisten muuttujien avulla.