Taulukkoaineistojen tilastolliset tietosuojamenetelmät
Contribuinte(s) |
Helsingin yliopisto, valtiotieteellinen tiedekunta, Sosiaalitieteiden laitos |
---|---|
Data(s) |
20/01/2012
|
Resumo |
Tutkielmassa käsitellään taulukkoaineistoihin liittyviä tilastollisia tietosuojakysymyksiä, kuten milloin julkaistavan taulukkoaineiston tilastoyksiköihin kohdistuu paljastumisriski ja millä menetelmillä tätä riskiä voidaan pienentää. Taulukkoaineistojen tilastollisia tietosuojamenetelmiä on tutkittu jo kymmeniä vuosia, mutta edelleen niiden soveltamiseen liittyy haasteita ja ratkaisemattomia kysymyksiä. Taulukkoaineistolla tai taulukolla tarkoitetaan tässä tutkielmassa taulukkomuotoon järjestettyä aggregoitua aineistoa. Yhteiskunta tarvitsee toimiakseen luotettavia tilastotietoja ja tilastoviranomaisten tehtävä on tuottaa niitä. Taulukko on perinteinen muoto julkaista tilastotietoja, joten niille on välttämätön tarve. Paitsi lainsäädäntö, myös tilastoalan eettiset periaatteet edellyttävät tilastoinnin kohteiden yksityisyyden suojaamista. Taulukkoaineisto on näin ollen suojattava ennen julkaisua, jos taulukkoon kohdistuu paljastumisriski. Taulukon paljastumisriski määritellään solukohtaisen paljastumisriskin avulla: taulukkoon kohdistuu riski, jos yhteenkin sen soluun kohdistuu riski. Soluun kohdistuu paljastumisriski, jos yksikin siihen kuuluva tilastoyksikkö on vaarassa paljastua julkaistun taulukon avulla. Paljastumisriskiä ei kokonaan voida poistaa, mutta tilastollisilla tietosuojamenetelmillä se pyritään laskemaan hyväksyttävälle tasolle. Tilastolliset tietosuojamenetelmät muokkaavat aineistoa rajoittamalla, muuntamalla tai korvaamalla, jolloin tietoa väistämättä menetetään. Samalla aineiston laatu, oikeellisuus, tarkkuus, täydellisyys ja käytettävyys kärsivät. Eri menetelmiä sovellettaessa eri määrä informaatiota häviää. Oikean tietosuojamenetelmän valinnassa tärkeimmät kriteerit ovat vaaditun suojaustason saavuttaminen ja taulukon tärkeiden analyyttisten ominaisuuksien säilyminen. Haasteena on löytää kunkin taulukon kohdalla oikea tasapaino tilastoyksiköihin kohdistuvan paljastumisriskin sekä menetetyn tiedon ja hyödyn välillä. Tilastollinen tietosuoja on haastava tilastotieteen osa-alue, koska jokaisella suojattavalla tilastolla on omat huomioonotettavat erityispiirteensä. Voidaan sanoa, että jokainen tilasto muodostaa suojaamisen kannalta oman erikoistapauksensa. Paljastumisriskiä ja erilaisia tilastollisia tietosuojamenetelmiä käsitellään tutkielmassa ensin teoreettisesti. Teoreettinen tarkastelu keskittyy kahteen menetelmään: peittämiseen ja kontrolloituun taulukon säätöön, eli CTA:han (engl. controlled tabular adjustment). Peittäminen on 1970-luvulta asti ollut suosittu suojausmenetelmä, mutta sen myötä taulukosta häviää liikaa tietoa. 2000-luvulla kehitetty vaihtoehtoinen menetelmä CTA pyrkii peittämistä paremmin säilyttämään suojattujen taulukoiden tärkeät ominaisuudet, kuten taulukon additiivisuuden ja soluarvojen jakauman. Tutkielman lopussa on lyhyt empiirinen osa, jossa peittämisen ja CTA:n toimivuutta käytännössä testataan todellisen yritysaineiston avulla. Menetelmiä vertailtaessa tultiin tulokseen, että taulukon laadun ja hyödyn säilyttämisen näkökulmasta CTA on peittämistä parempi menetelmä. Koska CTA on uusi menetelmä, sen soveltamiseen liittyy kuitenkin vielä ongelmia. CTA voi johtaa taulukon käyttäjää harhaan, jos käyttäjä ei ymmärrä menetelmän periaatteita. |
Identificador | |
Idioma(s) |
fi |
Palavras-Chave | #tilastollinen tietosuoja #taulukkoaineisto #paljastumisriski #lineaariset herkkyysmitat #peittäminen #kontrolloitu taulukon säätö(CTA) #taulukot #tietosuoja #suojaus #Tilastotiede |
Tipo |
Thesis Pro gradu -työ text |