Tekstin kielen automaattinen tunnistaminen


Autoria(s): Jauhiainen, Tommi
Contribuinte(s)

Helsingin yliopisto, Humanistinen tiedekunta, nykykielten laitos

University of Helsinki, Faculty of Arts, Department of Modern Languages

Helsingfors universitet, Humanistiska fakulteten, institutionen för moderna språk

Data(s)

2010

Resumo

Tutkielman aiheena on kirjoitetun digitaalisessa muodossa olevan tekstin kielen automaattinen tunnistaminen. Tekstin kieli on usein tarpeellista identifioida, jotta tekstin jatkokäsittelyssä osataan toimia käyttäen oikeita menetelmiä. Tekstin kielen automaattinen tunnistaminen on internetissä olevan tekstimäärän ja kielivalikoiman kasvaessa tullut tärkeäksi näiden dokumenttien automaattisen käsittelyn esivaiheeksi. Kielen tunnistaminen on kieleltään tuntemattoman tekstin vertaamista joukkoon annettuja kieliä. Samoja tai hyvin läheisiä menetelmiä voidaan käyttää myös tekstin lajitteluun esimerkiksi aihealueiden suhteen. Tässä tutkielmassa esitellään tutkielmaa varten rakennetun kielentunnistimen kehitysvaiheet sekä sen suorituskyvyn evaluointia. Aluksi tutkielmassa paneudutaan muutamaan eri kielentunnistamisen menetelmään, sekä esitellään myös eräiden toteutettujen kielentunnistinten rakennetta niistä kirjoitettujen artikkelien perusteella. Tämän jälkeen tutkielmassa kerrotaan kuinka kielentunnistimen rakentamiseen luotiin harjoituskorpuksia. Harjoituskorpukset luotiin Wikipedian artikkeleista yhteensä 103 kielelle. Eri kielten harjoituskorpusten yhteenlasketuksi kooksi tuli yli miljardi sanetta. Jokaisesta harjoituskorpuksesta luotiin 7 kielimallia kullekin kielelle. Kielimallit ovat kielten sanojen n-grammien (yhdestä kuuteen) listoja sekä listoja kielten koko-naisista sananmuodoista. Harjoituskorpuksista luotuja kielimalleja ja muutamia eri menetelmiä yhdistelemällä rakennettiin useita erilaisia kielentunnistimia, joiden suoriutumista vertailtiin keskenään laajojen testitunnistusten avulla. Testien suorittamista varten muodostettiin Europarl-korpuksesta noin 200 miljoonan sanan testikorpuksia kymmenelle eurooppalaiselle kielelle. Testitunnistuksia tehtiin automatisoidusti useita miljoonia. Näiden testien tulosten perusteella päädyttiin kielentunnistimeen, joka käyttää hyväkseen kaikkia kielimalleja sekä kahta eri menetelmää. Tutkielmassa kehitetyn kielentunnistimen suoriutumista vertailtiin vielä joidenkin artikkeleissa esiteltyjen kielentunnistimien suoriutumiseen ja lopuksi tutkielmassa esitellään mahdollisuuksia tunnistimen jatkokehittämiseen.

Identificador

URN:NBN:fi-fe201012223157

http://hdl.handle.net/10138/24280

Idioma(s)

fi

Publicador

Helsingfors universitet

University of Helsinki

Helsingin yliopisto

Direitos

Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden.

This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

Tipo

pro gradu-avhandlingar

pro gradu -tutkielmat

master's thesis