Päätöspuut tiedonlouhinnassa


Autoria(s): Lindqvist, Kim
Data(s)

20/10/2015

20/10/2015

20/10/2015

Resumo

Tallennustekniikan kehittymisen ja internetin murroksen seurauksena tietomäärät ovat kasvaneet dramaattisesti. Tietomäärien yhä kasvaessa on kehitetty erilaisia menetelmiä relevantin tiedon noutamiseksi tällaisesta tietomassasta, prosessia kutsutaan tiedonlouhinnaksi. Erilaisten tiedonlouhinta-algoritmien joukosta tässä tutkielmassa käsitellään päätöspuualgoritmeja. Päätöspuilla on lukuisia etuja muihin tiedonlouhinta-algoritmeihin nähden: Tietoa tarvitsee yleisesti esikäsitellä hyvin minimaalisesti ennen algoritmille syöttämistään, lisäksi päätöspuilla voidaan tarkastella muuttujien välisiä epälineaarisia riippuvuksia. Kenties tärkeimpänä päätöspuiden käyttöä puoltavana asiana voidaan kuitenkin pitää niiden palauttamaa selkeää puumaista esitysmuotoa, josta johtopäätösten tekeminen on suhteellisen helppoa. Tutkielmassa selvitetään ensin korkealla abstraktiotasolla päätöspuualgoritmien perustoiminta ja ongelmat, jonka jälkeen käydään läpi algoritmien toiminnan kannalta olennaisia tilastollisia käsitteitä. Tämän jälkeen analysoidaan relevanteiksi koettuja päätöspuualgoritmeja matalammalla abstraktiotasolla ja lopuksi vertaillaan algoritmien yhtäläisyyksiä ja eroavaisuuksia esimerkiksi laskentatehokkuuden, toimintatarkkuuden ja tuottetujen puiden koon muodossa. Tutkielmassa vastataan siihen minkälaisen ongelman ratkaisuun on suositeltavaa valita minkäkin tyyppinen päätöspuualgoritmi. Apuna käytetään paitsi alan kirjallisuutta, myös omia käytännön kokeita Weka-tiedonlouhintatyökalulla. Tutkielmassa tullaan siihen tulokseen että CHAID-algoritmia suositellaan käytettävän pääsääntöisesti datan piirteiden analysointiin, kun taas muita tutkielmassa esiteltäviä algoritmeja käytetään lähinnä luokittelutehtäviin. ID3 on vanhentunut algoritmi, jota tulee käyttää enää lähinnä opetus- tai demonstraatiotarkoituksissa. Lopputulosten pohjalta voidaan myös sanoa että pääsääntöisesti haluttaessa suoritusnopeutta tulee hyödyntää C4.5:en pohjalta kehitettyä J48-algoritmia ja mikäli taasen halutaan pienempiä malleja suositellaan käytettäväksi CART:in pohjalta kehitettyä SimpleCart-algoritmia.

Identificador

http://www.doria.fi/handle/10024/117156

Idioma(s)

fi

Direitos

Tallennustekniikan kehittymisen ja internetin murroksen seurauksena tietomäärät ovat kasvaneet dramaattisesti. Tietomäärien yhä kasvaessa on kehitetty erilaisia menetelmiä relevantin tiedon noutamiseksi tällaisesta tietomassasta, prosessia kutsutaan tiedonlouhinnaksi. Erilaisten tiedonlouhinta-algoritmien joukosta tässä tutkielmassa käsitellään päätöspuualgoritmeja. Päätöspuilla on lukuisia etuja muihin tiedonlouhinta-algoritmeihin nähden: Tietoa tarvitsee yleisesti esikäsitellä hyvin minimaalisesti ennen algoritmille syöttämistään, lisäksi päätöspuilla voidaan tarkastella muuttujien välisiä epälineaarisia riippuvuksia. Kenties tärkeimpänä päätöspuiden käyttöä puoltavana asiana voidaan kuitenkin pitää niiden palauttamaa selkeää puumaista esitysmuotoa, josta johtopäätösten tekeminen on suhteellisen helppoa. Tutkielmassa selvitetään ensin korkealla abstraktiotasolla päätöspuualgoritmien perustoiminta ja ongelmat, jonka jälkeen käydään läpi algoritmien toiminnan kannalta olennaisia tilastollisia käsitteitä. Tämän jälkeen analysoidaan relevanteiksi koettuja päätöspuualgoritmeja matalammalla abstraktiotasolla ja lopuksi vertaillaan algoritmien yhtäläisyyksiä ja eroavaisuuksia esimerkiksi laskentatehokkuuden, toimintatarkkuuden ja tuottetujen puiden koon muodossa. Tutkielmassa vastataan siihen minkälaisen ongelman ratkaisuun on suositeltavaa valita minkäkin tyyppinen päätöspuualgoritmi. Apuna käytetään paitsi alan kirjallisuutta, myös omia käytännön kokeita Weka-tiedonlouhintatyökalulla. Tutkielmassa tullaan siihen tulokseen että CHAID-algoritmia suositellaan käytettävän pääsääntöisesti datan piirteiden analysointiin, kun taas muita tutkielmassa esiteltäviä algoritmeja käytetään lähinnä luokittelutehtäviin. ID3 on vanhentunut algoritmi, jota tulee käyttää enää lähinnä opetus- tai demonstraatiotarkoituksissa. Lopputulosten pohjalta voidaan myös sanoa että pääsääntöisesti haluttaessa suoritusnopeutta tulee hyödyntää C4.5:en pohjalta kehitettyä J48-algoritmia ja mikäli taasen halutaan pienempiä malleja suositellaan käytettäväksi CART:in pohjalta kehitettyä SimpleCart-algoritmia.