Internet-lähteistä haettujen uutisten ryhmittely


Autoria(s): Karttunen, Jani
Data(s)

18/12/2007

18/12/2007

2006

Resumo

Tämän diplomityön tarkoituksena on tutkia, mitä vaaditaan uutisten samanlaisuuden automaattiseen tunnistamiseen. Uutiset ovat tekstipohjaisia uutisia, jotka on haettu eri uutislähteistä. Uutisista on tarkoitus tunnistaa ensinnäkin ne uutiset, jotka tarkoittavat samaa asiaa, sekä ne uutiset, jotka eivät ole aivan sama asia, mutta liittyvät kuitenkin toisiinsa. Tässä diplomityössä tutkitaan, millä algoritmeilla tämä tunnistus onnistuu tehokkaimmin sekä suomalaisessa, että englanninkielisessä tekstissä. Diplomityössä vertaillaan valmiita algoritmeja. Tavoitteena on valita sellainen algoritmiyhdistelmä, että 90 % vertailluista uutisista tunnistuu oikein. Tutkimuksessa käytetään 2 eri ryhmittelyalgoritmia, sekä 3 eri stemmaus-algoritmia. Näitä algoritmeja vertaillaan sekä uutisten tunnistustehokkuuden, että niiden suorituskyvyn suhteen. Parhaimmaksi stemmaus-algoritmiksi osoittautui sekä suomen-, että englanninkielisten uutisten vertailussa Porterin algoritmi. Ryhmittely-algoritmeista tehokkaammaksi osoittautui yksinkertaisempi erilaisiin tunnuslukuihin perustuva algoritmi.

The objective of this study was to research how one can automatically identify, if two news topics are discussing about the same event, or are these events somehow related to each other. Two clustering algorithms and three stemming algorithms are compared in this study. The performance and accuracy of these algorithms are tested, and the best clustering algorithm and stemming algorithm are chosen. The success rate of the chosen algorithm should be over 90 %. Based on therecognition and performance tests, the best stemming algorithm is the Porter algorithm. The result is the same when stemming English and Finnish news topics. The best clustering algorithm is the simple self made algorithm.

Identificador

http://www.doria.fi/handle/10024/30222

Idioma(s)

fi

Palavras-Chave #Uutisten tunnistus #Porter #Ryhmittely #Kosinikerroin #Snowball #News detection #Porter #Clustering #Cosine coefficient #Snowball
Tipo

Diplomityö

Master's thesis