Internet-lähteistä haettujen uutisten ryhmittely
Data(s) |
18/12/2007
18/12/2007
2006
|
---|---|
Resumo |
Tämän diplomityön tarkoituksena on tutkia, mitä vaaditaan uutisten samanlaisuuden automaattiseen tunnistamiseen. Uutiset ovat tekstipohjaisia uutisia, jotka on haettu eri uutislähteistä. Uutisista on tarkoitus tunnistaa ensinnäkin ne uutiset, jotka tarkoittavat samaa asiaa, sekä ne uutiset, jotka eivät ole aivan sama asia, mutta liittyvät kuitenkin toisiinsa. Tässä diplomityössä tutkitaan, millä algoritmeilla tämä tunnistus onnistuu tehokkaimmin sekä suomalaisessa, että englanninkielisessä tekstissä. Diplomityössä vertaillaan valmiita algoritmeja. Tavoitteena on valita sellainen algoritmiyhdistelmä, että 90 % vertailluista uutisista tunnistuu oikein. Tutkimuksessa käytetään 2 eri ryhmittelyalgoritmia, sekä 3 eri stemmaus-algoritmia. Näitä algoritmeja vertaillaan sekä uutisten tunnistustehokkuuden, että niiden suorituskyvyn suhteen. Parhaimmaksi stemmaus-algoritmiksi osoittautui sekä suomen-, että englanninkielisten uutisten vertailussa Porterin algoritmi. Ryhmittely-algoritmeista tehokkaammaksi osoittautui yksinkertaisempi erilaisiin tunnuslukuihin perustuva algoritmi. The objective of this study was to research how one can automatically identify, if two news topics are discussing about the same event, or are these events somehow related to each other. Two clustering algorithms and three stemming algorithms are compared in this study. The performance and accuracy of these algorithms are tested, and the best clustering algorithm and stemming algorithm are chosen. The success rate of the chosen algorithm should be over 90 %. Based on therecognition and performance tests, the best stemming algorithm is the Porter algorithm. The result is the same when stemming English and Finnish news topics. The best clustering algorithm is the simple self made algorithm. |
Identificador | |
Idioma(s) |
fi |
Palavras-Chave | #Uutisten tunnistus #Porter #Ryhmittely #Kosinikerroin #Snowball #News detection #Porter #Clustering #Cosine coefficient #Snowball |
Tipo |
Diplomityö Master's thesis |