Explorations in the distributional and semantic similarity of words


Autoria(s): Piitulainen, Jussi
Contribuinte(s)

Helsingin yliopisto, humanistinen tiedekunta, nykykielten laitos

Helsingfors universitet, humanistiska fakulteten, institutionen för moderna språk

University of Helsinki, Faculty of Arts, Department of Modern Languages

Data(s)

15/01/2011

Resumo

A straightforward computation of the list of the words (the `tail words' of the list) that are distributionally most similar to a given word (the `head word' of the list) leads to the question: How semantically similar to the head word are the tail words; that is: how similar are their meanings to its meaning? And can we do better? The experiment was done on nearly 18,000 most frequent nouns in a Finnish newsgroup corpus. These nouns are considered to be distributionally similar to the extent that they occur in the same direct dependency relations with the same nouns, adjectives and verbs. The extent of the similarity of their computational representations is quantified with the information radius. The semantic classification of head-tail pairs is intuitive; some tail words seem to be semantically similar to the head word, some do not. Each such pair is also associated with a number of further distributional variables. Individually, their overlap for the semantic classes is large, but the trained classification-tree models have some success in using combinations to predict the semantic class. The training data consists of a random sample of 400 head-tail pairs with the tail word ranked among the 20 distributionally most similar to the head word, excluding names. The models are then tested on a random sample of another 100 such pairs. The best success rates range from 70% to 92% of the test pairs, where a success means that the model predicted my intuitive semantic class of the pair. This seems somewhat promising when distributional similarity is used to capture semantically similar words. This analysis also includes a general discussion of several different similarity formulas, arranged in three groups: those that apply to sets with graded membership, those that apply to the members of a vector space, and those that apply to probability mass functions.

Sanoja sanotaan jakaumallisesti samanlaisiksi sikäli kuin ne esiintyvät tekstissä samojen sanojen kanssa. Määritelmä on tässä yksinkertaistettu niin pitkälle, että tietokoneen voi ohjelmoida tunnistamaan jakaumallista samanlaisuutta, vaikka sen ei ehkä haluta sanoa ymmärtävän kieltä. Työssä käytetyt aineistot ja menetelmät johtivat esimerkiksi siihen, että sanan "omena" kanssa kaikkein samanlaisimpien joukossa oli sellaisia sanoja kuin "peruna", "appelsiini", "kala" ja "liha". Yksi syy olla kiinnostunut tietokoneella laskettavasta jakaumallisesta samanlaisuudesta on se, että jakaumallisesti samanlaiset sanat ovat usein jossain määrin samanlaisia myös merkitykseltään. Yllä mainitut esimerkkisanat ovat tällaisia. Sama laskenta johtaa kuitenkin myös tuloksiin, joita ei haluttaisi, kun etsitään merkityssuhteita: sanan "omena" listassa olivat korkealla myös "verouudistus" ja "lanka". Tämä johtui siitä, että yksi ainoa yhteinen sana, "vihreä", esiintyi tässä aineistossa yllättävän usein juuri näiden sanojen kanssa. Sovitin neljänsadan jakaumallisen sanaparin satunnaisotokseen luokittelupuita, jotka ennustavat mahdollisimman hyvin omia arvostelmiani kyseisten sanaparien löyhästä merkitysyhteydestä tai yhteyden puuttumisesta. Merkitysarvostelmien tekeminen oli minulle yllättävän vaikeaa. Itse luokittelu perustuu sitten vain esiintymien lukumääriin aineistossa sekä niistä johdettuihin lukuihin. Niitä tietokone pystyy tuottamaan ja hyödyntämään. Sadan sanaparin testiotoksen perusteella luokittelupuut pystyvät jossain määrin jäljittelemään arvioitani siitä, onko jakaumallinen pari myös merkitykseltään jossain määrin läheinen. Tuloksia voisi ehkä parantaa: Hyödynsin kyllä virkerakenteiden automaattista jäsentämistä, mutta tein sen varsin yksioikoisesti. En juurikaan hyödyntänyt metatietoja aineiston rakenteesta. On muita menetelmiä, jotka saattaisivat toimia luokittelupuita paremmin. Jakaumallista laskentaa voinee käyttää yhtenä apuna erilaisten sanastotietokantojen luomisessa ja rikastamisessa. Työhön sisältyy myös jakaumallisten kaavojen käsitteellinen erittely ja jako joukko-, vektori- ja todennäköisyyskaavoihin. Erityistä huomiota osakseen saa informaatiosäde, jota käytin.

Formato

application/pdf

Identificador

URN:ISBN:978-952-10-6760-0

http://hdl.handle.net/10138/24296

Idioma(s)

en

Publicador

Helsingin yliopisto

Helsingfors universitet

University of Helsinki

Relação

URN:ISBN:978-952-92-8426-9

Helsinki: 2010

Direitos

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.

Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden.

Palavras-Chave #kieliteknologia
Tipo

Väitöskirja (monografia)

Doctoral dissertation (monograph)

Doktorsavhandling (monografi)

Text