Koherentziazko diskurtso erlazioen detekzio automatikoa patroien bidez, XMLko erlazio-egiturak oinarri hartuta


Autoria(s): Kortajarena Guridi, Asier
Contribuinte(s)

Iruskieta Quintian, Mikel

::Lenguajes y Sistemas Informáticos;;Hizkuntza eta Sistema Informatikoak

Data(s)

15/07/2016

15/07/2016

15/07/2016

28/06/2016

Resumo

[EU]Hizkuntzaren prozesamenduan testu koherenteetan kausa taldeko erlazioak (KAUSA, ONDORIOA eta HELBURUA) automatikoki hautematea eta bereiztea erabilgarria da galdera-erantzun automatikoko sistemak eraikitzerako orduan. Horretarako Egitura Erretorikoaren Teoria (Rhetorical Structure Theory, aurrerantzean RST) eta bere erlazioak erabiliko ditugu, corpus bezala RST Treebank -a (Iruskieta et al., 2013) hartuta, zientziako laburpen-testuz osatutako corpusa, hain zuzen ere. Corpus hori XML formatuan deskargatu eta hortik XPATH tresnaren bidez informazio garrantzitsuena eskuratzen dugu. Lan honek 3 helburu nagusi ditu: lehendabizi, kausa taldeko erlazioak elkarren artean bereiztea, bigarrenez, kausa taldeko erlazio hauek beste erlazio guztiekin bereiztea, eta azkenik, EBALUAZIOA eta INTERPRETAZIOA erlazioak bereiztea sentimendu analisian aplikatu ahal izateko. Ataza horiek egiteko, RhetDB tresnarekin eskuratu diren patroi ensaguratsuenak erabili eta bi aplikazio garatu ditugu. Alde batetik, bilatu nahi ditugun patroiak adierazi eta erlazio-egitura duen edonolako testuetan bilaketak egiten dituen bilatzailea, eta bestetik, patroi esanguratsuenak emanda erlazioak etiketatzen dituen etiketatzailea. Bi aplikazio hauek gainera, ahalik eta modu parametrizagarrienean erabiltzeko garatu ditugu, kodea aldatu gabe edonork erabili ahal izateko antzeko atazak egiteko. Etiketatzaileak ebaluatu ondoren, identifikatzeko erlaziorik errazena HELBURUA erlazioa dela ikusi dugu eta KAUSA eta ONDORIOA bereizteko arazo gehiago dauzkagula ere ondorioztatu dugu. Modu berean, EBALUAZIOA eta INTERPRETAZIOA ere elkarren artean bereiz dezakegula ikusi dugu.

[EN]At language processing an automatic detection of causal relations (CAUSE, RESULT and PURPOUSE) would be useful in coherent texts, specially building automatic Question Answering(QA) systems. Achieving this task, we use RST (Rethorical Structure Theory) relations and RST Treebank (Iruskieta et al., 2013) basque corpus which have many scientific abstract texts. We have download this corpus in XML format and get the most important data using XPATH for information extraction. This work has 3 goals: firstly, we want to distinguish the causal relation set among themselves, secondly, we want to distinguish the cause subgroup relations from other relations, and finally, distinguish EVALUATION and INTERPRETATION relation to apply on sentiment analysis. To do so, we use some meaningful patterns extracted from RhetDB tool and we build two programs. On the one hand, we will develop a search tool which match patterns on the structured relation texts, and on the other hand, we will develop a program which tags relations of a XML structured text. Both programs are also easily configurable for anyone. After evaluating the taggers, we conclude that the easiest relation to identify is PURPOUSE and a harder task is to distinguish CAUSE and RESULT relations. More over, we have seen that we can distinguish EVALUATION and INTERPRETATION among themselves.

Identificador

http://hdl.handle.net/10810/18632

Idioma(s)

eus

Direitos

info:eu-repo/semantics/openAccess

Palavras-Chave #testu-koherentzia #Egitura Erretorikoaren Teoria #Rhetorical Structure Theory #RST
Tipo

info:eu-repo/semantics/masterThesis