A supervised machine learning method for word sense disambiguation of Portuguese nouns
Contribuinte(s) |
Orasan, Constantin Baptista, Jorge |
---|---|
Data(s) |
13/09/2016
13/09/2016
2010
2010
|
Resumo |
Dissertação de Mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2010 Word Sense Disambiguation (WSD) is vital in many Natural Language Processing (NLP) applications. This work aims to explore supervised machine learning techniques for the disambiguation of Portuguese nouns. The primary motivation for this work was the conceptualization of WSD integrated in an Information Retrieval (IR) engine in order to show how WSD may improve document retrieval from the world-wide web. After a brief overview of the most relevant applications for WSD, the main approaches and state-of-the-art techniques available for the task are presented. For the comparison of different WSD algorithms and techniques, a selection of ambiguous words from a Portuguese academic vocabulary was taken and a catalogue of word senses was established for each of them. A training corpus of real occurrences of each word in context was collected, providing manually annotated contextual data for each sense of the ambiguous word. The corpus was processed and features were extracted using Python and the Natural Language Tool Kit (NLTK) to feed into machine learning algorithms. Results are evaluated and discussed. Desambiguação lexical de sentido, do inglês Word Sense Disambiguation (WSD), é uma tarefa vital para muitas aplicações na área do Processamento de Linguagem Natural. O trabalho aqui apresentado visa explorar técnicas de aprendizado supervisionado para a desambiguação de substantivos em Português. A motivação principal desse trabalho surgiu da ideia de integrar técnicas de desambiguação lexical a um motor de busca para recuperação de informação e com isso, mostrar como um módulo de desambiguação automática pode aumentar a performance da recuperação de documentos da internet. Após uma breve introdução acerca das aplicações mais relevantes de WSD, as principais técnicas para a resolução da tarefa serão discutidas.Com intuito de estudar diferentes algoritmos e técnicas para desambiguação automática, foi efetuada a seleção de palavras ambíguas a partir de um vocabulário académico do Português e um corpus de ocorrências reais de cada palavra em contexto foi coletado. O corpus foi processado utilizando a linguagem de programação Python e os componentes do NLTK e diferentes algoritmos foram utilizados. Ao fim, resultados são avaliados e discutidos. Erasmus Mundus |
Identificador | |
Idioma(s) |
eng |
Direitos |
closedAccess http://creativecommons.org/licenses/by/4.0/ |
Palavras-Chave | #Domínio/Área Científica::Humanidades::Artes #Domínio/Área Científica::Humanidades::Outras Humanidades |
Tipo |
masterThesis |