Extracção de unigramas relevantes


Autoria(s): Ventura, João Miguel Jones
Contribuinte(s)

Silva, Joaquim Francisco Ferreira da

Data(s)

15/01/2009

15/01/2009

2008

Resumo

Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para obtenção do grau de Mestre em Engenharia Informática

A extracção automática de Unidades Lexicais Multipalavra (ULM) a partir de corpora é actualmente uma área de grande aplicabilidade. Porém, os avanços na aplicação das ULMs vieram realçar uma lacuna: os conjuntos obtidos pelos extractores de ULMs são incompletos porque não incluem as unidades de uma só palavra os Unigramas Relevantes (URs). Com efeito, a extracção de URs é uma área ainda pouco explorada onde as abordagens actuais apresentam algumas limitações. Umas são demasiado simplistas e permissivas; outras bastante punitivas em determinadas situações. Estas limitações motivaram a criação das métricas Score e SPQ, desenvolvidas no âmbito desta dissertação. Por outro lado, essas abordagens apenas permitem obter listas que medem a import ância relativa dos unigramas. Porém, nalgumas aplicações poderá ser necessária a classi cação booleana acerca da relevância de uma palavra, como por exemplo, obter as palavras-chave que verdadeiramente caracterizam um documento. A inexistência de qualquer abordagem capaz desta classi cação, com bons resultados, motivou a criação do Método das Ilhas. Esta dissertação propõe novas abordagens para os problemas acima mencionados e compara resultados com as abordagens existentes. Por m, apresenta também o Método das Sílabas que, de uma forma bastante simples e, julgo, inovadora, permite melhorar substancialmente os resultados em geral.

Identificador

http://hdl.handle.net/10362/1786

Idioma(s)

por

Publicador

FCT - UNL

Direitos

openAccess

Tipo

masterThesis