Biblioteca Digital

Extracção de unigramas relevantes

**Autoria(s):** Ventura, João Miguel Jones
Contribuinte(s)	Silva, Joaquim Francisco Ferreira da
Data(s)	15/01/2009 15/01/2009 2008
Resumo	Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para obtenção do grau de Mestre em Engenharia Informática A extracção automática de Unidades Lexicais Multipalavra (ULM) a partir de corpora é actualmente uma área de grande aplicabilidade. Porém, os avanços na aplicação das ULMs vieram realçar uma lacuna: os conjuntos obtidos pelos extractores de ULMs são incompletos porque não incluem as unidades de uma só palavra os Unigramas Relevantes (URs). Com efeito, a extracção de URs é uma área ainda pouco explorada onde as abordagens actuais apresentam algumas limitações. Umas são demasiado simplistas e permissivas; outras bastante punitivas em determinadas situações. Estas limitações motivaram a criação das métricas Score e SPQ, desenvolvidas no âmbito desta dissertação. Por outro lado, essas abordagens apenas permitem obter listas que medem a import ância relativa dos unigramas. Porém, nalgumas aplicações poderá ser necessária a classi cação booleana acerca da relevância de uma palavra, como por exemplo, obter as palavras-chave que verdadeiramente caracterizam um documento. A inexistência de qualquer abordagem capaz desta classi cação, com bons resultados, motivou a criação do Método das Ilhas. Esta dissertação propõe novas abordagens para os problemas acima mencionados e compara resultados com as abordagens existentes. Por m, apresenta também o Método das Sílabas que, de uma forma bastante simples e, julgo, inovadora, permite melhorar substancialmente os resultados em geral.
Identificador	http://hdl.handle.net/10362/1786
Idioma(s)	por
Publicador	FCT - UNL
Direitos	openAccess
Tipo	masterThesis

Acesso ao item digital