Extracção de unigramas relevantes
Contribuinte(s) |
Silva, Joaquim Francisco Ferreira da |
---|---|
Data(s) |
15/01/2009
15/01/2009
2008
|
Resumo |
Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para obtenção do grau de Mestre em Engenharia Informática A extracção automática de Unidades Lexicais Multipalavra (ULM) a partir de corpora é actualmente uma área de grande aplicabilidade. Porém, os avanços na aplicação das ULMs vieram realçar uma lacuna: os conjuntos obtidos pelos extractores de ULMs são incompletos porque não incluem as unidades de uma só palavra os Unigramas Relevantes (URs). Com efeito, a extracção de URs é uma área ainda pouco explorada onde as abordagens actuais apresentam algumas limitações. Umas são demasiado simplistas e permissivas; outras bastante punitivas em determinadas situações. Estas limitações motivaram a criação das métricas Score e SPQ, desenvolvidas no âmbito desta dissertação. Por outro lado, essas abordagens apenas permitem obter listas que medem a import ância relativa dos unigramas. Porém, nalgumas aplicações poderá ser necessária a classi cação booleana acerca da relevância de uma palavra, como por exemplo, obter as palavras-chave que verdadeiramente caracterizam um documento. A inexistência de qualquer abordagem capaz desta classi cação, com bons resultados, motivou a criação do Método das Ilhas. Esta dissertação propõe novas abordagens para os problemas acima mencionados e compara resultados com as abordagens existentes. Por m, apresenta também o Método das Sílabas que, de uma forma bastante simples e, julgo, inovadora, permite melhorar substancialmente os resultados em geral. |
Identificador | |
Idioma(s) |
por |
Publicador |
FCT - UNL |
Direitos |
openAccess |
Tipo |
masterThesis |