Fundamentos em processamento de linguagem natural: uma proposta para extração de bigramas


Autoria(s): Silva, Edson Marchetti da; Souza, Renato Rocha
Data(s)

28/12/2015

28/12/2015

2014

Resumo

É senso comum que o texto escrito é uma importante forma de registrar as informações e que atualmente grande parte desse conteúdo informacional está disponível em meio digital. Entretanto, de maneira geral, os computadores lidam com o texto como sendo uma cadeia de caracteres que não têm nenhum significado. A área de Processamento de Linguagem Natural (PLN) vem se empenhando em extrair significados do texto. Nesse sentido este trabalho apresenta uma revisão desse tema e propõe um método automatizado que utiliza uma heurística determinística denominada Heudet que visa extrair bigramas do texto. A meta é extrair o significado do texto através de um conjunto de expressões multipalavras identificadas. Os resultados obtidos foram melhores se comparados com aqueles que utilizam-se das técnicas de medidas de associação estatística obtidas pelo software Ngram Statistics Package (NSP).

EMAp - Escola de Matemática Aplicada

Identificador

http://hdl.handle.net/10438/15027

Idioma(s)

pt_BR

Palavras-Chave #Extração de expressões multipalavras #Medidas de associação estatísticas #Heudet #Multiword expression extraction #Measures of association statistics #Processamento da linguagem natural (Computação)
Tipo

Article (Journal/Review)