1 resultado para raccomandazione e-learning privacy tecnica rule-based recommender suggerimento

em Universidade Federal do Pará


Relevância:

100.00% 100.00%

Publicador:

Resumo:

A etiquetagem morfossinttica uma tarefa bsica requerida por muitas aplicaes de processamento de linguagem natural, tais como anlise gramatical e traduo automtica, e por aplicaes de processamento de fala, por exemplo, sntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentena com as suas categorias gramaticais. Apesar dessas aplicaes requererem etiquetadores que demandem maior preciso, os etiquetadores do estado da arte ainda alcanam acurcia de 96 a 97%. Nesta tese, so investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurcia superior do estado da arte para o portugus brasileiro. Centrada em uma soluo hbrida que combina etiquetagem probabilstica com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratrio sobre o mtodo de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gnero dos corpora de treinamento e teste, alm de avaliar a desambiguizao de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Cientfica. O modelo de etiquetagem proposto partiu do uso do mtodo de aprendizado baseado em transformao(TBL) ao qual foram adicionadas trs estratgias, combinadas em uma arquitetura que integra as sadas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os mdulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gnero jornalstico, foram obtidas taxas de acurcia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gnero jornalstico. Avaliou-se tambm o desempenho do modelo de etiquetador hbrido proposto na etiquetagem de textos do corpus Selva Cientfica, de gnero cientfico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcanadas taxas de acurcia de 98,07% no Selva Cientfica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados so significativos, pois as taxas de acurcia alcanadas so superiores s do estado da arte, validando o modelo proposto em busca de um etiquetador morfossinttico mais confivel.