Biblioteca Digital

Método híbrido para categorización de texto basado en aprendizaje y reglas

**Autoria(s):** Villena Román, Julio; Collada Pérez, Sonia; Lana Serrano, Sara; González Cristóbal, José Carlos
Data(s)	2011
Resumo	En este artículo se presenta un nuevo método híbrido de categorización automática de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificación sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse añadiendo reglas específicas para aquellas categorías difíciles que no se han entrenado de forma satisfactoria. Se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparación con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precisión y cobertura comparables con las de los mejores métodos del estado del arte.
Formato	application/pdf
Identificador	http://oa.upm.es/12323/
Idioma(s)	spa
Publicador	E.U.I.T. Telecomunicación (UPM)
Relação	http://oa.upm.es/12323/2/INVE_MEM_2011_111699.pdf http://sinai.ujaen.es/sepln/ojs/ojs/index.php/pln/article/view/838
Direitos	http://creativecommons.org/licenses/by-nc-nd/3.0/es/ info:eu-repo/semantics/openAccess
Fonte	Procesamiento del Lenguaje Natural, ISSN 1135-5948, 2011, No. 46
Palavras-Chave	#Telecomunicaciones #Informática
Tipo	info:eu-repo/semantics/article Artículo PeerReviewed

Acesso ao item digital