Una aproximació d'aprenentatge automàtic per a extracció d'informació adaptativa


Autoria(s): Gonzàlez Pellicer, Edgar
Contribuinte(s)

Agència de Gestió d'Ajuts Universitaris i de Recerca

Universitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics

Data(s)

03/06/2009

Resumo

Les tècniques de clustering poden ajudar a reduir la supervisió en processos d'obtenció de patrons per a Extracció d'Informació. En aquest treball, que abarca un període de 4 anys de recerca, es comença per estudiar la representació de documents més adequada per a la tasca de clustering. Per tal d'evitar els biaixos dels mètodes individuals de clustering, es consideren mètodes de clustering conjunt. S'exploren diversos mètodes de combinació supervisada, i s'hi afegeixen estratègies automàtiques per a determinar el nombre de clusters de la combinació. També es consideren mecanismes per a obtenir clusterings conjunts ponderats, així com estratègies de combinació no supervisada. Finalment, els resultats del clustering s'utilitzen en un sistema d'adquisició de patrons per a substituir els elements de supervisió humana. Totes aquestes estratègies i mètodes s'avaluen en tasques de clustering de documents i adquisició de patrons usant dades reals. Es comprova que els mots com representació de documents superen altres models per a la tasca de clustering, així com que el clustering conjunt supera les limitacions dels clusterings individuals, i que les estratègies no supervisades d'adquisició de patrons obtenen resultats competitius respecte a les estratègies supervisades.

Formato

31 p.

305811 bytes

application/pdf

Identificador

http://hdl.handle.net/2072/16020

Idioma(s)

cat

Relação

Els ajuts de l'AGAUR;2005FI01060

Direitos

Aquest document està subjecte a una llicència d'ús de Creative Commons, amb la qual es permet copiar, distribuir i comunicar públicament l'obra sempre que se'n citin l'autor original i l’Agència i no se'n faci cap ús comercial ni obra derivada, tal com queda estipulat en la llicència d'ús (http://creativecommons.org/licenses/by-nc-nd/2.5/es/)

Palavras-Chave #Clústers #Extracció de dades -- Automatització #Aprenentatge automàtic #62 - Enginyeria. Tecnologia
Tipo

info:eu-repo/semantics/article