Desarrollo de un sistema interactivo de procesado de una colección de documentos para clasificarlos en base a su temática


Autoria(s): Calero Luis, David
Contribuinte(s)

Antonio Jiménez, Angélica de

Data(s)

01/06/2015

Resumo

A día de hoy, existen millones de artículos en internet que tratan sobre diferentes temas. Los investigadores hacen búsquedas exhaustivas para encontrar aquellos artículos que encuentran más importantes, los cuales se van descargando en su ordenador llegando a tal extremo que la cantidad de documentos que pueden llegar a tener se vuelve casi inmanejable. El proyecto Calimaco, el cual se está llevando a cabo en el Laboratorio Decoroso Crespo, busca dar soporte a la tarea de búsqueda de información en el ámbito de la investigación, donde la cantidad de información existente es abrumadora. El objetivo es generar una visualización tridimensional de una serie de documentos (corpus), de manera que el usuario pueda explorarlo fácilmente. Además se pretende que dicho proceso se adapte a las necesidades y características particulares del usuario. Esto puede resultar muy útil cuando, por ejemplo, un investigador desea buscar información acerca de un determinado tema dentro de todos sus documentos, ya que el sistema los clasificará en base a dichos temas, permitiéndole acceder a la información relevante de manera rápida y sencilla. La división de este proyecto se compone de dos partes: la primera se corresponde al preprocesamiento de los documentos, mientras que la segunda se encarga de la visualización de los resultados, además de la interactuación del usuario. El trabajo realizado expuesto en esta memoria se sitúa dentro de la parte de preprocesamiento del proyecto Calimaco. La aportación a este proyecto ha consistido en la realización de pruebas y análisis de los resultados, diseño e implementación de una base de datos, e integración de ambas partes, creando una primera versión del sistema. Para comprobar el funcionamiento de esta primera versión se diseñó un plan de pruebas del sistema para medir el tiempo y la precisión.---ABSTRACT---Nowadays, there are millions of articles on the Internet that deal with different topics. Researchers do exhaustive searches to find those articles that are more important for them and download them to their computer, sometimes, reaching a point where the amount of downloaded documents is unmanageable. Calimaco project, which is being carried out at Laboratorio Decoroso Crespo, aims to provide a solution in the task of searching information in terms of investigation, where the amount of information is overwhelming. The goal is to create a tridimensional vision of a set of documents (corpus), so that the user can explore it easily. In addition, this process is intended to adapt to the personal needs and characteristics of the user. This can turn out to be useful when, for example, a researcher wants to seek information about a specific subject inside all his documents, because the system will classify them by subjects, allowing to access relevant information in a fast and easy way. This project is formed by two big sections: the first one corresponds to the pre-process of documents, while the second one is in charge of result visualization as well as the interaction with the user. This memory contains the explanation of the job done in the first part of the Calimaco project, which belongs to the pre-process of documents. The contributions done to the project are: development of tests and analysis of results, a design and implementation of a database, and an integration of both parts (pre-process of documents and result visualization) creating a first version of the system. To test the functioning of this first version, the author created a system test plan in order to gather information about execution time and accuracy.

Formato

application/pdf

Identificador

http://oa.upm.es/38323/

Idioma(s)

spa

Publicador

E.T.S. de Ingenieros Informáticos (UPM)

Relação

http://oa.upm.es/38323/7/PFG_DAVID_CALERO_LUIS_2.pdf

Direitos

http://creativecommons.org/licenses/by-nc-nd/3.0/es/

info:eu-repo/semantics/openAccess

Palavras-Chave #Informática
Tipo

info:eu-repo/semantics/bachelorThesis

Proyecto Fin de Carrera/Grado

NonPeerReviewed