2 resultados para preprocesamiento

em Archivo Digital para la Docencia y la Investigación - Repositorio Institucional de la Universidad del País Vasco


Relevância:

10.00% 10.00%

Publicador:

Resumo:

El trabajo realizado en este proyecto se enmarca dentro del área de Procesamiento del Lenguaje Natural aplicado al ámbito de la medicina. Para este fin se han utilizado técnicas de minería de datos y aprendizaje automático. El objetivo principal de este proyecto es el desarrollo de un modelo capaz de automatizar la clasificación de textos clínicos según el estándar ICD-9- CM (codificación estándar utilizada por la red hospitalaria europea). Aunque existe una herramienta web (https://eciemaps.mspsi.es/ecieMaps/ browser/index_9_mc.html), que facilita la clasificación, este trabajo, hoy en día es realizado manualmente. Básicamente se trata de un diccionario online, de los términos del estándar. Basándonos en trabajos previos relacionados, se ha obtenido un baseline a partir del cual se ha construido el proyecto. En primer lugar, como en cualquier trabajo relacionado con los Sistemas de Apoyo a la Decisión (DSS) se ha estructurado el trabajo en dos módulos principales, el preproceso y la clasificación. En el módulo dedicado al preproceso, se tratan los datos para hacerlos comprensibles a los algoritmos de clasificación. En este primer módulo también se realiza una fase de adición de atributos que aporten información útil a la hora de la clasificación y una posterior selección de los mismos, por si alguno fuera redundante o irrelevante. En el segundo módulo dedicado a la clasificación, seleccionamos aquellos algoritmos que consideramos mejores, basándonos para ello, en otros trabajos previos que abordan un problema similar. Una vez seleccionados los algoritmos, se procede a realizar barridos de parámetros que optimicen su rendimiento. Finalmente, se ha realizado la experimentación con distintas técnicas de preprocesamiento de los datos y con los distintos algoritmos de clasificación automática. Esta última de experimentación tiene como objetivo, encontrar la combinación de métodos que optimice el rendimiento de ambos módulos, y por tanto de todo el sistema.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En el presente trabajo de fin de máster se realiza una investigación sobre las técnicas de preproceso del dataset de entrenamiento y la aplicación de un modelo de predicción que realice una clasificación de dı́gitos escritos a mano. El conjunto de dataset de train y test son proporcionado en la competencia de Kaggle: Digit Recognizer y provienen de la base de datos de dı́gitos manuscritos MNIST. Por tratarse de imágenes las técnicas de preproceso se concentran en obtener una imagen lo más nı́tida posible y la reducción de tamaño de la misma, objetivos que se logran con técnicas de umbralización por el método de Otsu, transformada de Wavelet de Haar y el análisis de sus componentes principales. Se utiliza Deep Learning como modelo predictivo por ajustarse a este tipo de datos, se emplean además librerı́as de código abierto implementadas en el lenguaje estádisto R. Por último se obtiene una predicción con las técnicas y herramientas mencio- nadas para ser evaluada en la competencia de Kaggle, midiendo y comparando los resultados obtenidos con el resto de participantes.