6 resultados para minería de datos
em Universidade Complutense de Madrid
Resumo:
El presente estudio comprende una síntesis general de los conocimientos adquiridos en el desarrollo del Máster en Minería de Datos e Inteligencia de Negocios. Se ha intentado pasar por la mayoría de las áreas que en el mismo se tratan, prestando especial atención a la parte de análisis de datos propiamente dicha. La temática se ha centrado en el sector hotelero de la ciudad de Madrid. Se pretende hacer un ejercicio en profundidad de análisis de datos, seguido de un análisis de predicción del precio de los hoteles situados en esta ciudad, tomando como referencias distintas características de estos establecimientos, además de momentos temporales y otros matices. Otro punto a tratar en este estudio está basado en un análisis de la competencia hotelera, que tomará como base los resultados obtenidos en los primeros pasos de este proyecto. Así, se llega a la selección de un modelo óptimo de predicción, obtenido tras un proceso de ensayo-error de distintas técnicas predictivas, seguido de un proceso de elección. Así mismo, se consigue entender cómo se agrupan los distintos hoteles y cómo se sitúan en su mercado, atendiendo al comportamiento de los centros que forman su competencia.
Resumo:
La cantidad de datos biológicos y médicos que se produce hoy en día es enorme, y se podría decir que el campo de las ciencias de la vida forma parte ya del club del Big Data. Estos datos contienen información crucial que pueden ayudar a comprender mejor los mecanismos moleculares en los sistemas biológicos. Este conocimiento es fundamental para el progreso en el diagnóstico y en el tratamiento de las enfermedades. La Bioinformática, junto con la Biología Computacional, son disciplinas que se encargan de organizar, analizar e interpretar los datos procedentes de la Biología Molecular. De hecho, la complejidad y la heterogeneidad de los problemas biológicos requieren de un continuo diseño, implementación y aplicación de nuevos métodos y algoritmos. La minería de datos biológicos es una tarea complicada debido a la naturaleza heterogénea y compleja de dichos datos, siendo éstos muy dependientes de detalles específicos experimentales. Esta tesis se basa en el estudio de un problema biomédico complejo: la menor probabilidad de desarrollar algunos tipos de cáncer en pacientes con ciertos trastornos del sistema nervioso central (SNC) u otros trastornos neurológicos, y viceversa. Denominamos a esta condición como comorbilidad inversa. Desde el punto de vista médico, entender mejor las conexiones e interacciones entre cáncer y trastornos neurológicos podría mejorar la calidad de vida y el efecto de la asistencia médica de millones de personas en todo el mundo. Aunque la comorbilidad inversa ha sido estudiada a nivel médico, a través de estudios epidemiológicos, no se ha investigado en profundidad a nivel molecular...
Resumo:
En el siguiente Trabajo de Fin de Máster se pone en práctica la Minería de Datos (Data Mining), llevando a cabo una investigación de CRM (Customer Relationship Management) en la cual se analizan los comportamientos de compra de los clientes de una empresa que comercializa solo por internet (online). Este negocio es de origen español y mediante estos análisis podremos saber principalmente cuántos tipos de clientes posee y cómo son sus hábitos de compra para poder clasificarlos. Para ello, utilizaremos la segmentación RFM (Recency, Frequency, Monetary) que la calcularemos mediante dos metodologías muy importantes que son el Método Convencional y el Método de las 2-Tuplas. En el primer método realizaremos una clasificación numérica mediante quintiles que se numerarán de 1 a 5 tanto para la Recencia, la Frecuencia y el Valor Monetario, con los que podremos determinar el comportamiento de compra de cada cliente. En el segundo método veremos otra clasificación de los clientes más precisa, más detallada y con la ventaja que ofrece un valor lingüístico para poder entender mejor a que cluster pertenece cada cliente. Finalmente, realizaremos unos análisis de clusters con el método de “K-medias” con diferentes segmentos (entre 5 y 7 segmentos) que nos permitirán distinguir cuántos tipos de clientes tiene este negocio y cómo son con respecto a su hábito de compra. Todo esto con el fin de dar respuesta a este negocio sobre cómo es el comportamiento de compra de cada cliente, cuáles son los más importantes, cuáles son los menos importantes, cuántos han dejado de comprar, etc.
Resumo:
Un sueño escaso o de mala calidad puede tener repercusiones negativas en la vida diaria. Si esta situación se prolonga en el tiempo, puede afectar al estado de ánimo e interferir en el trabajo y la vida social de una persona. Son muchos los factores que determinan la calidad del sueño. No es suficiente con dormir, sino que hay que dormir bien para que el sueño sea realmente reparador y se pueda uno levantar descansado y con energía. Muchos aspectos como la actividad física, las comidas y bebidas, los horarios, pueden alterar la calidad del sueño o generar dificultades para conciliarlo por lo que en los últimos años han salido al mercado varios dispositivos y aplicaciones cuantificadoras que ayudan a monitorizar el sueño. Existen dispositivos que solamente registran el movimiento y la temperatura corporal y aun así generan una gran cantidad de datos. Debido a esto, la información producida puede no ser fácilmente interpretable. En este proyecto usamos un dispositivo de monitorización que ofrece más información (como temperatura y flujo térmico) por lo que queremos mejorar la interpretabilidad de los datos que se generan para ayudar a facilitar el trabajo de los médicos que las utilizan con sus pacientes intentando descubrir trastornos metabólicos. Se aspira a simplificar el trabajo manual que ahora se realiza intentando que sea más automático. Para ello, en este proyecto se utilizan técnicas de minería de datos en series temporales que permiten hacer un análisis exploratorio de los datos y agrupar la información de forma que los resultados se muestren de una forma resumida y concreta y que pueda ser percibida de un vistazo. Utilizando estas técnicas creamos una aplicación que obtiene series temporales de los datos particionadas en distintos tipos de episodios, centrándonos en episodios de sueño y de actividad física, clasificando los episodios de sueño por su similitud y presentando un resumen de la actividad del paciente a lo largo de toda la monitorización.
Resumo:
A pesar de la existencia de una multitud de investigaciones sobre el análisis de sentimiento, existen pocos trabajos que traten el tema de su implantación práctica y real y su integración con la inteligencia de negocio y big data de tal forma que dichos análisis de sentimiento estén incorporados en una arquitectura (que soporte todo el proceso desde la obtención de datos hasta su explotación con las herramientas de BI) aplicada a la gestión de la crisis. Se busca, por medio de este trabajo, investigar cómo se pueden unir los mundos de análisis (de sentimiento y crisis) y de la tecnología (todo lo relacionado con la inteligencia de negocios, minería de datos y Big Data), y crear una solución de Inteligencia de Negocios que comprenda la minería de datos y el análisis de sentimiento (basados en grandes volúmenes de datos), y que ayude a empresas y/o gobiernos con la gestión de crisis. El autor se ha puesto a estudiar formas de trabajar con grandes volúmenes de datos, lo que se conoce actualmente como Big Data Science, o la ciencia de los datos aplicada a grandes volúmenes de datos (Big Data), y unir esta tecnología con el análisis de sentimiento relacionado a una situación real (en este trabajo la situación elegida fue la del proceso de impechment de la presidenta de Brasil, Dilma Rousseff). En esta unión se han utilizado técnicas de inteligencia de negocios para la creación de cuadros de mandos, rutinas de ETC (Extracción, Transformación y Carga) de los datos así como también técnicas de minería de textos y análisis de sentimiento. El trabajo ha sido desarrollado en distintas partes y con distintas fuentes de datos (datasets) debido a las distintas pruebas de tecnología a lo largo del proyecto. Uno de los datasets más importantes del proyecto son los tweets recogidos entre los meses de diciembre de 2015 y enero de 2016. Los mensajes recogidos contenían la palabra "Dilma" en el mensaje. Todos los twittees fueron recogidos con la API de Streaming del Twitter. Es muy importante entender que lo que se publica en la red social Twitter no se puede manipular y representa la opinión de la persona o entidad que publica el mensaje. Por esto se puede decir que hacer el proceso de minería de datos con los datos del Twitter puede ser muy eficiente y verídico. En 3 de diciembre de 2015 se aceptó la petición de apertura del proceso del impechment del presidente de Brasil, Dilma Rousseff. La petición fue aceptada por el presidente de la Cámara de los Diputados, el diputado Sr. Eduardo Cunha (PMDBRJ), y de este modo se creó una expectativa sobre el sentimiento de la población y el futuro de Brasil. También se ha recogido datos de las búsquedas en Google referentes a la palabra Dilma; basado en estos datos, el objetivo es llegar a un análisis global de sentimiento (no solo basado en los twittees recogidos). Utilizando apenas dos fuentes (Twitter y búsquedas de Google) han sido extraídos muchísimos datos, pero hay muchas otras fuentes donde es posible obtener informaciones con respecto de las opiniones de las personas acerca de un tema en particular. Así, una herramienta que pueda recoger, extraer y almacenar tantos datos e ilustrar las informaciones de una manera eficaz que ayude y soporte una toma de decisión, contribuye para la gestión de crisis.