964 resultados para Minería de datos


Relevância:

60.00% 60.00%

Publicador:

Resumo:

La cantidad de datos biológicos y médicos que se produce hoy en día es enorme, y se podría decir que el campo de las ciencias de la vida forma parte ya del club del Big Data. Estos datos contienen información crucial que pueden ayudar a comprender mejor los mecanismos moleculares en los sistemas biológicos. Este conocimiento es fundamental para el progreso en el diagnóstico y en el tratamiento de las enfermedades. La Bioinformática, junto con la Biología Computacional, son disciplinas que se encargan de organizar, analizar e interpretar los datos procedentes de la Biología Molecular. De hecho, la complejidad y la heterogeneidad de los problemas biológicos requieren de un continuo diseño, implementación y aplicación de nuevos métodos y algoritmos. La minería de datos biológicos es una tarea complicada debido a la naturaleza heterogénea y compleja de dichos datos, siendo éstos muy dependientes de detalles específicos experimentales. Esta tesis se basa en el estudio de un problema biomédico complejo: la menor probabilidad de desarrollar algunos tipos de cáncer en pacientes con ciertos trastornos del sistema nervioso central (SNC) u otros trastornos neurológicos, y viceversa. Denominamos a esta condición como comorbilidad inversa. Desde el punto de vista médico, entender mejor las conexiones e interacciones entre cáncer y trastornos neurológicos podría mejorar la calidad de vida y el efecto de la asistencia médica de millones de personas en todo el mundo. Aunque la comorbilidad inversa ha sido estudiada a nivel médico, a través de estudios epidemiológicos, no se ha investigado en profundidad a nivel molecular...

Relevância:

60.00% 60.00%

Publicador:

Resumo:

En el siguiente Trabajo de Fin de Máster se pone en práctica la Minería de Datos (Data Mining), llevando a cabo una investigación de CRM (Customer Relationship Management) en la cual se analizan los comportamientos de compra de los clientes de una empresa que comercializa solo por internet (online). Este negocio es de origen español y mediante estos análisis podremos saber principalmente cuántos tipos de clientes posee y cómo son sus hábitos de compra para poder clasificarlos. Para ello, utilizaremos la segmentación RFM (Recency, Frequency, Monetary) que la calcularemos mediante dos metodologías muy importantes que son el Método Convencional y el Método de las 2-Tuplas. En el primer método realizaremos una clasificación numérica mediante quintiles que se numerarán de 1 a 5 tanto para la Recencia, la Frecuencia y el Valor Monetario, con los que podremos determinar el comportamiento de compra de cada cliente. En el segundo método veremos otra clasificación de los clientes más precisa, más detallada y con la ventaja que ofrece un valor lingüístico para poder entender mejor a que cluster pertenece cada cliente. Finalmente, realizaremos unos análisis de clusters con el método de “K-medias” con diferentes segmentos (entre 5 y 7 segmentos) que nos permitirán distinguir cuántos tipos de clientes tiene este negocio y cómo son con respecto a su hábito de compra. Todo esto con el fin de dar respuesta a este negocio sobre cómo es el comportamiento de compra de cada cliente, cuáles son los más importantes, cuáles son los menos importantes, cuántos han dejado de comprar, etc.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Actualmente existe una gran cantidad de empresas ofreciendo servicios para el análisis de contenido y minería de datos de las redes sociales con el objetivo de realizar análisis de opiniones y gestión de la reputación. Un alto porcentaje de pequeñas y medianas empresas (pymes) ofrecen soluciones específicas a un sector o dominio industrial. Sin embargo, la adquisición de la necesaria tecnología básica para ofrecer tales servicios es demasiado compleja y constituye un sobrecoste demasiado alto para sus limitados recursos. El objetivo del proyecto europeo OpeNER es la reutilización y desarrollo de componentes y recursos para el procesamiento lingüístico que proporcione la tecnología necesaria para su uso industrial y/o académico.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

El campo de procesamiento de lenguaje natural (PLN), ha tenido un gran crecimiento en los últimos años; sus áreas de investigación incluyen: recuperación y extracción de información, minería de datos, traducción automática, sistemas de búsquedas de respuestas, generación de resúmenes automáticos, análisis de sentimientos, entre otras. En este artículo se presentan conceptos y algunas herramientas con el fin de contribuir al entendimiento del procesamiento de texto con técnicas de PLN, con el propósito de extraer información relevante que pueda ser usada en un gran rango de aplicaciones. Se pueden desarrollar clasificadores automáticos que permitan categorizar documentos y recomendar etiquetas; estos clasificadores deben ser independientes de la plataforma, fácilmente personalizables para poder ser integrados en diferentes proyectos y que sean capaces de aprender a partir de ejemplos. En el presente artículo se introducen estos algoritmos de clasificación, se analizan algunas herramientas de código abierto disponibles actualmente para llevar a cabo estas tareas y se comparan diversas implementaciones utilizando la métrica F en la evaluación de los clasificadores.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Este artículo presenta la aplicación y resultados obtenidos de la investigación en técnicas de procesamiento de lenguaje natural y tecnología semántica en Brand Rain y Anpro21. Se exponen todos los proyectos relacionados con las temáticas antes mencionadas y se presenta la aplicación y ventajas de la transferencia de la investigación y nuevas tecnologías desarrolladas a la herramienta de monitorización y cálculo de reputación Brand Rain.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Este trabajo analiza las nuevas tendencias en la creación y gestión de información geográfica, para la elaboración de modelos inductivos basados exclusivamente en bases de datos geográficas. Estos modelos permiten integrar grandes volúmenes de datos de características heterogéneas, lo que supone una gran complejidad técnica y metodológica. Se propone una metodología que permite conocer detalladamente la distribución de los recursos hídricos naturales en un territorio y derivar numerosas capas de información que puedan ser incorporadas a estos modelos «ávidos de datos» (data-hungry). La zona de estudio escogida para aplicar esta metodología es la comarca de la Marina Baja (Alicante), para la que se presenta un cálculo del balance hídrico espacial mediante el uso de herramientas estadísticas, geoestadísticas y Sistemas de Información Geográfica. Finalmente, todas las capas de información generadas (84) han sido validadas y se ha comprobado que su creación admite un cierto grado de automatización que permitirá incorporarlas en análisis de Minería de Datos más amplios.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

En la actualidad, existen un gran número de investigaciones que usan técnicas de aprendizaje automático basadas en árboles de decisión. Como evolución de dichos trabajos, se han desarrollado métodos que usan Multiclasificadores (Random forest, Boosting, Bagging) que resuelven los mismos problemas abordados con árboles de decisión simples, aumentando el porcentaje de acierto. El ámbito de los problemas resueltos tradicionalmente por dichas técnicas es muy variado aunque destaca la bio-informática. En cualquier caso, la clasificación siempre puede ser consultada a un experto considerándose su respuesta como correcta. Existen problemas donde un experto en la materia no siempre acierta. Un ejemplo, pueden ser las quinielas (1X2). Donde podemos observar que un conocimiento del dominio del problema aumenta el porcentaje de aciertos, sin embargo, predecir un resultado erróneo es muy posible. El motivo es que el número de factores que influyen en un resultado es tan grande que, en muchas ocasiones, convierten la predicción en un acto de azar. En este trabajo pretendemos encontrar un multiclasificador basado en los clasificadores simples más estudiados como pueden ser el Perceptrón Multicapa o Árboles de Decisión con el porcentaje de aciertos más alto posible. Con tal fin, se van a estudiar e implementar una serie de configuraciones de clasificadores propios junto a multiclasificadores desarrollados por terceros. Otra línea de estudio son los propios datos, es decir, el conjunto de entrenamiento. Mediante un estudio del dominio del problema añadiremos nuevos atributos que enriquecen la información que disponemos de cada resultado intentando imitar el conocimiento en el que se basa un experto. Los desarrollos descritos se han realizado en R. Además, se ha realizado una aplicación que permite entrenar un multiclasificador (bien de los propios o bien de los desarrollados por terceros) y como resultado obtenemos la matriz de confusión junto al porcentaje de aciertos. En cuanto a resultados, obtenemos porcentajes de aciertos entre el 50% y el 55%. Por encima del azar y próximos a los resultados de los expertos.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Un sueño escaso o de mala calidad puede tener repercusiones negativas en la vida diaria. Si esta situación se prolonga en el tiempo, puede afectar al estado de ánimo e interferir en el trabajo y la vida social de una persona. Son muchos los factores que determinan la calidad del sueño. No es suficiente con dormir, sino que hay que dormir bien para que el sueño sea realmente reparador y se pueda uno levantar descansado y con energía. Muchos aspectos como la actividad física, las comidas y bebidas, los horarios, pueden alterar la calidad del sueño o generar dificultades para conciliarlo por lo que en los últimos años han salido al mercado varios dispositivos y aplicaciones cuantificadoras que ayudan a monitorizar el sueño. Existen dispositivos que solamente registran el movimiento y la temperatura corporal y aun así generan una gran cantidad de datos. Debido a esto, la información producida puede no ser fácilmente interpretable. En este proyecto usamos un dispositivo de monitorización que ofrece más información (como temperatura y flujo térmico) por lo que queremos mejorar la interpretabilidad de los datos que se generan para ayudar a facilitar el trabajo de los médicos que las utilizan con sus pacientes intentando descubrir trastornos metabólicos. Se aspira a simplificar el trabajo manual que ahora se realiza intentando que sea más automático. Para ello, en este proyecto se utilizan técnicas de minería de datos en series temporales que permiten hacer un análisis exploratorio de los datos y agrupar la información de forma que los resultados se muestren de una forma resumida y concreta y que pueda ser percibida de un vistazo. Utilizando estas técnicas creamos una aplicación que obtiene series temporales de los datos particionadas en distintos tipos de episodios, centrándonos en episodios de sueño y de actividad física, clasificando los episodios de sueño por su similitud y presentando un resumen de la actividad del paciente a lo largo de toda la monitorización.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

The Exhibitium Project , awarded by the BBVA Foundation, is a data-driven project developed by an international consortium of research groups . One of its main objectives is to build a prototype that will serve as a base to produce a platform for the recording and exploitation of data about art-exhibitions available on the Internet . Therefore, our proposal aims to expose the methods, procedures and decision-making processes that have governed the technological implementation of this prototype, especially with regard to the reuse of WordPress (WP) as development framework.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Our proposal aims to display the analysis techniques, methodologies as well as the most relevant results expected within the Exhibitium project framework (http://www.exhibitium.com). Awarded by the BBVA Foundation, the Exhibitium project is being developed by an international consortium of several research groups . Its main purpose is to build a comprehensive and structured data repository about temporary art exhibitions, captured from the web, to make them useful and reusable in various domains through open and interoperable data systems.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

R.TeMiS (R Text MIning Solution) (Bouchet-Valat & Bastin, 2013) es un paquete de R (RcmdrPlugin.temis) (Bouchet-Valat, 2016), concebido como plugin de R Commander, que permite analizar, manipular y crear corpus de textos (Garnier, 2014). La arquitectura estadística de RTemis corre a cargo del paquete tm desarrollado por Ingo Feinerer (Feinerer, 2008 ; 2011 ; Feinerer, Hornik y Meyer, 2008). R.TeMiS se ha completado con otros paquetes clásicos de R, como el paquete para la representación de los análisis factoriales de correspondencias de Nenadic y Greenacre (2007). También se han desarrollado paquetes específicos para facilitar el uso de R.TeMiS en los estudios de prensa, por ejemplo para la gestión de los corpus de artículos de prensa de la base de datos Factiva. R.TeMiS se presenta como un plugin de R Commander, desarrollado por Fox (2005), lo cual facilita su utilización para los no usuarios de R.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

A pesar de la existencia de una multitud de investigaciones sobre el análisis de sentimiento, existen pocos trabajos que traten el tema de su implantación práctica y real y su integración con la inteligencia de negocio y big data de tal forma que dichos análisis de sentimiento estén incorporados en una arquitectura (que soporte todo el proceso desde la obtención de datos hasta su explotación con las herramientas de BI) aplicada a la gestión de la crisis. Se busca, por medio de este trabajo, investigar cómo se pueden unir los mundos de análisis (de sentimiento y crisis) y de la tecnología (todo lo relacionado con la inteligencia de negocios, minería de datos y Big Data), y crear una solución de Inteligencia de Negocios que comprenda la minería de datos y el análisis de sentimiento (basados en grandes volúmenes de datos), y que ayude a empresas y/o gobiernos con la gestión de crisis. El autor se ha puesto a estudiar formas de trabajar con grandes volúmenes de datos, lo que se conoce actualmente como Big Data Science, o la ciencia de los datos aplicada a grandes volúmenes de datos (Big Data), y unir esta tecnología con el análisis de sentimiento relacionado a una situación real (en este trabajo la situación elegida fue la del proceso de impechment de la presidenta de Brasil, Dilma Rousseff). En esta unión se han utilizado técnicas de inteligencia de negocios para la creación de cuadros de mandos, rutinas de ETC (Extracción, Transformación y Carga) de los datos así como también técnicas de minería de textos y análisis de sentimiento. El trabajo ha sido desarrollado en distintas partes y con distintas fuentes de datos (datasets) debido a las distintas pruebas de tecnología a lo largo del proyecto. Uno de los datasets más importantes del proyecto son los tweets recogidos entre los meses de diciembre de 2015 y enero de 2016. Los mensajes recogidos contenían la palabra "Dilma" en el mensaje. Todos los twittees fueron recogidos con la API de Streaming del Twitter. Es muy importante entender que lo que se publica en la red social Twitter no se puede manipular y representa la opinión de la persona o entidad que publica el mensaje. Por esto se puede decir que hacer el proceso de minería de datos con los datos del Twitter puede ser muy eficiente y verídico. En 3 de diciembre de 2015 se aceptó la petición de apertura del proceso del impechment del presidente de Brasil, Dilma Rousseff. La petición fue aceptada por el presidente de la Cámara de los Diputados, el diputado Sr. Eduardo Cunha (PMDBRJ), y de este modo se creó una expectativa sobre el sentimiento de la población y el futuro de Brasil. También se ha recogido datos de las búsquedas en Google referentes a la palabra Dilma; basado en estos datos, el objetivo es llegar a un análisis global de sentimiento (no solo basado en los twittees recogidos). Utilizando apenas dos fuentes (Twitter y búsquedas de Google) han sido extraídos muchísimos datos, pero hay muchas otras fuentes donde es posible obtener informaciones con respecto de las opiniones de las personas acerca de un tema en particular. Así, una herramienta que pueda recoger, extraer y almacenar tantos datos e ilustrar las informaciones de una manera eficaz que ayude y soporte una toma de decisión, contribuye para la gestión de crisis.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Conocer las necesidades de Formación Profesional del sector de la minería del carbón en el Principado de Asturias y su aplicación en los siguientes aspectos de formación: perfeccionamiento y/o promoción, adaptación a nuevas técnicas, reconversión o actualización profesional, iniciación profesional. Todas las empresas del sector con 25 o más trabajadores. En total 33 cuestionarios, 17 a empresas de hulla y 16 a empresas de antracita, recibiéndose contestados 8 y 6 respectivamente. Una parte del equipo investigador recogió datos económicos, laborales, educativos y de seguridad con relación al sector minero, mientras el resto del equipo hacia el análisis de las ocupaciones, centrándose en las tareas fundamentales y sus contenidos profesionales (análisis que fue contrastado con expertos de diversas empresas). Simultáneamente, se enviaron los cuestionarios para obtener información acerca de la estructura de las empresas, formación de los trabajadores, empleo de nuevas técnicas, inversiones y previsiones de futuro, los cuales fueron analizados. Se recogieron datos sobre: número de trabajadores, previsiones de producción, incorporación de nuevas técnicas, inversiones, formación actual de los trabajadores, formación específica en minería, necesidades de formación, lugar de impartición y seguridad. Cuestionario ad hoc para determinar las necesidades de formación. La profesión minera engloba un amplio número de ocupaciones, que se caracterizan por no estar profesionalizadas, por ello, existe un vacío de formación muy importante. Los cursos que se imparten en las empresas pueden ser de tres tipos: de formación general, de adaptación al puesto, y de actualización. La mayor parte de la formación es impartida por las empresas de más de 500 trabajadores, principalmente Hunosa. Las mayores necesidades de formación se detectaron en la formación y especialización de los ayudantes mineros y en la actualización de los trabajadores en activo, producidas por la introducción de nuevas técnicas y maquinaria. Se ha detectado la necesidad de profesionalizar las ocupaciones mineras, lo cual se lograría definiendo éstas y determinando los contenidos teóricos y prácticos necesarios para cada una de ellas y estableciendo itinerarios profesionales integrados dentro de los sistemas formativos que permitieran relacionar las diferentes ocupaciones. Para un futuro próximo se prevé en este sector una reducción de plantillas y un aumento de la producción y facturación, como consecuencia de la introducción de innovaciones tecnológicas.