944 resultados para Minería de datos (Informática)
Resumo:
Resumen tomado de la publicación
Resumo:
Máster Universitario en Sistemas Inteligentes y Aplicaciones Numéricas en Ingeniería (SIANI)
Resumo:
Este proyecto es continuación de proyectos de crítica genética que se llevaron a cabo, o están en marcha en la Secretaría de Investigación de la Facultad de Humanidades de la UNaM, que tienen como objeto manuscritos de la literatura provincial. La labor de este proyecto implica una red de acuerdos teóricos, críticos y metodológicos iniciales, un rastreo e identificación de documentos en la región y la tramitación de préstamos ante poseedores actuales de los manuscritos a la que se suma lo interdisciplinario con el diálogo entre la crítica genética y la ciencia de la computación. A la luz de este diálogo el proyecto se propone en esta primera etapa promover tres acciones: a) desarrollar un sitio virtual-institucional que facilite el acceso en línea a archivos de escritores regionales que se vienen estudiando en la UNaM. b) hacer un relevamiento de los archivos de manuscritos que en la actualidad se encuentran diseminados, invisibles a las investigaciones para, en ese gesto, recuperarlos e incentivar su estudio. c) diseñar y construir una base de datos y un repositorio digital de manuscritos, utilizando para esta tarea software Open Source. d) sentar las bases para un estudio sobre la factibilidad de implementar un proceso de Text Mining que automatice la recuperación de información relevante, categorice los documentos y los agrupe de acuerdo a características comunes. e) Afianzar lazos institucionales con otros proyectos existentes en Argentina (UNLP), Francia (CRLA-Archivos), Bélgica (UCLovaina), España ( Universidad de Castilla La Mancha) y con UNNE y la UNLa con quien ya tenemos un convenio de colaboración en Minería de datos.
Resumo:
Este proyecto es continuación de proyectos de crítica genética que se llevaron a cabo, o están en marcha en la Secretaría de Investigación de la Facultad de Humanidades de la UNaM, que tienen como objeto manuscritos de la literatura provincial. La labor de este proyecto implica una red de acuerdos teóricos, críticos y metodológicos iniciales, un rastreo e identificación de documentos en la región y la tramitación de préstamos ante poseedores actuales de los manuscritos a la que se suma lo interdisciplinario con el diálogo entre la crítica genética y la ciencia de la computación. El proyecto se propone en esta primera etapa promover tres acciones: a) desarrollar un sitio virtual -institucional que facilite el acceso en línea a archivos de escritores regionales que se vienen estudiando en la UNaM. b) hacer un relevamiento de los archivos de manuscritos que en la actualidad se encuentran diseminados, invisibles a las investigaciones para, en ese gesto, recuperarlos e incentivar su estudio. c) diseñar y construir una base de datos y un repositorio digital de manuscritos, utilizando para esta tarea software Open Source. d) sentar las bases para un estudio sobre la factibilidad de implementar un proceso de Text Mining que automatice la recuperación de información relevante, categorice los documentos y los agrupe de acuerdo a características comunes. e) Afianzar lazos institucionales con otros proyectos existentes en Argentina (UNLP) y con UNNE y la UNLa con quien ya tenemos un convenio de colaboración en Minería de datos, con Francia (CRLA-Archivos), Bélgica (UCLovaina), España (Universidad de Castilla La Mancha).
Resumo:
La relación entre recursos intangibles y sistemas de innova- ción es un tema de discusión actual, dada su importancia en la generación de conocimientos que contribuyen al desarrollo de las naciones. La finalidad de este estudio, que se puede caracterizar como una investigación de tipo exploratoria y descriptiva, fue jerarquizar los recursos intangibles presentes en las instituciones de educación superior (IES) basándose en la teoría de los recursos y capacidades, y en investigaciones sobre innovación con base en los recursos. Para el logro del objetivo propuesto, se partió de la revisión de los últimos avances de la temática estudiada, analizando y contrastando los distintos enfoques teóricos y aplicando minería de datos. La presentación de resultados se realiza según un razonamiento que implica el contraste de los hallazgos empíricos con los referentes teóricos. Los resultados obtenidos muestran que las variables presentan el siguiente orden de jerarquía: primero, la reputación institucional; segundo, la formación y desarrollo del recurso humano; y por último, la capacidad de innovación.
Resumo:
Uno de los principales objetivos de los sistemas informáticos es ser capaces de detectar y controlar aquellos accesos no autorizados, o incluso prevenirlos antes de que se produzca una pérdida de valor en el sistema. Se busca encontrar un modelo general que englobe todos los posibles casos de entradas no deseadas al sistema y que sea capaz de aprender para detectar intrusiones futuras. En primer lugar se estudiará la relevancia de las técnicas utilizadas para el almacenamiento de la información. Big Data ilustra los elementos esenciales necesarios para el almacenamiento de los datos con un formato único identificable y unos atributos característicos que los definan, para su posterior análisis. El método de almacenamiento elegido influirá en las técnicas de análisis y captura de valor utilizadas, dado que existe una dependencia directa entre el formato en el que se almacena la información y el valor específico que se pretende obtener de ella. En segundo lugar se examinarán las distintas técnicas de análisis y captura de datos actuales, y los diferentes resultados que se pueden obtener. En este punto aparece el concepto de machine learning y su posible aplicación para detección de anomalías. La finalidad es lograr generalizar diferentes comportamientos a partir de una información no estructurada y generar un modelo aplicable a nuevas entradas al sistema que no son conocidas con anterioridad. En último lugar, se analizarán diferentes entornos de ciberseguridad y se propondrá un conjunto de recomendaciones de diseño o ajustes respecto a las técnicas mencionadas anteriormente, realizando una breve clasificación según las variables de entrada que se tienen y el resultado que se desea obtener. El propósito de este Trabajo de Fin de Grado es, por tanto, la comparación general de las diferentes técnicas actuales de detección de comportamientos anómalos en un sistema informático, tales como el aprendizaje de máquinas o minería de datos, así como de un planteamiento de cuáles son las mejores opciones según el tipo de valor que se desea extraer de la información almacenada.
Resumo:
Esta tesis presenta el diseño y la aplicación de una metodología que permite la determinación de los parámetros para la planificación de nodos e infraestructuras logísticas en un territorio, considerando además el impacto de estas en los diferentes componentes territoriales, así como en el desarrollo poblacional, el desarrollo económico y el medio ambiente, presentando así un avance en la planificación integral del territorio. La Metodología propuesta está basada en Minería de Datos, que permite el descubrimiento de patrones detrás de grandes volúmenes de datos previamente procesados. Las características propias de los datos sobre el territorio y los componentes que lo conforman hacen de los estudios territoriales un campo ideal para la aplicación de algunas de las técnicas de Minería de Datos, tales como los ´arboles decisión y las redes bayesianas. Los árboles de decisión permiten representar y categorizar de forma esquemática una serie de variables de predicción que ayudan al análisis de una variable objetivo. Las redes bayesianas representan en un grafo acíclico dirigido, un modelo probabilístico de variables distribuidas en padres e hijos, y la inferencia estadística que permite determinar la probabilidad de certeza de una hipótesis planteada, es decir, permiten construir modelos de probabilidad conjunta que presentan de manera gráfica las dependencias relevantes en un conjunto de datos. Al igual que con los árboles de decisión, la división del territorio en diferentes unidades administrativas hace de las redes bayesianas una herramienta potencial para definir las características físicas de alguna tipología especifica de infraestructura logística tomando en consideración las características territoriales, poblacionales y económicas del área donde se plantea su desarrollo y las posibles sinergias que se puedan presentar sobre otros nodos e infraestructuras logísticas. El caso de estudio seleccionado para la aplicación de la metodología ha sido la República de Panamá, considerando que este país presenta algunas características singulares, entra las que destacan su alta concentración de población en la Ciudad de Panamá; que a su vez a concentrado la actividad económica del país; su alto porcentaje de zonas protegidas, lo que ha limitado la vertebración del territorio; y el Canal de Panamá y los puertos de contenedores adyacentes al mismo. La metodología se divide en tres fases principales: Fase 1: Determinación del escenario de trabajo 1. Revisión del estado del arte. 2. Determinación y obtención de las variables de estudio. Fase 2: Desarrollo del modelo de inteligencia artificial 3. Construcción de los ´arboles de decisión. 4. Construcción de las redes bayesianas. Fase 3: Conclusiones 5. Determinación de las conclusiones. Con relación al modelo de planificación aplicado al caso de estudio, una vez aplicada la metodología, se estableció un modelo compuesto por 47 variables que definen la planificación logística de Panamá, el resto de variables se definen a partir de estas, es decir, conocidas estas, el resto se definen a través de ellas. Este modelo de planificación establecido a través de la red bayesiana considera los aspectos de una planificación sostenible: económica, social y ambiental; que crean sinergia con la planificación de nodos e infraestructuras logísticas. The thesis presents the design and application of a methodology that allows the determination of parameters for the planning of nodes and logistics infrastructure in a territory, besides considering the impact of these different territorial components, as well as the population growth, economic and environmental development. The proposed methodology is based on Data Mining, which allows the discovery of patterns behind large volumes of previously processed data. The own characteristics of the territorial data makes of territorial studies an ideal field of knowledge for the implementation of some of the Data Mining techniques, such as Decision Trees and Bayesian Networks. Decision trees categorize schematically a series of predictor variables of an analyzed objective variable. Bayesian Networks represent a directed acyclic graph, a probabilistic model of variables divided in fathers and sons, and statistical inference that allow determine the probability of certainty in a hypothesis. The case of study for the application of the methodology is the Republic of Panama. This country has some unique features: a high population density in the Panama City, a concentration of economic activity, a high percentage of protected areas, and the Panama Canal. The methodology is divided into three main phases: Phase 1: definition of the work stage. 1. Review of the State of the art. 2. Determination of the variables. Phase 2: Development of artificial intelligence model 3. Construction of decision trees. 4. Construction of Bayesian Networks. Phase 3: conclusions 5. Determination of the conclusions. The application of the methodology to the case study established a model composed of 47 variables that define the logistics planning for Panama. This model of planning established through the Bayesian network considers aspects of sustainable planning and simulates the synergies between the nodes and logistical infrastructure planning.
Resumo:
La cantidad de datos biológicos y médicos que se produce hoy en día es enorme, y se podría decir que el campo de las ciencias de la vida forma parte ya del club del Big Data. Estos datos contienen información crucial que pueden ayudar a comprender mejor los mecanismos moleculares en los sistemas biológicos. Este conocimiento es fundamental para el progreso en el diagnóstico y en el tratamiento de las enfermedades. La Bioinformática, junto con la Biología Computacional, son disciplinas que se encargan de organizar, analizar e interpretar los datos procedentes de la Biología Molecular. De hecho, la complejidad y la heterogeneidad de los problemas biológicos requieren de un continuo diseño, implementación y aplicación de nuevos métodos y algoritmos. La minería de datos biológicos es una tarea complicada debido a la naturaleza heterogénea y compleja de dichos datos, siendo éstos muy dependientes de detalles específicos experimentales. Esta tesis se basa en el estudio de un problema biomédico complejo: la menor probabilidad de desarrollar algunos tipos de cáncer en pacientes con ciertos trastornos del sistema nervioso central (SNC) u otros trastornos neurológicos, y viceversa. Denominamos a esta condición como comorbilidad inversa. Desde el punto de vista médico, entender mejor las conexiones e interacciones entre cáncer y trastornos neurológicos podría mejorar la calidad de vida y el efecto de la asistencia médica de millones de personas en todo el mundo. Aunque la comorbilidad inversa ha sido estudiada a nivel médico, a través de estudios epidemiológicos, no se ha investigado en profundidad a nivel molecular...
Resumo:
En el siguiente Trabajo de Fin de Máster se pone en práctica la Minería de Datos (Data Mining), llevando a cabo una investigación de CRM (Customer Relationship Management) en la cual se analizan los comportamientos de compra de los clientes de una empresa que comercializa solo por internet (online). Este negocio es de origen español y mediante estos análisis podremos saber principalmente cuántos tipos de clientes posee y cómo son sus hábitos de compra para poder clasificarlos. Para ello, utilizaremos la segmentación RFM (Recency, Frequency, Monetary) que la calcularemos mediante dos metodologías muy importantes que son el Método Convencional y el Método de las 2-Tuplas. En el primer método realizaremos una clasificación numérica mediante quintiles que se numerarán de 1 a 5 tanto para la Recencia, la Frecuencia y el Valor Monetario, con los que podremos determinar el comportamiento de compra de cada cliente. En el segundo método veremos otra clasificación de los clientes más precisa, más detallada y con la ventaja que ofrece un valor lingüístico para poder entender mejor a que cluster pertenece cada cliente. Finalmente, realizaremos unos análisis de clusters con el método de “K-medias” con diferentes segmentos (entre 5 y 7 segmentos) que nos permitirán distinguir cuántos tipos de clientes tiene este negocio y cómo son con respecto a su hábito de compra. Todo esto con el fin de dar respuesta a este negocio sobre cómo es el comportamiento de compra de cada cliente, cuáles son los más importantes, cuáles son los menos importantes, cuántos han dejado de comprar, etc.
Resumo:
Actualmente existe una gran cantidad de empresas ofreciendo servicios para el análisis de contenido y minería de datos de las redes sociales con el objetivo de realizar análisis de opiniones y gestión de la reputación. Un alto porcentaje de pequeñas y medianas empresas (pymes) ofrecen soluciones específicas a un sector o dominio industrial. Sin embargo, la adquisición de la necesaria tecnología básica para ofrecer tales servicios es demasiado compleja y constituye un sobrecoste demasiado alto para sus limitados recursos. El objetivo del proyecto europeo OpeNER es la reutilización y desarrollo de componentes y recursos para el procesamiento lingüístico que proporcione la tecnología necesaria para su uso industrial y/o académico.
Resumo:
El campo de procesamiento de lenguaje natural (PLN), ha tenido un gran crecimiento en los últimos años; sus áreas de investigación incluyen: recuperación y extracción de información, minería de datos, traducción automática, sistemas de búsquedas de respuestas, generación de resúmenes automáticos, análisis de sentimientos, entre otras. En este artículo se presentan conceptos y algunas herramientas con el fin de contribuir al entendimiento del procesamiento de texto con técnicas de PLN, con el propósito de extraer información relevante que pueda ser usada en un gran rango de aplicaciones. Se pueden desarrollar clasificadores automáticos que permitan categorizar documentos y recomendar etiquetas; estos clasificadores deben ser independientes de la plataforma, fácilmente personalizables para poder ser integrados en diferentes proyectos y que sean capaces de aprender a partir de ejemplos. En el presente artículo se introducen estos algoritmos de clasificación, se analizan algunas herramientas de código abierto disponibles actualmente para llevar a cabo estas tareas y se comparan diversas implementaciones utilizando la métrica F en la evaluación de los clasificadores.
Resumo:
Este artículo presenta la aplicación y resultados obtenidos de la investigación en técnicas de procesamiento de lenguaje natural y tecnología semántica en Brand Rain y Anpro21. Se exponen todos los proyectos relacionados con las temáticas antes mencionadas y se presenta la aplicación y ventajas de la transferencia de la investigación y nuevas tecnologías desarrolladas a la herramienta de monitorización y cálculo de reputación Brand Rain.
Resumo:
Este trabajo analiza las nuevas tendencias en la creación y gestión de información geográfica, para la elaboración de modelos inductivos basados exclusivamente en bases de datos geográficas. Estos modelos permiten integrar grandes volúmenes de datos de características heterogéneas, lo que supone una gran complejidad técnica y metodológica. Se propone una metodología que permite conocer detalladamente la distribución de los recursos hídricos naturales en un territorio y derivar numerosas capas de información que puedan ser incorporadas a estos modelos «ávidos de datos» (data-hungry). La zona de estudio escogida para aplicar esta metodología es la comarca de la Marina Baja (Alicante), para la que se presenta un cálculo del balance hídrico espacial mediante el uso de herramientas estadísticas, geoestadísticas y Sistemas de Información Geográfica. Finalmente, todas las capas de información generadas (84) han sido validadas y se ha comprobado que su creación admite un cierto grado de automatización que permitirá incorporarlas en análisis de Minería de Datos más amplios.
Resumo:
Un sueño escaso o de mala calidad puede tener repercusiones negativas en la vida diaria. Si esta situación se prolonga en el tiempo, puede afectar al estado de ánimo e interferir en el trabajo y la vida social de una persona. Son muchos los factores que determinan la calidad del sueño. No es suficiente con dormir, sino que hay que dormir bien para que el sueño sea realmente reparador y se pueda uno levantar descansado y con energía. Muchos aspectos como la actividad física, las comidas y bebidas, los horarios, pueden alterar la calidad del sueño o generar dificultades para conciliarlo por lo que en los últimos años han salido al mercado varios dispositivos y aplicaciones cuantificadoras que ayudan a monitorizar el sueño. Existen dispositivos que solamente registran el movimiento y la temperatura corporal y aun así generan una gran cantidad de datos. Debido a esto, la información producida puede no ser fácilmente interpretable. En este proyecto usamos un dispositivo de monitorización que ofrece más información (como temperatura y flujo térmico) por lo que queremos mejorar la interpretabilidad de los datos que se generan para ayudar a facilitar el trabajo de los médicos que las utilizan con sus pacientes intentando descubrir trastornos metabólicos. Se aspira a simplificar el trabajo manual que ahora se realiza intentando que sea más automático. Para ello, en este proyecto se utilizan técnicas de minería de datos en series temporales que permiten hacer un análisis exploratorio de los datos y agrupar la información de forma que los resultados se muestren de una forma resumida y concreta y que pueda ser percibida de un vistazo. Utilizando estas técnicas creamos una aplicación que obtiene series temporales de los datos particionadas en distintos tipos de episodios, centrándonos en episodios de sueño y de actividad física, clasificando los episodios de sueño por su similitud y presentando un resumen de la actividad del paciente a lo largo de toda la monitorización.
Resumo:
The Exhibitium Project , awarded by the BBVA Foundation, is a data-driven project developed by an international consortium of research groups . One of its main objectives is to build a prototype that will serve as a base to produce a platform for the recording and exploitation of data about art-exhibitions available on the Internet . Therefore, our proposal aims to expose the methods, procedures and decision-making processes that have governed the technological implementation of this prototype, especially with regard to the reuse of WordPress (WP) as development framework.