816 resultados para 120903 Análisis de datos


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Este Proyecto Fin de Grado trabaja en pos de la mejora y ampliación de los sistemas Pegaso y Gades, dos Sistemas Expertos enmarcados en el ámbito de la e-Salud. Estos sistemas, que ya estaban en funcionamiento antes del comienzo de este trabajo, apoyan la toma de decisiones en Atención Primaria. Esto es, permiten evaluar el nivel de adquisición del lenguaje en niños de 0 a 6 años a través de sus respectivas aplicaciones web. Además, permiten almacenar dichas evaluaciones y consultarlas posteriormente, junto con las decisiones del sistema asociadas a las mismas. Pegaso y Gades siguen una arquitectura de tres capas y están desarrollados usando fundamentalmente componentes Java y siguiendo. Como parte de este trabajo, en primer lugar se solucionan algunos problemas en el comportamiento de ambos sistemas, como su incompatibilidad con Java SE 7. A continuación, se desarrolla una aplicación que permite generar una ontología en lenguaje OWL desde código Java. Para ello, se estudia primero el concepto de ontología, el lenguaje OWL y las diferentes librerías Java existentes para generar ontologías OWL. Por otra parte, se mejoran algunas de las funcionalidades de los sistemas de partida y se desarrolla una nueva funcionalidad para la explotación de los datos almacenados en las bases de datos de ambos sistemas Esta nueva funcionalidad consiste en un módulo responsable de la generación de estadísticas a partir de los datos de las evaluaciones del lenguaje que hayan sido realizadas y, por tanto, almacenadas en las bases de datos. Estas estadísticas, que pueden ser consultadas por todos los usuarios de Pegaso y Gades, permiten establecer correlaciones entre los diversos conjuntos de datos de las evaluaciones del lenguaje. Por último, las estadísticas son mostradas por pantalla en forma de varios tipos de gráficas y tablas, de modo que los usuarios expertos puedan analizar la información contenida en ellas. ABSTRACT. This Bachelor's Thesis works towards improving and expanding the systems Pegaso and Gades, which are two Expert Systems that belong to the e-Health field. These systems, which were already operational before starting this work, support the decision-making process in Primary Care. That is, they allow to evaluate the language acquisition level in children from 0 to 6 years old. They also allow to store these evaluations and consult them afterwards, together with the decisions associated to each of them. Pegaso and Gades follow a three-tier architecture and are developed using mainly Java components. As part of this work, some of the behavioural problems of both systems are fixed, such as their incompatibility with Java SE 7. Next, an application that allows to generate an OWL ontology from Java code is developed. In order to do that, the concept of ontology, the OWL language and the different existing Java libraries to generate OWL ontologies are studied. On the other hand, some of the functionalities of the initial systems are improved and a new functionality to utilise the data stored in the databases of both systems is developed. This new functionality consists of a module responsible for the generation of statistics from the data of the language evaluations that have been performed and, thus, stored in the databases. These statistics, which can be consulted by all users of Pegaso and Gades, allow to establish correlations between the diverse set of data from the language evaluations. Finally, the statistics are presented to the user on the screen in the shape of various types of charts and tables, so that the expert users can analyse the information contained in them.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

El trabajo fin de grado que se presenta en este documento trata de “Aplicar técnicas de Data Mining a un conjunto de datos procedentes de ataques de virus informáticos interceptados en servidores de Internet”. La propuesta de este trabajo surgió de una Institución con el fin de extraer información de un conjunto de datos proveniente de ejecuciones de virus informáticos. Lamentablemente, debido a fuertes restricciones de privacidad por parte de esta Institución y así como al relevo de la persona responsable de éste área en dicha Institución, el Proyecto finalmente se canceló. Como consecuencia, y teniendo en cuenta el carácter didáctico de este trabajo fin de grado, el proyecto KDD (Knowledge Discovery in Databases) en sí y sus objetivos de negocio y objetivos de data mining, se han establecido conforme con la misma temática de predicción de ataques de virus que había planteado la Institución en el pasado, contando con una base de datos que ha sido recopilada de diferentes empresas anónimas. Para llevar un desarrollo estructurado de todas las fases del proceso KDD, se ha trabajado siguiendo como referencia una metodología para proyectos de Data Mining, “CRISP-DM”, cuyo estándar incluye un modelo y una guía, estructurados en seis fases. Como herramienta de Data Mining a utilizar, se ha elegido el software de libre distribución “WEKA”. Por último, cabe destacar que el proyecto ha concluido satisfactoriamente, lográndose cada una de las metas establecidas como proyecto de minería de datos.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Poder clasificar de manera precisa la aplicación o programa del que provienen los flujos que conforman el tráfico de uso de Internet dentro de una red permite tanto a empresas como a organismos una útil herramienta de gestión de los recursos de sus redes, así como la posibilidad de establecer políticas de prohibición o priorización de tráfico específico. La proliferación de nuevas aplicaciones y de nuevas técnicas han dificultado el uso de valores conocidos (well-known) en puertos de aplicaciones proporcionados por la IANA (Internet Assigned Numbers Authority) para la detección de dichas aplicaciones. Las redes P2P (Peer to Peer), el uso de puertos no conocidos o aleatorios, y el enmascaramiento de tráfico de muchas aplicaciones en tráfico HTTP y HTTPS con el fin de atravesar firewalls y NATs (Network Address Translation), entre otros, crea la necesidad de nuevos métodos de detección de tráfico. El objetivo de este estudio es desarrollar una serie de prácticas que permitan realizar dicha tarea a través de técnicas que están más allá de la observación de puertos y otros valores conocidos. Existen una serie de metodologías como Deep Packet Inspection (DPI) que se basa en la búsqueda de firmas, signatures, en base a patrones creados por el contenido de los paquetes, incluido el payload, que caracterizan cada aplicación. Otras basadas en el aprendizaje automático de parámetros de los flujos, Machine Learning, que permite determinar mediante análisis estadísticos a qué aplicación pueden pertenecer dichos flujos y, por último, técnicas de carácter más heurístico basadas en la intuición o el conocimiento propio sobre tráfico de red. En concreto, se propone el uso de alguna de las técnicas anteriormente comentadas en conjunto con técnicas de minería de datos como son el Análisis de Componentes Principales (PCA por sus siglas en inglés) y Clustering de estadísticos extraídos de los flujos procedentes de ficheros de tráfico de red. Esto implicará la configuración de diversos parámetros que precisarán de un proceso iterativo de prueba y error que permita dar con una clasificación del tráfico fiable. El resultado ideal sería aquel en el que se pudiera identificar cada aplicación presente en el tráfico en un clúster distinto, o en clusters que agrupen grupos de aplicaciones de similar naturaleza. Para ello, se crearán capturas de tráfico dentro de un entorno controlado e identificando cada tráfico con su aplicación correspondiente, a continuación se extraerán los flujos de dichas capturas. Tras esto, parámetros determinados de los paquetes pertenecientes a dichos flujos serán obtenidos, como por ejemplo la fecha y hora de llagada o la longitud en octetos del paquete IP. Estos parámetros serán cargados en una base de datos MySQL y serán usados para obtener estadísticos que ayuden, en un siguiente paso, a realizar una clasificación de los flujos mediante minería de datos. Concretamente, se usarán las técnicas de PCA y clustering haciendo uso del software RapidMiner. Por último, los resultados obtenidos serán plasmados en una matriz de confusión que nos permitirá que sean valorados correctamente. ABSTRACT. Being able to classify the applications that generate the traffic flows in an Internet network allows companies and organisms to implement efficient resource management policies such as prohibition of specific applications or prioritization of certain application traffic, looking for an optimization of the available bandwidth. The proliferation of new applications and new technics in the last years has made it more difficult to use well-known values assigned by the IANA (Internet Assigned Numbers Authority), like UDP and TCP ports, to identify the traffic. Also, P2P networks and data encapsulation over HTTP and HTTPS traffic has increased the necessity to improve these traffic analysis technics. The aim of this project is to develop a number of techniques that make us able to classify the traffic with more than the simple observation of the well-known ports. There are some proposals that have been created to cover this necessity; Deep Packet Inspection (DPI) tries to find signatures in the packets reading the information contained in them, the payload, looking for patterns that can be used to characterize the applications to which that traffic belongs; Machine Learning procedures work with statistical analysis of the flows, trying to generate an automatic process that learns from those statistical parameters and calculate the likelihood of a flow pertaining to a certain application; Heuristic Techniques, finally, are based in the intuition or the knowledge of the researcher himself about the traffic being analyzed that can help him to characterize the traffic. Specifically, the use of some of the techniques previously mentioned in combination with data mining technics such as Principal Component Analysis (PCA) and Clustering (grouping) of the flows extracted from network traffic captures are proposed. An iterative process based in success and failure will be needed to configure these data mining techniques looking for a reliable traffic classification. The perfect result would be the one in which the traffic flows of each application is grouped correctly in each cluster or in clusters that contain group of applications of similar nature. To do this, network traffic captures will be created in a controlled environment in which every capture is classified and known to pertain to a specific application. Then, for each capture, all the flows will be extracted. These flows will be used to extract from them information such as date and arrival time or the IP length of the packets inside them. This information will be then loaded to a MySQL database where all the packets defining a flow will be classified and also, each flow will be assigned to its specific application. All the information obtained from the packets will be used to generate statistical parameters in order to describe each flow in the best possible way. After that, data mining techniques previously mentioned (PCA and Clustering) will be used on these parameters making use of the software RapidMiner. Finally, the results obtained from the data mining will be compared with the real classification of the flows that can be obtained from the database. A Confusion Matrix will be used for the comparison, letting us measure the veracity of the developed classification process.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La IA se abre a un gran horizonte de aplicaciones y en particular, desde hace algún tiempo, sus algoritmos incluidos en las técnicas de la Inteligencia Computacional (IC), son aplicados con mucho éxito en tareas de procesado de imagen, teniendo en cuenta los estrictos requisitos que son inherentes a este campo científico, para tener resultados óptimos en cualquier aplicación planteada. Se le añade además que hay un tipo de imágenes, pesadas desde un punto de vista computacional, cuyos ficheros contienen un gran volumen de información, como son las utilizadas en el campo de la Teledetección; la IA, con sus características comentadas, se plantea como una buena alternativa para procesar y analizar los datos contenidos en estas imágenes.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

En este proyecto se ha desarrollado una aplicación Web cuya finalidad es ofrecer al usuario datos provenientes del análisis de texto de las noticias que se encuentran en periódicos online. La aplicación permite al usuario realizar búsquedas personalizadas sobre temáticas específicas y configurar algunos tipos de análisis sobre la información recuperada. Entre los análisis que son llevados a cabo destaca el análisis del sentimiento. Para ello se ofrece la posibilidad de que el usuario utilice sus propios diccionarios de pares palabra-valor, utilizados para realizar este tipo de análisis. Para la codificación de la herramienta, se ha utilizado el lenguaje de programación Python y la framework web Django. El almacenamiento de la información de la aplicación se ha realizado sobre una base de datos NoSQL de tipo MongoDB.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

En este trabajo, se realiza una presentación unificada de la Programación Multiobjetivo, describiendo y relacionando los distintos conceptos de solución y exponiendo las distintas técnicas de solución. Se formula el problema multiobjetivo mediante una séxtupla, (O, V, X, f, Y, EP), que permite unificar los muy diversos problemas multiobjetivo que surgen en distintos ámbitos. O representa el conjunto de objetos inicial, V representa el conjunto de las características relevantes que se miden sobre los objetos, X es el espacio de alternativas, f representa la familia de objetivos, Y es el espacio de resultados y EP es la estructura de preferencias del decisor. A partir de esta formulación, se realiza un amplio estudio de los distintos problemas multiobjetivo. Además, se aplica la metodología multiobjetivo a dos problemas concretos de gran interés práctico. En primer lugar, se aborda el problema de seleccionar el mejor tratamiento, cuando sobre las unidades experimentales, elegidas de forma aleatoria, se observan varias variables respuesta. Se consideran Modelos Discretos, Modelos Continuos Paramétricos y Modelos No Paramétricos. El último capítulo del trabajo, se dedica al estudio del problema multiobjetivo que se presenta cuando se desea representar, un conjunto finito de objetos, sobre la recta real, de forma que se refleje, lo más fielmente posible, la desemejanza de cada par de objetos. En el caso de que la desemejanza cumpla la propiedad de ser naturalmente ordenable, se ha diseñado y programado, un algoritmo, en tiempo polinomial, que obtiene la solución óptima del problema...

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Programa de doctorado: Física, Matemáticas, Geología y Clima. La fecha de publicación es la fecha de lectura.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La Universidad EAFIT, en los últimos años, por medio de la realización de varias investigaciones, ha estado desarrollado una propuesta con la cual se busca definir los componentes tecnológicos que deben componer un ecosistema de aplicaciones educativas, con el fin de apalancar la adopción del modelo de ubicuidad en las instituciones de educación superior -- Por medio del grupo de investigación de desarrollo e innovación en Tecnologías de la Información y las Comunicaciones (GIDITIC) ha realizado la selección de los primeros componentes del ecosistema en trabajos de tesis de grado de anteriores investigaciones[1, 2] -- Adicionalmente, algunos trabajos realizados por el gobierno local de la Alcaldía de Medellín en su proyecto de Medellín Ciudad Inteligente[3], también realizó una selección de algunos componentes que son necesarios para la implementación del portal -- Ambas iniciativas coinciden en la inclusión de un componente de registro de actividades, conocido como \Sistema de almacenamiento de experiencias" (LRS) -- Dados estos antecedentes, se pretende realizar una implementación de un LRS que cumpla con los objetivos buscados en el proyecto de la Universidad, siguiendo estándares que permitan asegurar la interoperabilidad con los otros componentes del ecosistema de aplicaciones educativas

Relevância:

100.00% 100.00%

Publicador:

Resumo:

En el presente trabajo se desarrolló un sistema de funciones estadísticas empleando el lenguaje R-Statistics y otras herramientas: Open Source (Symfony, PostgreSQL, PLR y Debian), para el análisis de los datos del almacén de datos del Ministerio de Salud, integrándose dichas funciones como un módulo del sistema integrado de indicadores gerenciales. El sistema, facilitará la toma de decisiones, dentro de los resultados estadísticos que proporciona están: Medidas de posición, de tendencia central, de dispersión, gráficas tales como el dendograma, circulo de corrección, diagrama de caja y bigote entre otros, los cuales permitirá tener una mejor apreciación de la situación actual y futura, para definir estrategias y realizar planificaciones

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La presente investigación tiene como objetivo principal determinar la existencia de una relación de causalidad entre Fecundidad y Pobreza en el Ecuador a partir del análisis de datos provinciales para los años 2006 y 2014. Para evaluar la relación de estas variables, se hizo uso de dos modelos econométricos: el Modelo de Regresión Poisson para evaluar el impacto de la Pobreza sobre la Fecundidad; y el Modelo de Regresión Probit para analizar el impacto que tiene la Fecundidad sobre la pobreza. Los modelos mencionados fueron estimados para un total de 13.580 hogares en el año 2006 y 28.399 hogares en el año 2014, datos que fueron obtenidos a partir de la cuarta y quinta versión de la Encuesta de Condiciones de Vida del Ecuador (ECV) realizadas por el INEC. Se encontró una fuerte relación positiva entre las variables mencionadas en ambos años de estudio, sin embargo,debido a la falta de información y a la estructuración de la base de datos empleada no se pudo determinar de forma precisa la existencia de una relación causal entre ambas variables. A pesar de no haberse determinado la dirección de la causalidad es importante mencionar que la influencia que ejerce la Pobreza sobre los niveles de Fecundidad en el Ecuador es mucho mayor a la que se encontró al analizar el impacto que tiene la Fecundidad sobre la Pobreza, es decir, elevados niveles de pobreza causan un mayor número de hijos en los hogares.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

[EN] The citation potential is a measure of the probability of being cited. Obviously, it is different among fields of science because of systematic differences in publication and citation behaviour across disciplines. In the past, the citation potential was studied at journal level considering the average number of references in established groups of journals. In this paper, some characterizations of the author’s scientific research through three different research dimensions are proposed: production (journal papers), impact (journal citations), and reference (bibliographical sources). An empirical application, in a set of 120 randomly selected authors in four subject areas, shows that the ratio between production and impact dimensions is a normalized measure of the citation potential at the level of individual authors.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

[EN] The journal impact factor is not comparable among fields of science because of systematic differences in publication and citation behaviour across disciplines. In this work, a source normalization of the journal impact factor is proposed. We use the aggregate impact factor of the citing journals as a measure of the citation potential in the journal topic, and we employ this citation potential in the normalization of the journal impact factor. An empirical application in a set of 224 journals from four different fields shows that our normalization, using the citation potential in the journal topic, reduces the between-group variance with respect to the within-group variance in a higher proportion than the rest of indicators analysed.