816 resultados para análisis de datos
Resumo:
Poder clasificar de manera precisa la aplicación o programa del que provienen los flujos que conforman el tráfico de uso de Internet dentro de una red permite tanto a empresas como a organismos una útil herramienta de gestión de los recursos de sus redes, así como la posibilidad de establecer políticas de prohibición o priorización de tráfico específico. La proliferación de nuevas aplicaciones y de nuevas técnicas han dificultado el uso de valores conocidos (well-known) en puertos de aplicaciones proporcionados por la IANA (Internet Assigned Numbers Authority) para la detección de dichas aplicaciones. Las redes P2P (Peer to Peer), el uso de puertos no conocidos o aleatorios, y el enmascaramiento de tráfico de muchas aplicaciones en tráfico HTTP y HTTPS con el fin de atravesar firewalls y NATs (Network Address Translation), entre otros, crea la necesidad de nuevos métodos de detección de tráfico. El objetivo de este estudio es desarrollar una serie de prácticas que permitan realizar dicha tarea a través de técnicas que están más allá de la observación de puertos y otros valores conocidos. Existen una serie de metodologías como Deep Packet Inspection (DPI) que se basa en la búsqueda de firmas, signatures, en base a patrones creados por el contenido de los paquetes, incluido el payload, que caracterizan cada aplicación. Otras basadas en el aprendizaje automático de parámetros de los flujos, Machine Learning, que permite determinar mediante análisis estadísticos a qué aplicación pueden pertenecer dichos flujos y, por último, técnicas de carácter más heurístico basadas en la intuición o el conocimiento propio sobre tráfico de red. En concreto, se propone el uso de alguna de las técnicas anteriormente comentadas en conjunto con técnicas de minería de datos como son el Análisis de Componentes Principales (PCA por sus siglas en inglés) y Clustering de estadísticos extraídos de los flujos procedentes de ficheros de tráfico de red. Esto implicará la configuración de diversos parámetros que precisarán de un proceso iterativo de prueba y error que permita dar con una clasificación del tráfico fiable. El resultado ideal sería aquel en el que se pudiera identificar cada aplicación presente en el tráfico en un clúster distinto, o en clusters que agrupen grupos de aplicaciones de similar naturaleza. Para ello, se crearán capturas de tráfico dentro de un entorno controlado e identificando cada tráfico con su aplicación correspondiente, a continuación se extraerán los flujos de dichas capturas. Tras esto, parámetros determinados de los paquetes pertenecientes a dichos flujos serán obtenidos, como por ejemplo la fecha y hora de llagada o la longitud en octetos del paquete IP. Estos parámetros serán cargados en una base de datos MySQL y serán usados para obtener estadísticos que ayuden, en un siguiente paso, a realizar una clasificación de los flujos mediante minería de datos. Concretamente, se usarán las técnicas de PCA y clustering haciendo uso del software RapidMiner. Por último, los resultados obtenidos serán plasmados en una matriz de confusión que nos permitirá que sean valorados correctamente. ABSTRACT. Being able to classify the applications that generate the traffic flows in an Internet network allows companies and organisms to implement efficient resource management policies such as prohibition of specific applications or prioritization of certain application traffic, looking for an optimization of the available bandwidth. The proliferation of new applications and new technics in the last years has made it more difficult to use well-known values assigned by the IANA (Internet Assigned Numbers Authority), like UDP and TCP ports, to identify the traffic. Also, P2P networks and data encapsulation over HTTP and HTTPS traffic has increased the necessity to improve these traffic analysis technics. The aim of this project is to develop a number of techniques that make us able to classify the traffic with more than the simple observation of the well-known ports. There are some proposals that have been created to cover this necessity; Deep Packet Inspection (DPI) tries to find signatures in the packets reading the information contained in them, the payload, looking for patterns that can be used to characterize the applications to which that traffic belongs; Machine Learning procedures work with statistical analysis of the flows, trying to generate an automatic process that learns from those statistical parameters and calculate the likelihood of a flow pertaining to a certain application; Heuristic Techniques, finally, are based in the intuition or the knowledge of the researcher himself about the traffic being analyzed that can help him to characterize the traffic. Specifically, the use of some of the techniques previously mentioned in combination with data mining technics such as Principal Component Analysis (PCA) and Clustering (grouping) of the flows extracted from network traffic captures are proposed. An iterative process based in success and failure will be needed to configure these data mining techniques looking for a reliable traffic classification. The perfect result would be the one in which the traffic flows of each application is grouped correctly in each cluster or in clusters that contain group of applications of similar nature. To do this, network traffic captures will be created in a controlled environment in which every capture is classified and known to pertain to a specific application. Then, for each capture, all the flows will be extracted. These flows will be used to extract from them information such as date and arrival time or the IP length of the packets inside them. This information will be then loaded to a MySQL database where all the packets defining a flow will be classified and also, each flow will be assigned to its specific application. All the information obtained from the packets will be used to generate statistical parameters in order to describe each flow in the best possible way. After that, data mining techniques previously mentioned (PCA and Clustering) will be used on these parameters making use of the software RapidMiner. Finally, the results obtained from the data mining will be compared with the real classification of the flows that can be obtained from the database. A Confusion Matrix will be used for the comparison, letting us measure the veracity of the developed classification process.
Resumo:
La IA se abre a un gran horizonte de aplicaciones y en particular, desde hace algún tiempo, sus algoritmos incluidos en las técnicas de la Inteligencia Computacional (IC), son aplicados con mucho éxito en tareas de procesado de imagen, teniendo en cuenta los estrictos requisitos que son inherentes a este campo científico, para tener resultados óptimos en cualquier aplicación planteada. Se le añade además que hay un tipo de imágenes, pesadas desde un punto de vista computacional, cuyos ficheros contienen un gran volumen de información, como son las utilizadas en el campo de la Teledetección; la IA, con sus características comentadas, se plantea como una buena alternativa para procesar y analizar los datos contenidos en estas imágenes.
Resumo:
En este proyecto se ha desarrollado una aplicación Web cuya finalidad es ofrecer al usuario datos provenientes del análisis de texto de las noticias que se encuentran en periódicos online. La aplicación permite al usuario realizar búsquedas personalizadas sobre temáticas específicas y configurar algunos tipos de análisis sobre la información recuperada. Entre los análisis que son llevados a cabo destaca el análisis del sentimiento. Para ello se ofrece la posibilidad de que el usuario utilice sus propios diccionarios de pares palabra-valor, utilizados para realizar este tipo de análisis. Para la codificación de la herramienta, se ha utilizado el lenguaje de programación Python y la framework web Django. El almacenamiento de la información de la aplicación se ha realizado sobre una base de datos NoSQL de tipo MongoDB.
Resumo:
En este trabajo, se realiza una presentación unificada de la Programación Multiobjetivo, describiendo y relacionando los distintos conceptos de solución y exponiendo las distintas técnicas de solución. Se formula el problema multiobjetivo mediante una séxtupla, (O, V, X, f, Y, EP), que permite unificar los muy diversos problemas multiobjetivo que surgen en distintos ámbitos. O representa el conjunto de objetos inicial, V representa el conjunto de las características relevantes que se miden sobre los objetos, X es el espacio de alternativas, f representa la familia de objetivos, Y es el espacio de resultados y EP es la estructura de preferencias del decisor. A partir de esta formulación, se realiza un amplio estudio de los distintos problemas multiobjetivo. Además, se aplica la metodología multiobjetivo a dos problemas concretos de gran interés práctico. En primer lugar, se aborda el problema de seleccionar el mejor tratamiento, cuando sobre las unidades experimentales, elegidas de forma aleatoria, se observan varias variables respuesta. Se consideran Modelos Discretos, Modelos Continuos Paramétricos y Modelos No Paramétricos. El último capítulo del trabajo, se dedica al estudio del problema multiobjetivo que se presenta cuando se desea representar, un conjunto finito de objetos, sobre la recta real, de forma que se refleje, lo más fielmente posible, la desemejanza de cada par de objetos. En el caso de que la desemejanza cumpla la propiedad de ser naturalmente ordenable, se ha diseñado y programado, un algoritmo, en tiempo polinomial, que obtiene la solución óptima del problema...
Resumo:
La Universidad EAFIT, en los últimos años, por medio de la realización de varias investigaciones, ha estado desarrollado una propuesta con la cual se busca definir los componentes tecnológicos que deben componer un ecosistema de aplicaciones educativas, con el fin de apalancar la adopción del modelo de ubicuidad en las instituciones de educación superior -- Por medio del grupo de investigación de desarrollo e innovación en Tecnologías de la Información y las Comunicaciones (GIDITIC) ha realizado la selección de los primeros componentes del ecosistema en trabajos de tesis de grado de anteriores investigaciones[1, 2] -- Adicionalmente, algunos trabajos realizados por el gobierno local de la Alcaldía de Medellín en su proyecto de Medellín Ciudad Inteligente[3], también realizó una selección de algunos componentes que son necesarios para la implementación del portal -- Ambas iniciativas coinciden en la inclusión de un componente de registro de actividades, conocido como \Sistema de almacenamiento de experiencias" (LRS) -- Dados estos antecedentes, se pretende realizar una implementación de un LRS que cumpla con los objetivos buscados en el proyecto de la Universidad, siguiendo estándares que permitan asegurar la interoperabilidad con los otros componentes del ecosistema de aplicaciones educativas
Resumo:
En el presente trabajo se desarrolló un sistema de funciones estadísticas empleando el lenguaje R-Statistics y otras herramientas: Open Source (Symfony, PostgreSQL, PLR y Debian), para el análisis de los datos del almacén de datos del Ministerio de Salud, integrándose dichas funciones como un módulo del sistema integrado de indicadores gerenciales. El sistema, facilitará la toma de decisiones, dentro de los resultados estadísticos que proporciona están: Medidas de posición, de tendencia central, de dispersión, gráficas tales como el dendograma, circulo de corrección, diagrama de caja y bigote entre otros, los cuales permitirá tener una mejor apreciación de la situación actual y futura, para definir estrategias y realizar planificaciones
Resumo:
La presente investigación tiene como objetivo principal determinar la existencia de una relación de causalidad entre Fecundidad y Pobreza en el Ecuador a partir del análisis de datos provinciales para los años 2006 y 2014. Para evaluar la relación de estas variables, se hizo uso de dos modelos econométricos: el Modelo de Regresión Poisson para evaluar el impacto de la Pobreza sobre la Fecundidad; y el Modelo de Regresión Probit para analizar el impacto que tiene la Fecundidad sobre la pobreza. Los modelos mencionados fueron estimados para un total de 13.580 hogares en el año 2006 y 28.399 hogares en el año 2014, datos que fueron obtenidos a partir de la cuarta y quinta versión de la Encuesta de Condiciones de Vida del Ecuador (ECV) realizadas por el INEC. Se encontró una fuerte relación positiva entre las variables mencionadas en ambos años de estudio, sin embargo,debido a la falta de información y a la estructuración de la base de datos empleada no se pudo determinar de forma precisa la existencia de una relación causal entre ambas variables. A pesar de no haberse determinado la dirección de la causalidad es importante mencionar que la influencia que ejerce la Pobreza sobre los niveles de Fecundidad en el Ecuador es mucho mayor a la que se encontró al analizar el impacto que tiene la Fecundidad sobre la Pobreza, es decir, elevados niveles de pobreza causan un mayor número de hijos en los hogares.
Resumo:
El desarrollo de las habilidades para un conocimiento estadístico necesario es posible desarrollarlo y fortalecerlo por medio de variados recursos didácticos dispuestos para la enseñanza y aprendizaje. Dentro de los recursos disponibles es el texto de matemática el más utilizado por profesores y estudiantes. El texto debe entregar herramientas que permita a los estudiantes desarrollar una alfabetización matemática, realizando una focalización más explícita en los conocimientos, comprensión y habilidades requeridas para funcionar efectivamente en la vida diaria (PISA Chile, 2009).
Resumo:
El análisis de datos actual se enfrenta a problemas derivados de la combinación de datos procedentes de diversas fuentes de información. El valor de la información puede enriquecerse enormemente facilitando la integración de nuevas fuentes de datos y la industria es muy consciente de ello en la actualidad. Sin embargo, no solo el volumen sino también la gran diversidad de los datos constituye un problema previo al análisis. Una buena integración de los datos garantiza unos resultados fiables y por ello merece la pena detenerse en la mejora de procesos de especificación, recolección, limpieza e integración de los datos. Este trabajo está dedicado a la fase de limpieza e integración de datos analizando los procedimientos existentes y proponiendo una solución que se aplica a datos médicos, centrándose así en los proyectos de predicción (con finalidad de prevención) en ciencias de la salud. Además de la implementación de los procesos de limpieza, se desarrollan algoritmos de detección de outliers que permiten mejorar la calidad del conjunto de datos tras su eliminación. El trabajo también incluye la implementación de un proceso de predicción que sirva de ayuda a la toma de decisiones. Concretamente este trabajo realiza un análisis predictivo de los datos de pacientes drogodependientes de la Clínica Nuestra Señora de la Paz, con la finalidad de poder brindar un apoyo en la toma de decisiones del médico a cargo de admitir el internamiento de pacientes en dicha clínica. En la mayoría de los casos el estudio de los datos facilitados requiere un pre-procesado adecuado para que los resultados de los análisis estadísticos tradicionales sean fiables. En tal sentido en este trabajo se implementan varias formas de detectar los outliers: un algoritmo propio (Detección de Outliers con Cadenas No Monótonas), que utiliza las ventajas del algoritmo Knuth-Morris-Pratt para reconocimiento de patrones, y las librerías outliers y Rcmdr de R. La aplicación de procedimientos de cleaning e integración de datos, así como de eliminación de datos atípicos proporciona una base de datos limpia y fiable sobre la que se implementarán procedimientos de predicción de los datos con el algoritmo de clasificación Naive Bayes en R.
Resumo:
Hasta hace poco, enfermedades como el cáncer o el Alzheimer eran interpretadas solo como mutaciones genéticas, es decir, cambios en la secuencia genética. Sin embargo, son muchos los que últimamente se interesan por la epigenética y por la relación con las enfermedades. La epigenética va más allá que la genética, se basa en los cambios reversibles del ADN y de las proteínas que se unen en él. Esto hace que, sin necesidad de alterar su secuencia, un gen pueda ser expresado o por el contrario quede silenciado. Uno de estos cambios epigenéticos es la metilación del ADN que consiste en una modificación química en el dinucleotido CpG (citosina-fosfato-guanina, es decir, donde una citosina es seguida de una guanina). Existen métodos experimentales para poder detectar la metilación, como por ejemplo, los métodos basados en la modificación del ADN con bisulfito y posterior análisis con arrays de ADN. El objetivo de este proyecto es imitar, mediante la simulación computacional y el estudio de distintas bases de datos, el comportamiento del sistema biológico, a fin de generar datos similares a los reales. Esta simulación de los datos reales permitirá, entre otras cosas, generar escenarios controlados en los que evaluar los métodos de análisis. Adicionalmente, el proceso de diseño permitirá explorar el proceso biológico que da lugar a los datos.
Resumo:
Nº monográfico: Análisis de datos en estudios observacionales de Ciencias del Deporte (2). Aportaciones desde Mixed Methods.
Resumo:
Este estándar recomienda que los estudiantes formulen preguntas que puedan ser resueltas usando la recolección de datos y su interpretación. Los estudiantes podrán aprender a coleccionar datos, organizar sus propios datos o los de los demás, y disponerlos en gráficas y diagramas que sean útiles para responder preguntas. Los conceptos básicos de probabilidad se pueden manejar de mano de los conceptos estadísticos.
Resumo:
En este trabajo se presenta un modelo para caracterizar el razonamiento estadístico de los estudiantes al interpretar la información que es representa por el gráfico de gajas. El origen de dicho modelo se motiva en una experiencia de aula que considera y aplica los resultados obtenidos en una investigación realizada como trabajo de grado de la Maestría en Docencia de las Matemáticas y adscrita a la línea de investigación en Educación Estadística de la Universidad Pedagógica Nacional en el año 2009. Esta investigación pretende categorizar el razonamiento estadístico de un grupo de estudiantes de secundaria en un colegio público de la ciudad de Bogotá. Para obtener dicha categorización se propuso comparar conjuntos de datos representados mediante gráficos de caja. y, se empleó la teoría de clasificación conocida como taxonomía SOLO, la cual a su vez fue articulada con siete elementos de razonamiento sugeridos por los autores del presente trabajo.
Resumo:
Una de las intenciones que subyacen al diseño de este módulo, dedicado al análisis de datos, es entender que la fase de implementación en el aula de la unidad didáctica puede entenderse como un experimento en el que la gran mayoría de los instrumentos concebidos para extraer información ya se diseñaron en el análisis de actuación. Una vez preparados los documentos que planifican el proceso de enseñanza en los módulos 1 al 4 y los instrumentos que servirán de referencia para evaluar los procesos de enseñanza y aprendizaje durante y después de la implementación (módulo 5), este módulo se centra en la organización y análisis de los datos que se producirán durante la implementación en el aula de la planificación de la unidad didáctica. Entre los datos obtenidos y que ayudarán a mejorar el aprendizaje del estudiante y a modificar la propia práctica de la enseñanza, este módulo se centrará en el aprendizaje, mientras que, en el módulo 7, se completará el análisis de datos que tienen que ver más con el proceso de enseñanza.