1000 resultados para Conjunto de Datos


Relevância:

70.00% 70.00%

Publicador:

Resumo:

En la actualidad la información es uno de los elementos de mayor valor agregado, más cuando es expresión novedosa y útil que permite acelerar el proceso de toma de decisiones o aumentar el conocimiento sobre determinados elementos. Los volúmenes de información que se generan en forma permanente (por ej. en el ámbito hospitalario, experimento genómicos, epidimeológicos, etc.) están creciendo considerablemente. El análisis y procesos diagnósticos exitosos implican la utilización de un número cada vez mayor de variables a asociar. Por otra parte, el formato digital está reemplazando cada vez más el papel en todos los ambientes, desde el empresarial hasta el de salud, pasando indudablemente por el de los experimentos científicos, particularmente los experimentos genéticos. Estos procesos de recolección o generación de información producen volúmenes tales que superan las capacidades humanas para analizarlas. Esta limitación se debe a varios factores, entre los que podemos mencionar, la disponibilidad en tiempo y la incapacidad de relacionar grandes volúmenes con eventos y una gran cantidad de variables. Entonces ¿Qué hacer con toda la información disponible? ¿Cómo extraer conocimiento de dicha información? El Descubrimiento de Información en Bases de Datos (DIBD) y las técnicas de Minería de Datos (MD) (entre las que podemos mencionar aquellas provenientes del campo de la Inteligencia Artificial, tales como los modelos Neuronales Artificiales) son metodologías asociadas, tendientes a resolver los problemas de la extracción de información novel y útil sobre un conjunto de datos y/o señales biomédicas. Este proyecto trata sobre el desarrollo y aplicación de metodologías de análisis de datos para el descubrimiento de información en bases de datos biológicas y biomédicas, tendientes a mejorar y/o desarrollar nuevas técnicas de diagnóstico, como también para el análisis de señales e información biomédica.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

El proyecto proporciona las claves para elaborar un almacén de datos para un conjunto de datos de forma que permita analizar la información correspondiente a la oferta de recursos turísticos en Catalunya, considerando dimensiones temporales, geográficas, categorías y equipamientos disponibles.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Analizar la metodología utilizada para construir significados a partir de datos educativos de naturaleza cualitativa, contrastar la aplicabilidad de la técnica de los grupos de discusión en la investigación educativa y sacar distintas estrategias de análisis de los datos procedentes de grupos de discusión. Explorar las perspectivas del profesorado de EGB acerca de la reforma educativa utilizando la técnica de los grupos de discusión. Se trabaja con la población de los profesores de EGB de los centros públicos de la provincia de Sevilla, de esta población se extraen dos muestras, una de seis grupos que mantendrían distintas posiciones acerca de la Reforma y otra muestra de 871 profesores a los que se enviará un cuestionario. Se hace un estudio previo de la población para caracterizar seis tipos de profesores. Para cada uno de ellos se construye un grupo de discusión en el que se habla sobre la reforma educativa. Los resultados del análisis de las discusiones de grupo sirven para construir un cuestionario que servirá para confirmar tales resultados. Desarrollado este proceso, se ponen en práctica vías alternativas para el análisis de los datos producidos mediante las discusiones de grupo, reflexionando sobre ellas. Grupos de discusión, cuestionario, revisión bibliográfica. Análisis factorial de correspondencias seguido de clasificación jerárquica ascendente. Análisis de contenido. Análisis cualitativo mediante ordenador (programa AQUAD), análisis lexicométrico de textos (programa SPAD.T). Escalamiento multidimensional no métrico. Las técnicas empleadas para el análisis de datos procedentes de grupos de discusión se han revelado adecuadas para conseguir diferentes aproximaciones al significado de un mismo conjunto de datos. Tales aproximaciones convergen en algunos aspectos y se complementan en otros, pero sin llegar a incurrir en contradicciones. La posición del profesorado ante la reforma educativa se define por el escepticismo, la desconfianza respecto a la Administración y la preocupación por las consecuencias de la aplicación de la reforma para los profesores. Los grupos de discusión resultan una técnica útil en la investigación educativa, existiendo una unidad de vías para llevar a cabo el análisis de los datos producidos. Por tanto, se recomienda su utilización. Parece necesario que la administración educativa incremente sus esfuerzos para incorporar al profesorado al proceso de cambio, despejar sus dudas y clarificar el nudo en el que se verán afectados.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Resumen tomado del autor. Incluye gr??ficos y tablas datos. Las cifras obtenidas corresponden a los a??os 2006-2011

Relevância:

70.00% 70.00%

Publicador:

Resumo:

La falta de información es un escenario más que habitual en la utilización de conjuntos de datos. En las aplicaciones del mundo real existen múltiples causas – errores o fallos de los sensores cuando se trabaja con equipos automáticos, desconocimiento o falta de interés por parte de los responsables de introducir la información, negativas por parte de los informantes a responder a preguntas sobre temas comprometidos en encuestas … – que pueden originarlo. Como consecuencia de ello, el procesamiento de los valores ausentes es, en la práctica, uno de los trabajos que más tiempo consumen en los proyectos de minería de datos y aprendizaje automático [109] y se estima que alrededor del 60% de los esfuerzos se destinan al mismo [23]. Aunque la ausencia puede producirse en cualquier tipo de datos, sean éstos numéricos o categóricos, nos vamos a centrar en los últimos a causa de algunas peculiaridades que merece la pena estudiar. Y hablaremos indistintamente de ausencia de información, valores ausentes, falta de respuesta, datos parcialmente observados o falta de datos, pues en cualquiera de estas formas aparece citado el problema. Las técnicas para afrontarlo se vienen desarrollando ya desde hace tiempo [135], [6] y existen numerosas referencias en la literatura, sobre todo acerca de la falta de respuesta 6 en encuestas [32], [79]. Sin embargo, en el ámbito del aprendizaje automático es en los últimos años cuando se ha convertido en un área de investigación dinámica, con frecuentes aportaciones [94]. Los dos puntos de vista, el estadístico y el del aprendizaje automático, consideran el problema en formas bien diferentes y tienen distintos objetivos, lo que origina, a su vez, discrepancias en la clasificación de las técnicas y en los criterios para su evaluación. Por un lado, el enfoque estadístico paramétrico tradicional considera el conjunto de datos como una muestra, resultado de la extracción aleatoria de una población con una distribución probabilística. Bajo este supuesto, el objetivo es obtener algunos de los parámetros que caracterizan esa distribución – la media, la moda, la correlación entre variables, etc. – calculándose los correspondientes estimadores como funciones de los datos de la muestra. La ausencia de datos es, aquí, un problema de estimación que se afronta desde diferentes perspectivas. Por su parte, en el ámbito de los procedimientos de aprendizaje automático existen múltiples técnicas que pueden utilizarse para tratar los datos ausentes mediante su sustitución por valores obtenidos a partir de los datos observados: redes neuronales, árboles de decisión, etc. Cuando los datos que faltan son categóricos, se pueden utilizar técnicas específicas como los procedimientos de clasificación: las categorías a asignar coinciden con los distintos valores posibles del atributo que tiene falta de información. Pueden utilizarse métodos supervisados y no supervisados. En el primer caso, cuando existe más de un atributo con falta de datos, el aprendizaje se realiza sucesiva y separadamente para cada uno, lo que significa que la tarea ha de repetirse tantas veces como atributos con valores ausentes hay en el conjunto de datos [72]. El inicio de los trabajos de esta tesis ha estado principalmente motivado en la necesidad de mejorar los resultados obtenidos al tratar de resolver problemas de falta de 7 información de variables categóricas en sondeos de opinión utilizando los procedimientos que la literatura considera como el estado del arte en ese ámbito. Se ha encontrado, así, que muchos de los métodos que se proponen tienen hipótesis de funcionamiento que están muy lejos de las situaciones reales que se encuentran en la práctica y, además, las soluciones existentes han avanzado frecuentemente en direcciones no adecuadas, sin replantear los fundamentos básicos. Esto ha conducido de una forma natural a probar métodos propios de otro ámbito como es el aprendizaje automático, para lo que ha sido necesario, en ocasiones, proponer modificaciones de algunos procedimientos ya existentes de modo que pudieran aceptar como entradas el tipo de datos que estos sondeos de opinión manejan. Como resultado, y en el caso concreto de un tipo específico de redes neuronales, se ha diseñado una nueva arquitectura y un nuevo algoritmo de funcionamiento que se presentan aquí como aportación más novedosa de este estudio.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Este trabajo propone una serie de algoritmos con el objetivo de extraer información de conjuntos de datos con redes de neuronas. Se estudian dichos algoritmos con redes de neuronas Enhenced Neural Networks (ENN), debido a que esta arquitectura tiene algunas ventajas cuando se aproximan funciones mediante redes neuronales. En la red ENN los pesos de la matriz principal varián con cada patrón, por lo que se comete un error menor en la aproximación. Las redes de neuronas ENN reúnen la información en los pesos de su red auxiliar, se propone un método para obtener información de la red a través de dichos pesos en formas de reglas y asignando un factor de certeza de dichas reglas. La red ENN obtiene un error cuadrático medio menor que el error teórico de una aproximación matemática por ejemplo mediante polinomios de Taylor. Se muestra como una red ENN, entrenada a partir un conjunto de patrones obtenido de una función de variables reales, sus pesos asociados tienen unas relaciones similares a las que se veri_can con las variables independientes con dicha función de variables reales. Las redes de neuronas ENN aproximan polinomios, se extrae conocimiento de un conjunto de datos de forma similar a la regresión estadística, resolviendo de forma más adecuada el problema de multicolionalidad en caso de existir. Las relaciones a partir de los pesos asociados de la matriz de la red auxiliar se obtienen similares a los coeficientes de una regresión para el mismo conjunto numérico. Una red ENN entrenada a partir de un conjunto de datos de una función boolena extrae el conocimiento a partir de los pesos asociados, y la influencia de las variables de la regla lógica de la función booleana, queda reejada en esos pesos asociados a la red auxiliar de la red ENN. Se plantea una red de base radial (RBF) para la clasificación y predicción en problemas forestales y agrícolas, obteniendo mejores resultados que con el modelo de regresión y otros métodos. Los resultados con una red RBF mejoran al método de regresión si existe colinealidad entre los datos que se dispone y no son muy numerosos. También se detecta que variables tienen más importancia en virtud de la variable pronóstico. Obteniendo el error cuadrático medio con redes RBF menor que con otros métodos, en particular que con el modelo de regresión. Abstract A series of algorithms is proposed in this study aiming at the goal of producing information about data groups with a neural network. These algorithms are studied with Enheced Neural Networks (ENN), owing to the fact that this structure shows sever advantages when the functions are approximated by neural networks. Main matrix weights in th ENN vary on each pattern; so, a smaller error is produced when approximating. The neural network ENN joins the weight information contained in their auxiliary network. Thus, a method to obtain information on the network through those weights is proposed by means of rules adding a certainty factor. The net ENN obtains a mean squared error smaller than the theorical one emerging from a mathematical aproximation such as, for example, by means of Taylor's polynomials. This study also shows how in a neural network ENN trained from a set of patterns obtained through a function of real variables, its associated weights have relationships similar to those ones tested by means of the independent variables connected with such functions of real variables. The neural network ENN approximates polynomials through it information about a set of data may be obtained in a similar way than through statistical regression, solving in this way possible problems of multicollinearity in a more suitable way. Relationships emerging from the associated weights in the auxiliary network matrix obtained are similar to the coeficients corresponding to a regression for the same numerical set. A net ENN trained from a boolean function data set obtains its information from its associated weights. The inuence of the variables of the boolean function logical rule are reected on those weights associated to the net auxiliar of the ENN. A radial basis neural networks (RBF) for the classification and prediction of forest and agricultural problems is proposed. This scheme obtains better results than the ones obtained by means of regression and other methods. The outputs with a net RBF better the regression method if the collineality with the available data and their amount is not very large. Detection of which variables are more important basing on the forecast variable can also be achieved, obtaining a mean squared error smaller that the ones obtained through other methods, in special the one produced by the regression pattern.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Los avances en el hardware permiten disponer de grandes volúmenes de datos, surgiendo aplicaciones que deben suministrar información en tiempo cuasi-real, la monitorización de pacientes, ej., el seguimiento sanitario de las conducciones de agua, etc. Las necesidades de estas aplicaciones hacen emerger el modelo de flujo de datos (data streaming) frente al modelo almacenar-para-despuésprocesar (store-then-process). Mientras que en el modelo store-then-process, los datos son almacenados para ser posteriormente consultados; en los sistemas de streaming, los datos son procesados a su llegada al sistema, produciendo respuestas continuas sin llegar a almacenarse. Esta nueva visión impone desafíos para el procesamiento de datos al vuelo: 1) las respuestas deben producirse de manera continua cada vez que nuevos datos llegan al sistema; 2) los datos son accedidos solo una vez y, generalmente, no son almacenados en su totalidad; y 3) el tiempo de procesamiento por dato para producir una respuesta debe ser bajo. Aunque existen dos modelos para el cómputo de respuestas continuas, el modelo evolutivo y el de ventana deslizante; éste segundo se ajusta mejor en ciertas aplicaciones al considerar únicamente los datos recibidos más recientemente, en lugar de todo el histórico de datos. En los últimos años, la minería de datos en streaming se ha centrado en el modelo evolutivo. Mientras que, en el modelo de ventana deslizante, el trabajo presentado es más reducido ya que estos algoritmos no sólo deben de ser incrementales si no que deben borrar la información que caduca por el deslizamiento de la ventana manteniendo los anteriores tres desafíos. Una de las tareas fundamentales en minería de datos es la búsqueda de agrupaciones donde, dado un conjunto de datos, el objetivo es encontrar grupos representativos, de manera que se tenga una descripción sintética del conjunto. Estas agrupaciones son fundamentales en aplicaciones como la detección de intrusos en la red o la segmentación de clientes en el marketing y la publicidad. Debido a las cantidades masivas de datos que deben procesarse en este tipo de aplicaciones (millones de eventos por segundo), las soluciones centralizadas puede ser incapaz de hacer frente a las restricciones de tiempo de procesamiento, por lo que deben recurrir a descartar datos durante los picos de carga. Para evitar esta perdida de datos, se impone el procesamiento distribuido de streams, en concreto, los algoritmos de agrupamiento deben ser adaptados para este tipo de entornos, en los que los datos están distribuidos. En streaming, la investigación no solo se centra en el diseño para tareas generales, como la agrupación, sino también en la búsqueda de nuevos enfoques que se adapten mejor a escenarios particulares. Como ejemplo, un mecanismo de agrupación ad-hoc resulta ser más adecuado para la defensa contra la denegación de servicio distribuida (Distributed Denial of Services, DDoS) que el problema tradicional de k-medias. En esta tesis se pretende contribuir en el problema agrupamiento en streaming tanto en entornos centralizados y distribuidos. Hemos diseñado un algoritmo centralizado de clustering mostrando las capacidades para descubrir agrupaciones de alta calidad en bajo tiempo frente a otras soluciones del estado del arte, en una amplia evaluación. Además, se ha trabajado sobre una estructura que reduce notablemente el espacio de memoria necesario, controlando, en todo momento, el error de los cómputos. Nuestro trabajo también proporciona dos protocolos de distribución del cómputo de agrupaciones. Se han analizado dos características fundamentales: el impacto sobre la calidad del clustering al realizar el cómputo distribuido y las condiciones necesarias para la reducción del tiempo de procesamiento frente a la solución centralizada. Finalmente, hemos desarrollado un entorno para la detección de ataques DDoS basado en agrupaciones. En este último caso, se ha caracterizado el tipo de ataques detectados y se ha desarrollado una evaluación sobre la eficiencia y eficacia de la mitigación del impacto del ataque. ABSTRACT Advances in hardware allow to collect huge volumes of data emerging applications that must provide information in near-real time, e.g., patient monitoring, health monitoring of water pipes, etc. The data streaming model emerges to comply with these applications overcoming the traditional store-then-process model. With the store-then-process model, data is stored before being consulted; while, in streaming, data are processed on the fly producing continuous responses. The challenges of streaming for processing data on the fly are the following: 1) responses must be produced continuously whenever new data arrives in the system; 2) data is accessed only once and is generally not maintained in its entirety, and 3) data processing time to produce a response should be low. Two models exist to compute continuous responses: the evolving model and the sliding window model; the latter fits best with applications must be computed over the most recently data rather than all the previous data. In recent years, research in the context of data stream mining has focused mainly on the evolving model. In the sliding window model, the work presented is smaller since these algorithms must be incremental and they must delete the information which expires when the window slides. Clustering is one of the fundamental techniques of data mining and is used to analyze data sets in order to find representative groups that provide a concise description of the data being processed. Clustering is critical in applications such as network intrusion detection or customer segmentation in marketing and advertising. Due to the huge amount of data that must be processed by such applications (up to millions of events per second), centralized solutions are usually unable to cope with timing restrictions and recur to shedding techniques where data is discarded during load peaks. To avoid discarding of data, processing of streams (such as clustering) must be distributed and adapted to environments where information is distributed. In streaming, research does not only focus on designing for general tasks, such as clustering, but also in finding new approaches that fit bests with particular scenarios. As an example, an ad-hoc grouping mechanism turns out to be more adequate than k-means for defense against Distributed Denial of Service (DDoS). This thesis contributes to the data stream mining clustering technique both for centralized and distributed environments. We present a centralized clustering algorithm showing capabilities to discover clusters of high quality in low time and we provide a comparison with existing state of the art solutions. We have worked on a data structure that significantly reduces memory requirements while controlling the error of the clusters statistics. We also provide two distributed clustering protocols. We focus on the analysis of two key features: the impact on the clustering quality when computation is distributed and the requirements for reducing the processing time compared to the centralized solution. Finally, with respect to ad-hoc grouping techniques, we have developed a DDoS detection framework based on clustering.We have characterized the attacks detected and we have evaluated the efficiency and effectiveness of mitigating the attack impact.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Aunque imperfectos, los topónimos se consideran desde siempre los identificadores geográficos más extendidos entre los usuarios para acceder al conjunto de datos fundamental de las IDE de los países. Su función esencial en la lectura e interpretación de la información de las IDE no debe eclipsar otras valiosas misiones que cumplen, que deben ser tenidas en cuenta a la hora de incorporarse a los catálogos básicos de información geográfica. En un trabajo anterior presentado con motivo de las JIIDE de 2012, los autores abordaron, en un primer nivel, el reconocimiento del papel de la toponimia en el marco de las IDE para la delimitación de las áreas de referencia de las entidades geográficas no definidas administrativamente. Se propuso, en este sentido, avanzar en la definición de las áreas de referencia de los topónimos a partir de la relación entre topónimos e imaginarios de los ciudadanos. Las diferentes concepciones de las áreas y elementos que designan los distintos nombres geográficos permiten diferenciar entre áreas de referencia segura de los topónimos, áreas de referencia difusa y áreas de ambigüedad, lo que facilita la optimización del valor de las IDE como herramientas de una complejidad rica y precisa. En este nuevo trabajo se aspira a poner de manifiesto que no solo hay que profundizar en el análisis del valor referencial espacial de la toponimia, sino también en su propio valor como herramienta discursiva. Se aspira a poner de manifiesto la importancia que puede llegar a tener el tratamiento que se da a los topónimos en una IDE, dado, por un lado, el valor patrimonial inmaterial de los nombres geográficos y, por otro lado, su capacidad de afectar al discurso por las connotaciones que adquiere como signo y símbolo al referirse a una entidad geográfica. Así, en el presente documento se abordará, en primer lugar, los motivos que hacen necesario extremar precauciones en el uso de las denominaciones toponímicas y, en segundo lugar, cómo se estima que deberían resolverse los problemas que pueden surgir a este respecto en el caso de las Infraestructuras de Datos Espaciales.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

El trabajo fin de grado que se presenta en este documento trata de “Aplicar técnicas de Data Mining a un conjunto de datos procedentes de ataques de virus informáticos interceptados en servidores de Internet”. La propuesta de este trabajo surgió de una Institución con el fin de extraer información de un conjunto de datos proveniente de ejecuciones de virus informáticos. Lamentablemente, debido a fuertes restricciones de privacidad por parte de esta Institución y así como al relevo de la persona responsable de éste área en dicha Institución, el Proyecto finalmente se canceló. Como consecuencia, y teniendo en cuenta el carácter didáctico de este trabajo fin de grado, el proyecto KDD (Knowledge Discovery in Databases) en sí y sus objetivos de negocio y objetivos de data mining, se han establecido conforme con la misma temática de predicción de ataques de virus que había planteado la Institución en el pasado, contando con una base de datos que ha sido recopilada de diferentes empresas anónimas. Para llevar un desarrollo estructurado de todas las fases del proceso KDD, se ha trabajado siguiendo como referencia una metodología para proyectos de Data Mining, “CRISP-DM”, cuyo estándar incluye un modelo y una guía, estructurados en seis fases. Como herramienta de Data Mining a utilizar, se ha elegido el software de libre distribución “WEKA”. Por último, cabe destacar que el proyecto ha concluido satisfactoriamente, lográndose cada una de las metas establecidas como proyecto de minería de datos.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Los modelos de termomecánica glaciar están definidos mediante sistemas de ecuaciones en derivadas parciales que establecen los principios básicos de conservación de masa, momento lineal y energía, acompañados por una ley constitutiva que define la relación entre las tensiones a las que está sometido el hielo glaciar y las deformaciones resultantes de las mismas. La resolución de estas ecuaciones requiere la definición precisa del dominio (la geometría del glaciar, obtenido a partir de medidas topográficas y de georradar), así como contar con un conjunto de condiciones de contorno, que se obtienen a partir de medidas de campo de las variables implicadas y que constituyen un conjunto de datos geoespaciales. El objetivo fundamental de esta tesis es desarrollar una serie de herramientas que nos permitan definir con precisión la geometría del glaciar y disponer de un conjunto adecuado de valores de las variables a utilizar como condiciones de contorno del problema. Para ello, en esta tesis se aborda la recopilación, la integración y el estudio de los datos geoespaciales existentes para la Península Hurd, en la Isla Livingston (Antártida), generados desde el año 1957 hasta la actualidad, en un sistema de información geográfica. Del correcto tratamiento y procesamiento de estos datos se obtienen otra serie de elementos que nos permiten realizar la simulación numérica del régimen termomecánico presente de los glaciares de Península Hurd, así como su evolución futura. Con este objetivo se desarrolla en primer lugar un inventario completo de datos geoespaciales y se realiza un procesado de los datos capturados en campo, para establecer un sistema de referencia común a todos ellos. Se unifican además todos los datos bajo un mismo formato estándar de almacenamiento e intercambio de información, generándose los metadatos correspondientes. Se desarrollan asimismo técnicas para la mejora de los procedimientos de captura y procesado de los datos, de forma que se minimicen los errores y se disponga de estimaciones fiables de los mismos. El hecho de que toda la información se integre en un sistema de información geográfica (una vez producida la normalización e inventariado de la misma) permite su consulta rápida y ágil por terceros. Además, hace posible efectuar sobre ella una serie de operaciones conducentes a la obtención de nuevas capas de información. El análisis de estos nuevos datos permite explicar el comportamiento pasado de los glaciares objeto de estudio y proporciona elementos esenciales para la simulación de su comportamiento futuro. ABSTRACT Glacier thermo-mechanical models are defined by systems of partial differential equations stating the basic principles of conservation of mass, momentum and energy, accompanied by a constitutive principle that defines the relationship between the stresses acting on the ice and the resulting deformations. The solution of these equations requires an accurate definition of the model domain (the geometry of the glacier, obtained from topographical and ground penetrating radar measurements), as well as a set of boundary conditions, which are obtained from measurements of the variables involved and define a set of geospatial data. The main objective of this thesis is to develop tools able to provide an accurate definition of the glacier geometry and getting a proper set of values for the variables to be used as boundary conditions of our problem. With the above aim, this thesis focuses on the collection, compilation and study of the geospatial data existing for the Hurd Peninsula on Livingston Island, Antarctica, generated since 1957 to present, into a geographic information system. The correct handling and processing of these data results on a new collection of elements that allow us to numerically model the present state and the future evolution of Hurd Peninsula glaciers. First, a complete inventory of geospatial data is developed and the captured data are processed, with the aim of establishing a reference system common to all collections of data. All data are stored under a common standard format, and the corresponding metadata are generated to facilitate the information exchange. We also develop techniques for the improvement of the procedures used for capturing and processing the data, such that the errors are minimized and better estimated. All information is integrated into a geographic information system (once produced the standardization and inventory of it). This allows easy and fast viewing and consulting of the data by third parties. Also, it is possible to carry out a series of operations leading to the production of new layers of information. The analysis of these new data allows to explain past glacier behavior, and provides essential elements for explaining its future evolution.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

En la actualidad, muchos gobiernos están publicando (o tienen la intención de publicar en breve) miles de conjuntos de datos para que personas y organizaciones los puedan utilizar. Como consecuencia, la cantidad de aplicaciones basadas en Open Data está incrementándose. Sin embargo cada gobierno tiene sus propios procedimientos para publicar sus datos, y esto causa una variedad de formatos dado que no existe un estándar internacional para especificar los formatos de estos datos. El objetivo principal de este trabajo es un análisis comparativo de datos ambientales en bases de datos abiertas (Open Data) pertenecientes a distintos gobiernos. Debido a esta variedad de formatos, debemos construir un proceso de integración de datos que sea capaz de unir todos los tipos de formatos. El trabajo implica un pre-procesado, limpieza e integración de las diferentes fuentes de datos. Existen muchas aplicaciones desarrolladas para dar soporte en el proceso de integración por ejemplo Data Tamer, Data Wrangler como se explica en este documento. El problema con estas aplicaciones es que necesitan la interacción del usuario como parte fundamental del proceso de integración. En este trabajo tratamos de evitar la supervisión humana aprovechando las similitudes de los datasets procedentes de igual área que en nuestro caso se aplica al área de medioambiente. De esta forma los procesos pueden ser automatizados con una programación adecuada. Para conseguirlo, la idea principal de este trabajo es construir procesos ad hoc adaptados a las fuentes de cada gobierno para conseguir una integración automática. Concretamente este trabajo se enfoca en datos ambientales como lo son la temperatura, consumo de energía, calidad de aire, radiación solar, velocidad del viento, etc. Desde hace dos años el gobierno de Madrid está publicando sus datos relativos a indicadores ambientales en tiempo real. Del mismo modo, otros gobiernos han publicado conjuntos de datos Open Data relativos al medio ambiente (como Andalucía o Bilbao), pero todos estos datos tienen diferentes formatos. En este trabajo se presenta una solución capaz de integrar todas ellos que además permite al usuario visualizar y hacer análisis sobre los datos en tiempo real. Una vez que el proceso de integración está realizado, todos los datos de cada gobierno poseen el mismo formato y se pueden lanzar procesos de análisis de una manera más computacional. Este trabajo tiene tres partes fundamentales: 1. Estudio de los entornos Open Data y la literatura al respecto; 2. Desarrollo de un proceso de integración y 3. Desarrollo de una Interface Gráfica y Analítica. Aunque en una primera fase se implementaron los procesos de integración mediante Java y Oracle y la Interface Gráfica con Java (jsp), en una fase posterior se realizó toda la implementación con lenguaje R y la interface gráfica mediante sus librerías, principalmente con Shiny. El resultado es una aplicación que provee de un conjunto de Datos Ambientales Integrados en Tiempo Real respecto a dos gobiernos muy diferentes en España, disponible para cualquier desarrollador que desee construir sus propias aplicaciones.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

El análisis de datos actual se enfrenta a problemas derivados de la combinación de datos procedentes de diversas fuentes de información. El valor de la información puede enriquecerse enormemente facilitando la integración de nuevas fuentes de datos y la industria es muy consciente de ello en la actualidad. Sin embargo, no solo el volumen sino también la gran diversidad de los datos constituye un problema previo al análisis. Una buena integración de los datos garantiza unos resultados fiables y por ello merece la pena detenerse en la mejora de procesos de especificación, recolección, limpieza e integración de los datos. Este trabajo está dedicado a la fase de limpieza e integración de datos analizando los procedimientos existentes y proponiendo una solución que se aplica a datos médicos, centrándose así en los proyectos de predicción (con finalidad de prevención) en ciencias de la salud. Además de la implementación de los procesos de limpieza, se desarrollan algoritmos de detección de outliers que permiten mejorar la calidad del conjunto de datos tras su eliminación. El trabajo también incluye la implementación de un proceso de predicción que sirva de ayuda a la toma de decisiones. Concretamente este trabajo realiza un análisis predictivo de los datos de pacientes drogodependientes de la Clínica Nuestra Señora de la Paz, con la finalidad de poder brindar un apoyo en la toma de decisiones del médico a cargo de admitir el internamiento de pacientes en dicha clínica. En la mayoría de los casos el estudio de los datos facilitados requiere un pre-procesado adecuado para que los resultados de los análisis estadísticos tradicionales sean fiables. En tal sentido en este trabajo se implementan varias formas de detectar los outliers: un algoritmo propio (Detección de Outliers con Cadenas No Monótonas), que utiliza las ventajas del algoritmo Knuth-Morris-Pratt para reconocimiento de patrones, y las librerías outliers y Rcmdr de R. La aplicación de procedimientos de cleaning e integración de datos, así como de eliminación de datos atípicos proporciona una base de datos limpia y fiable sobre la que se implementarán procedimientos de predicción de los datos con el algoritmo de clasificación Naive Bayes en R.