1000 resultados para Técnicas de predicción estadística
Resumo:
El estudio de materiales, especialmente biológicos, por medios no destructivos está adquiriendo una importancia creciente tanto en las aplicaciones científicas como industriales. Las ventajas económicas de los métodos no destructivos son múltiples. Existen numerosos procedimientos físicos capaces de extraer información detallada de las superficie de la madera con escaso o nulo tratamiento previo y mínima intrusión en el material. Entre los diversos métodos destacan las técnicas ópticas y las acústicas por su gran versatilidad, relativa sencillez y bajo coste. Esta tesis pretende establecer desde la aplicación de principios simples de física, de medición directa y superficial, a través del desarrollo de los algoritmos de decisión mas adecuados basados en la estadística, unas soluciones tecnológicas simples y en esencia, de coste mínimo, para su posible aplicación en la determinación de la especie y los defectos superficiales de la madera de cada muestra tratando, en la medida de lo posible, no alterar su geometría de trabajo. Los análisis desarrollados han sido los tres siguientes: El primer método óptico utiliza las propiedades de la luz dispersada por la superficie de la madera cuando es iluminada por un laser difuso. Esta dispersión produce un moteado luminoso (speckle) cuyas propiedades estadísticas permiten extraer propiedades muy precisas de la estructura tanto microscópica como macroscópica de la madera. El análisis de las propiedades espectrales de la luz laser dispersada genera ciertos patrones mas o menos regulares relacionados con la estructura anatómica, composición, procesado y textura superficial de la madera bajo estudio que ponen de manifiesto características del material o de la calidad de los procesos a los que ha sido sometido. El uso de este tipo de láseres implica también la posibilidad de realizar monitorizaciones de procesos industriales en tiempo real y a distancia sin interferir con otros sensores. La segunda técnica óptica que emplearemos hace uso del estudio estadístico y matemático de las propiedades de las imágenes digitales obtenidas de la superficie de la madera a través de un sistema de scanner de alta resolución. Después de aislar los detalles mas relevantes de las imágenes, diversos algoritmos de clasificacion automatica se encargan de generar bases de datos con las diversas especies de maderas a las que pertenecían las imágenes, junto con los márgenes de error de tales clasificaciones. Una parte fundamental de las herramientas de clasificacion se basa en el estudio preciso de las bandas de color de las diversas maderas. Finalmente, numerosas técnicas acústicas, tales como el análisis de pulsos por impacto acústico, permiten complementar y afinar los resultados obtenidos con los métodos ópticos descritos, identificando estructuras superficiales y profundas en la madera así como patologías o deformaciones, aspectos de especial utilidad en usos de la madera en estructuras. La utilidad de estas técnicas esta mas que demostrada en el campo industrial aun cuando su aplicación carece de la suficiente expansión debido a sus altos costes y falta de normalización de los procesos, lo cual hace que cada análisis no sea comparable con su teórico equivalente de mercado. En la actualidad gran parte de los esfuerzos de investigación tienden a dar por supuesto que la diferenciación entre especies es un mecanismo de reconocimiento propio del ser humano y concentran las tecnologías en la definición de parámetros físicos (módulos de elasticidad, conductividad eléctrica o acústica, etc.), utilizando aparatos muy costosos y en muchos casos complejos en su aplicación de campo. Abstract The study of materials, especially the biological ones, by non-destructive techniques is becoming increasingly important in both scientific and industrial applications. The economic advantages of non-destructive methods are multiple and clear due to the related costs and resources necessaries. There are many physical processes capable of extracting detailed information on the wood surface with little or no previous treatment and minimal intrusion into the material. Among the various methods stand out acoustic and optical techniques for their great versatility, relative simplicity and low cost. This thesis aims to establish from the application of simple principles of physics, surface direct measurement and through the development of the more appropriate decision algorithms based on statistics, a simple technological solutions with the minimum cost for possible application in determining the species and the wood surface defects of each sample. Looking for a reasonable accuracy without altering their work-location or properties is the main objetive. There are three different work lines: Empirical characterization of wood surfaces by means of iterative autocorrelation of laser speckle patterns: A simple and inexpensive method for the qualitative characterization of wood surfaces is presented. it is based on the iterative autocorrelation of laser speckle patterns produced by diffuse laser illumination of the wood surfaces. The method exploits the high spatial frequency content of speckle images. A similar approach with raw conventional photographs taken with ordinary light would be very difficult. A few iterations of the algorithm are necessary, typically three or four, in order to visualize the most important periodic features of the surface. The processed patterns help in the study of surface parameters, to design new scattering models and to classify the wood species. Fractal-based image enhancement techniques inspired by differential interference contrast microscopy: Differential interference contrast microscopy is a very powerful optical technique for microscopic imaging. Inspired by the physics of this type of microscope, we have developed a series of image processing algorithms aimed at the magnification, noise reduction, contrast enhancement and tissue analysis of biological samples. These algorithms use fractal convolution schemes which provide fast and accurate results with a performance comparable to the best present image enhancement algorithms. These techniques can be used as post processing tools for advanced microscopy or as a means to improve the performance of less expensive visualization instruments. Several examples of the use of these algorithms to visualize microscopic images of raw pine wood samples with a simple desktop scanner are provided. Wood species identification using stress-wave analysis in the audible range: Stress-wave analysis is a powerful and flexible technique to study mechanical properties of many materials. We present a simple technique to obtain information about the species of wood samples using stress-wave sounds in the audible range generated by collision with a small pendulum. Stress-wave analysis has been used for flaw detection and quality control for decades, but its use for material identification and classification is less cited in the literature. Accurate wood species identification is a time consuming task for highly trained human experts. For this reason, the development of cost effective techniques for automatic wood classification is a desirable goal. Our proposed approach is fully non-invasive and non-destructive, reducing significantly the cost and complexity of the identification and classification process.
Resumo:
Esta tesis se centra en el estudio de medios granulares blandos y atascados mediante la aplicación de la física estadística. Esta aproximación se sitúa entre los tradicionales enfoques macro y micromecánicos: trata de establecer cuáles son las propiedades macroscópicas esperables de un sistema granular en base a un análisis de las propiedades de las partículas y las interacciones que se producen entre ellas y a una consideración de las restricciones macroscópicas del sistema. Para ello se utiliza la teoría estadística junto con algunos principios, conceptos y definiciones de la teoría de los medios continuos (campo de tensiones y deformaciones, energía potencial elástica, etc) y algunas técnicas de homogeneización. La interacción entre las partículas es analizada mediante las aportaciones de la teoría del contacto y de las fuerzas capilares (producidas por eventuales meniscos de líquido cuando el medio está húmedo). La idea básica de la mecánica estadística es que entre todas soluciones de un problema físico (como puede ser el ensamblaje en equilibrio estático de partículas de un medio granular) existe un conjunto que es compatible con el conocimiento macroscópico que tenemos del sistema (por ejemplo, su volumen, la tensión a la que está sometido, la energía potencial elástica que almacena, etc.). Este conjunto todavía contiene un número enorme de soluciones. Pues bien, si no hay ninguna información adicional es razonable pensar que no existe ningún motivo para que alguna de estas soluciones sea más probable que las demás. Entonces parece natural asignarles a todas ellas el mismo peso estadístico y construir una función matemática compatible. Actuando de este modo se obtiene cuál es la función de distribución más probable de algunas cantidades asociadas a las soluciones, para lo cual es muy importante asegurarse de que todas ellas son igualmente accesibles por el procedimiento de ensamblaje o protocolo. Este enfoque se desarrolló en sus orígenes para el estudio de los gases ideales pero se puede extender para sistemas no térmicos como los analizados en esta tesis. En este sentido el primer intento se produjo hace poco más de veinte años y es la colectividad de volumen. Desde entonces esta ha sido empleada y mejorada por muchos investigadores en todo el mundo, mientras que han surgido otras, como la de la energía o la del fuerza-momento (tensión multiplicada por volumen). Cada colectividad describe, en definitiva, conjuntos de soluciones caracterizados por diferentes restricciones macroscópicas, pero de todos ellos resultan distribuciones estadísticas de tipo Maxwell-Boltzmann y controladas por dichas restricciones. En base a estos trabajos previos, en esta tesis se ha adaptado el enfoque clásico de la física estadística para el caso de medios granulares blandos. Se ha propuesto un marco general para estudiar estas colectividades que se basa en la comparación de todas las posibles soluciones en un espacio matemático definido por las componentes del fuerza-momento y en unas funciones de densidad de estados. Este desarrollo teórico se complementa con resultados obtenidos mediante simulación de la compresión cíclica de sistemas granulares bidimensionales. Se utilizó para ello un método de dinámica molecular, MD (o DEM). Las simulaciones consideran una interacción mecánica elástica, lineal y amortiguada a la que se ha añadido, en algunos casos, la fuerza cohesiva producida por meniscos de agua. Se realizaron cálculos en serie y en paralelo. Los resultados no solo prueban que las funciones de distribución de las componentes de fuerza-momento del sistema sometido a un protocolo específico parecen ser universales, sino que también revelan que existen muchos aspectos computacionales que pueden determinar cuáles son las soluciones accesibles. This thesis focuses on the application of statistical mechanics for the study of static and jammed packings of soft granular media. Such approach lies between micro and macromechanics: it tries to establish what the expected macroscopic properties of a granular system are, by starting from a micromechanical analysis of the features of the particles, and the interactions between them, and by considering the macroscopic constraints of the system. To do that, statistics together with some principles, concepts and definitions of continuum mechanics (e.g. stress and strain fields, elastic potential energy, etc.) as well as some homogenization techniques are used. The interaction between the particles of a granular system is examined too and theories on contact and capillary forces (when the media are wet) are revisited. The basic idea of statistical mechanics is that among the solutions of a physical problem (e.g. the static arrangement of particles in mechanical equilibrium) there is a class that is compatible with our macroscopic knowledge of the system (volume, stress, elastic potential energy,...). This class still contains an enormous number of solutions. In the absence of further information there is not any a priori reason for favoring one of these more than any other. Hence we shall naturally construct the equilibrium function by assigning equal statistical weights to all the functions compatible with our requirements. This procedure leads to the most probable statistical distribution of some quantities, but it is necessary to guarantee that all the solutions are likely accessed. This approach was originally set up for the study of ideal gases, but it can be extended to non-thermal systems too. In this connection, the first attempt for granular systems was the volume ensemble, developed about 20 years ago. Since then, this model has been followed and improved upon by many researchers around the world, while other two approaches have also been set up: energy and force-moment (i.e. stress multiplied by volume) ensembles. Each ensemble is described by different macroscopic constraints but all of them result on a Maxwell-Boltzmann statistical distribution, which is precisely controlled by the respective constraints. According to this previous work, in this thesis the classical statistical mechanics approach is introduced and adapted to the case of soft granular media. A general framework, which includes these three ensembles and uses a force-moment phase space and a density of states function, is proposed. This theoretical development is complemented by molecular dynamics (or DEM) simulations of the cyclic compression of 2D granular systems. Simulations were carried out by considering spring-dashpot mechanical interactions and attractive capillary forces in some cases. They were run on single and parallel processors. Results not only prove that the statistical distributions of the force-moment components obtained with a specific protocol seem to be universal, but also that there are many computational issues that can determine what the attained packings or solutions are.
Resumo:
El proyecto geotécnico de columnas de grava tiene todas las incertidumbres asociadas a un proyecto geotécnico y además hay que considerar las incertidumbres inherentes a la compleja interacción entre el terreno y la columna, la puesta en obra de los materiales y el producto final conseguido. Este hecho es común a otros tratamientos del terreno cuyo objetivo sea, en general, la mejora “profunda”. Como los métodos de fiabilidad (v.gr., FORM, SORM, Monte Carlo, Simulación Direccional) dan respuesta a la incertidumbre de forma mucho más consistente y racional que el coeficiente de seguridad tradicional, ha surgido un interés reciente en la aplicación de técnicas de fiabilidad a la ingeniería geotécnica. Si bien la aplicación concreta al proyecto de técnicas de mejora del terreno no es tan extensa. En esta Tesis se han aplicado las técnicas de fiabilidad a algunos aspectos del proyecto de columnas de grava (estimación de asientos, tiempos de consolidación y aumento de la capacidad portante) con el objetivo de efectuar un análisis racional del proceso de diseño, considerando los efectos que tienen la incertidumbre y la variabilidad en la seguridad del proyecto, es decir, en la probabilidad de fallo. Para alcanzar este objetivo se ha utilizado un método analítico avanzado debido a Castro y Sagaseta (2009), que mejora notablemente la predicción de las variables involucradas en el diseño del tratamiento y su evolución temporal (consolidación). Se ha estudiado el problema del asiento (valor y tiempo de consolidación) en el contexto de la incertidumbre, analizando dos modos de fallo: i) el primer modo representa la situación en la que es posible finalizar la consolidación primaria, parcial o totalmente, del terreno mejorado antes de la ejecución de la estructura final, bien sea por un precarga o porque la carga se pueda aplicar gradualmente sin afectar a la estructura o instalación; y ii) por otra parte, el segundo modo de fallo implica que el terreno mejorado se carga desde el instante inicial con la estructura definitiva o instalación y se comprueba que el asiento final (transcurrida la consolidación primaria) sea lo suficientemente pequeño para que pueda considerarse admisible. Para trabajar con valores realistas de los parámetros geotécnicos, los datos se han obtenido de un terreno real mejorado con columnas de grava, consiguiendo, de esta forma, un análisis de fiabilidad más riguroso. La conclusión más importante, obtenida del análisis de este caso particular, es la necesidad de precargar el terreno mejorado con columnas de grava para conseguir que el asiento ocurra de forma anticipada antes de la aplicación de la carga correspondiente a la estructura definitiva. De otra forma la probabilidad de fallo es muy alta, incluso cuando el margen de seguridad determinista pudiera ser suficiente. En lo que respecta a la capacidad portante de las columnas, existen un buen número de métodos de cálculo y de ensayos de carga (tanto de campo como de laboratorio) que dan predicciones dispares del valor de la capacidad última de las columnas de grava. En las mallas indefinidas de columnas, los resultados del análisis de fiabilidad han confirmado las consideraciones teóricas y experimentales existentes relativas a que no se produce fallo por estabilidad, obteniéndose una probabilidad de fallo prácticamente nula para este modo de fallo. Sin embargo, cuando se analiza, en el contexto de la incertidumbre, la capacidad portante de pequeños grupos de columnas bajo zapatas se ha obtenido, para un caso con unos parámetros geotécnicos típicos, que la probabilidad de fallo es bastante alta, por encima de los umbrales normalmente admitidos para Estados Límite Últimos. Por último, el trabajo de recopilación sobre los métodos de cálculo y de ensayos de carga sobre la columna aislada ha permitido generar una base de datos suficientemente amplia como para abordar una actualización bayesiana de los métodos de cálculo de la columna de grava aislada. El marco bayesiano de actualización ha resultado de utilidad en la mejora de las predicciones de la capacidad última de carga de la columna, permitiendo “actualizar” los parámetros del modelo de cálculo a medida que se dispongan de ensayos de carga adicionales para un proyecto específico. Constituye una herramienta valiosa para la toma de decisiones en condiciones de incertidumbre ya que permite comparar el coste de los ensayos adicionales con el coste de una posible rotura y , en consecuencia, decidir si es procedente efectuar dichos ensayos. The geotechnical design of stone columns has all the uncertainties associated with a geotechnical project and those inherent to the complex interaction between the soil and the column, the installation of the materials and the characteristics of the final (as built) column must be considered. This is common to other soil treatments aimed, in general, to “deep” soil improvement. Since reliability methods (eg, FORM, SORM, Monte Carlo, Directional Simulation) deals with uncertainty in a much more consistent and rational way than the traditional safety factor, recent interest has arisen in the application of reliability techniques to geotechnical engineering. But the specific application of these techniques to soil improvement projects is not as extensive. In this thesis reliability techniques have been applied to some aspects of stone columns design (estimated settlements, consolidation times and increased bearing capacity) to make a rational analysis of the design process, considering the effects of uncertainty and variability on the safety of the project, i.e., on the probability of failure. To achieve this goal an advanced analytical method due to Castro and Sagaseta (2009), that significantly improves the prediction of the variables involved in the design of treatment and its temporal evolution (consolidation), has been employed. This thesis studies the problem of stone column settlement (amount and speed) in the context of uncertainty, analyzing two failure modes: i) the first mode represents the situation in which it is possible to cause primary consolidation, partial or total, of the improved ground prior to implementation of the final structure, either by a pre-load or because the load can be applied gradually or programmed without affecting the structure or installation; and ii) on the other hand, the second mode implies that the improved ground is loaded from the initial instant with the final structure or installation, expecting that the final settlement (elapsed primary consolidation) is small enough to be allowable. To work with realistic values of geotechnical parameters, data were obtained from a real soil improved with stone columns, hence producing a more rigorous reliability analysis. The most important conclusion obtained from the analysis of this particular case is the need to preload the stone columns-improved soil to make the settlement to occur before the application of the load corresponding to the final structure. Otherwise the probability of failure is very high, even when the deterministic safety margin would be sufficient. With respect to the bearing capacity of the columns, there are numerous methods of calculation and load tests (both for the field and the laboratory) giving different predictions of the ultimate capacity of stone columns. For indefinite columns grids, the results of reliability analysis confirmed the existing theoretical and experimental considerations that no failure occurs due to the stability failure mode, therefore resulting in a negligible probability of failure. However, when analyzed in the context of uncertainty (for a case with typical geotechnical parameters), results show that the probability of failure due to the bearing capacity failure mode of a group of columns is quite high, above thresholds usually admitted for Ultimate Limit States. Finally, the review of calculation methods and load tests results for isolated columns, has generated a large enough database, that allowed a subsequent Bayesian updating of the methods for calculating the bearing capacity of isolated stone columns. The Bayesian updating framework has been useful to improve the predictions of the ultimate load capacity of the column, allowing to "update" the parameters of the calculation model as additional load tests become available for a specific project. Moreover, it is a valuable tool for decision making under uncertainty since it is possible to compare the cost of further testing to the cost of a possible failure and therefore to decide whether it is appropriate to perform such tests.
Resumo:
El remonte extremo o remonte del 2% es un parámetro clave en la ingeniería costera dado que permite acometer actuaciones en las playas bajo criterios de sostenibilidad económico y socioambiental. Estas actuaciones van desde el diseño de estructuras en el trasdós de la playa a planes de actuación urbanística en la costa tal que se determine adecuadamente los límites de dominio público. El adecuado diseño de estas actuaciones adquiere más relevancia hoy en día debido a las nuevas amenazas que se ponen de relieve debido al cambio climático, y que en el caso concreto de la costa se materializa en inundaciones que provocan pérdidas económicas. Estudios precedentes han realizado ensayos in situ o en modelo físico para la determinación del remonte extremo en playas. Al comparar estas formulaciones la dispersión es alta lo que implica que la precisión en la obtención del remonte no sea suficiente. Esta dispersión se justifica debido al amplio espectro de playas existentes y la alta variabilidad del clima marítimo. Este problema cobra más relevancia debido a las actuaciones preventivas o correctivas a acometer frente al cambio climático bajo un criterio de sostenibilidad. Con el fin de realizar actuaciones sostenibles bajo el contexto actual del probable aumento de inundaciones costeras por cambio climático no deben obtenerse ni magnitudes sobredimensionadas con el consecuente consumo de recursos y afección a las actividades económicas, ni magnitudes subestimadas que pongan en riesgo la estabilidad y/o la funcionalidad de las actuaciones para un periodo de diseño. El principal objetivo de esta tesis es proponer una formulación de aplicación en la obtención del remonte extremo tal que se cumplan los criterios de seguridad para el servicio y funcionalidad de la obra y los criterios de sostenibilidad económico y socio-ambiental que se requieren hoy en día. Es decir, una fórmula que no sobredimensione el cálculo de este valor pero que pueda cubrir la casuística que acontece en las distintas tipologías de playas. Complementariamente a este objetivo se ejemplifica la aplicación de estas formulaciones en casos reales tal que se reduzca la incertidumbre y ambigüedad en la obtención de las variables independientes de las formulaciones. Para la consecución de estos objetivos se realiza un estado del arte en el que se estudia tanto los estudios estadísticos en la obtención de este parámetro como los modelos numéricos propuestos para ello, tal que se deduzca la mejor línea de investigación en la consecución del fin de esta tesis. Tras este estudio del arte se concluye que la mejor línea de investigación sigue la vía estadística y se diseña un modelo físico con fondo de arena en contraste con modelos físicos con fondo impermeable fijo. Los resultados de dicho modelo se han comparado con las formulaciones precedentes y se proponen las fórmulas de aplicación más convenientes para la obtención del remonte extremo. Complementariamente a la propuesta de formulaciones se desarrolla una metodología de aplicación de dichas formulaciones a casos de la costa española que ejemplifican convenientemente su uso para una adecuada predicción de este valor en las playas. The extreme runup is a key parameter in coastal management. This parameter allows to develop sustainability actions at the coast that meet economical and environmental criteria. At the coast the actions can be either design of structures at the shore or actions plans delimiting reclamation areas. The climate change has given more relevance to accomplish an appropriate design for the coastal management actions. At the coast the threaten are mainly focused on more frequent floods that cause economic losses. Previous studies have carried out field or physical model experiments to accomplish an equation for the extreme runup prediction. Although dispersion remains high when comparing the different proposals so the accuracy in the prediction might be risky. This scattering comes from the wide sort of beaches and the high variability of the maritime climate. The new actions that are needed to develop to counteract the effects of the climate change need a more efficient criteria. Hence formulations should not overestimate or underestimate the values of the extreme runup. The overestimation implies to consume resources that are not needed and the underestimation means in a structure risk to support safely the loads. The main goal of this thesis is to propose a formulation for the extreme runup prediction so the safety of the structure can be accomplished but at the same time the sustainability of the action is ensured under economical and environmental criteria that are demanded nowadays. So the formulation does not overestimate the extreme value but cover with enough confidence the different sort of beaches. The application of the formulation is also explained in order to reduce uncertainty when the input values are obtained. In order to accomplish the goal of this research firstly a literature review is done. Statistical and numerical models are studied. The statistical model is selected as the most convenient research guideline. In order to obtain runup results a physical model with sand bed is carried out. The bed differs from those that used impermeable slope in previous experiments. Once the results are obtained they are compared with the previous equations and a final formulation is proposed. Finally a methodology to apply the deduced formulation to the Spanish beaches is addressed.
Resumo:
El enriquecimiento del conocimiento sobre la Irradiancia Solar (IS) a nivel de superficie terrestre, así como su predicción, cobran gran interés para las Energías Renovables (ER) - Energía Solar (ES)-, y para distintas aplicaciones industriales o ecológicas. En el ámbito de las ER, el uso óptimo de la ES implica contar con datos de la IS en superficie que ayuden tanto, en la selección de emplazamientos para instalaciones de ES, como en su etapa de diseño (dimensionar la producción) y, finalmente, en su explotación. En este último caso, la observación y la predicción es útil para el mercado energético, la planificación y gestión de la energía (generadoras y operadoras del sistema eléctrico), especialmente en los nuevos contextos de las redes inteligentes de transporte. A pesar de la importancia estratégica de contar con datos de la IS, especialmente los observados por sensores de IS en superficie (los que mejor captan esta variable), estos no siempre están disponibles para los lugares de interés ni con la resolución espacial y temporal deseada. Esta limitación se une a la necesidad de disponer de predicciones a corto plazo de la IS que ayuden a la planificación y gestión de la energía. Se ha indagado y caracterizado las Redes de Estaciones Meteorológicas (REM) existentes en España que publican en internet sus observaciones, focalizando en la IS. Se han identificado 24 REM (16 gubernamentales y 8 redes voluntarios) que aglutinan 3492 estaciones, convirtiéndose éstas en las fuentes de datos meteorológicos utilizados en la tesis. Se han investigado cinco técnicas de estimación espacial de la IS en intervalos de 15 minutos para el territorio peninsular (3 técnicas geoestadísticas, una determinística y el método HelioSat2 basado en imágenes satelitales) con distintas configuraciones espaciales. Cuando el área de estudio tiene una adecuada densidad de observaciones, el mejor método identificado para estimar la IS es el Kriging con Regresión usando variables auxiliares -una de ellas la IS estimada a partir de imágenes satelitales-. De este modo es posible estimar espacialmente la IS más allá de los 25 km identificados en la bibliografía. En caso contrario, se corrobora la idoneidad de utilizar estimaciones a partir de sensores remotos cuando la densidad de observaciones no es adecuada. Se ha experimentado con el modelado de Redes Neuronales Artificiales (RNA) para la predicción a corto plazo de la IS utilizando observaciones próximas (componentes espaciales) en sus entradas y, los resultados son prometedores. Así los niveles de errores disminuyen bajo las siguientes condiciones: (1) cuando el horizonte temporal de predicción es inferior o igual a 3 horas, las estaciones vecinas que se incluyen en el modelo deben encentrarse a una distancia máxima aproximada de 55 km. Esto permite concluir que las RNA son capaces de aprender cómo afectan las condiciones meteorológicas vecinas a la predicción de la IS. ABSTRACT ABSTRACT The enrichment of knowledge about the Solar Irradiance (SI) at Earth's surface and its prediction, have a high interest for Renewable Energy (RE) - Solar Energy (SE) - and for various industrial and environmental applications. In the field of the RE, the optimal use of the SE involves having SI surface to help in the selection of sites for facilities ES, in the design stage (sizing energy production), and finally on their production. In the latter case, the observation and prediction is useful for the market, planning and management of the energy (generators and electrical system operators), especially in new contexts of smart transport networks (smartgrid). Despite the strategic importance of SI data, especially those observed by sensors of SI at surface (the ones that best measure this environmental variable), these are not always available to the sights and the spatial and temporal resolution desired. This limitation is bound to the need for short-term predictions of the SI to help planning and energy management. It has been investigated and characterized existing Networks of Weather Stations (NWS) in Spain that share its observations online, focusing on SI. 24 NWS have been identified (16 government and 8 volunteer networks) that implies 3492 stations, turning it into the sources of meteorological data used in the thesis. We have investigated five technical of spatial estimation of SI in 15 minutes to the mainland (3 geostatistical techniques and HelioSat2 a deterministic method based on satellite images) with different spatial configurations. When the study area has an adequate density of observations we identified the best method to estimate the SI is the regression kriging with auxiliary variables (one of them is the SI estimated from satellite images. Thus it is possible to spatially estimate the SI beyond the 25 km identified in the literature. Otherwise, when the density of observations is inadequate the appropriateness is using the estimates values from remote sensing. It has been experimented with Artificial Neural Networks (ANN) modeling for predicting the short-term future of the SI using observations from neighbor’s weather stations (spatial components) in their inputs, and the results are promising. The error levels decrease under the following conditions: (1) when the prediction horizon is less or equal than 3 hours the best models are the ones that include data from the neighboring stations (at a maximum distance of 55 km). It is concluded that the ANN is able to learn how weather conditions affect neighboring prediction of IS at such Spatio-temporal horizons.
Resumo:
La pérdida de bosques en la Tierra, principalmente en ecosistemas amazónicos, es un factor clave en el proceso del cambio climático. Para revertir esta situación, los mecanismos REDD (Reducing Emission from Deforestation and forest Degradation) están permitiendo la implementación de actividades de protección del clima a través de la reducción de emisiones por deforestación evitada, según los esquemas previstos en el Protocolo de Kioto. El factor técnico más crítico en un proyecto REDD es la determinación de la línea de referencia de emisiones, que define la expectativa futura sobre las emisiones de CO2 de origen forestal en ausencia de esfuerzos adicionales obtenidos como consecuencia de la implementación del programa REDD para frenar este tipo de emisiones. La zona del estudio se ubica en la región de San Martín (Perú), provincia cubierta fundamentalmente por bosques tropicales cuyas tasas de deforestación son de las más altas de la cuenca amazónica. En las últimas décadas del siglo XX, la región empezó un acelerado proceso de deforestación consecuencia de la integración vial con el resto del país y la rápida inmigración desde zonas rurales en busca de nuevas tierras agrícolas. Desde el punto de vista de la investigación llevada a cabo en la tesis doctoral, se pueden destacar dos líneas: 1. El estudio multitemporal mediante imágenes de satélite Landsat 5/TM con el propósito de calcular las pérdidas de bosque entre períodos. El estudio multitemporal se llevó a cabo en el período 1998-2011 utilizando imágenes Landsat 5/TM, aplicando la metodología de Análisis de Mezclas Espectrales (Spectral Mixtures Analysis), que permite descomponer la reflectancia de cada píxel de la imagen en diferentes fracciones de mezcla espectral. En este proceso, las etapas más críticas son el establecimiento de los espectros puros o endemembers y la recopilación de librerías espectrales adecuadas, en este caso de bosques tropicales, que permitan reducir la incertidumbre de los procesos. Como resultado de la investigación se ha conseguido elaborar la línea de referencia de emisiones histórica, para el período de estudio, teniendo en cuenta tanto los procesos de deforestación como de degradación forestal. 2. Relacionar los resultados de pérdida de bosque con factores de causalidad directos e indirectos. La determinación de los procesos de cambio de cobertura forestal utilizando técnicas geoespaciales permite relacionar, de manera significativa, información de los indicadores causales de dichos procesos. De igual manera, se pueden estimar escenarios futuros de deforestación y degradación de acuerdo al análisis de la evolución de dichos vectores, teniendo en cuenta otros factores indirectos o subyacentes, como pueden ser los económicos, sociales, demográficos y medioambientales. La identificación de los agentes subyacentes o indirectos es una tarea más compleja que la de los factores endógenos o directos. Por un lado, las relaciones causa – efecto son mucho más difusas; y, por otro, los efectos pueden estar determinados por fenómenos más amplios, consecuencia de superposición o acumulación de diferentes causas. A partir de los resultados de pérdida de bosque obtenidos mediante la utilización de imágenes Landsat 5/TM, se investigaron los criterios de condicionamiento directos e indirectos que podrían haber influido en la deforestación y degradación forestal en ese período. Para ello, se estudiaron las series temporales, para las mismas fechas, de 9 factores directos (infraestructuras, hidrografía, temperatura, etc.) y 196 factores indirectos (económicos, sociales, demográficos y ambientales, etc.) con, en principio, un alto potencial de causalidad. Finalmente se ha analizado la predisposición de cada factor con la ocurrencia de deforestación y degradación forestal por correlación estadística de las series temporales obtenidas. ABSTRACT Forests loss on Earth, mainly in Amazonian ecosystems, is a key factor in the process of climate change. To reverse this situation, the REDD (Reducing Emission from Deforestation and forest Degradation) are allowing the implementation of climate protection activities through reducing emissions from avoided deforestation, according to the schemes under the Kyoto Protocol. Also, the baseline emissions in a REDD project defines a future expectation on CO2 emissions from deforestation and forest degradation in the absence of additional efforts as a result of REDD in order to stop these emissions. The study area is located in the region of San Martín (Peru), province mainly covered by tropical forests whose deforestation rates are the highest in the Amazon basin. In the last decades of the twentieth century, the region began an accelerated process of deforestation due to road integration with the rest of the country and the rapid migration from rural areas for searching of new farmland. From the point of view of research in the thesis, we can highlight two lines: 1. The multitemporal study using Landsat 5/TM satellite images in order to calculate the forest loss between periods. The multitemporal study was developed in the period 1998-2011 using Landsat 5/TM, applying the methodology of Spectral Mixture Analysis, which allows decomposing the reflectance of each pixel of the image in different fractions of mixture spectral. In this process, the most critical step is the establishment of pure spectra or endemembers spectra, and the collecting of appropriate spectral libraries, in this case of tropical forests, to reduce the uncertainty of the process. As a result of research has succeeded in developing the baseline emissions for the period of study, taking into account both deforestation and forest degradation. 2. Relate the results of forest loss with direct and indirect causation factors. Determining the processes of change in forest cover using geospatial technologies allows relating, significantly, information of the causal indicators in these processes. Similarly, future deforestation and forest degradation scenarios can be estimated according to the analysis of the evolution of these drivers, taking into account other indirect or underlying factors, such as economic, social, demographic and environmental. Identifying the underlying or indirect agents is more complex than endogenous or direct factors. On the one hand, cause - effect relationships are much more diffuse; and, second, the effects may be determined by broader phenomena, due to superposition or accumulation of different causes. From the results of forest loss obtained using Landsat 5/TM, the criteria of direct and indirect conditioning that might have contributed to deforestation and forest degradation in that period were investigated. For this purpose, temporal series, for the same dates, 9 direct factors (infrastructure, hydrography, temperature, etc.) and 196 underlying factors (economic, social, demographic and environmental) with, in principle, a high potential of causality. Finally it was analyzed the predisposition of each factor to the occurrence of deforestation and forest degradation by statistical correlation of the obtained temporal series.
Resumo:
El cerebro humano es probablemente uno de los sistemas más complejos a los que nos enfrentamos en la actualidad, si bien es también uno de los más fascinantes. Sin embargo, la compresión de cómo el cerebro organiza su actividad para llevar a cabo tareas complejas es un problema plagado de restos y obstáculos. En sus inicios la neuroimagen y la electrofisiología tenían como objetivo la identificación de regiones asociadas a activaciones relacionadas con tareas especificas, o con patrones locales que variaban en el tiempo dada cierta actividad. Sin embargo, actualmente existe un consenso acerca de que la actividad cerebral tiene un carácter temporal multiescala y espacialmente extendido, lo que lleva a considerar el cerebro como una gran red de áreas cerebrales coordinadas, cuyas conexiones funcionales son continuamente creadas y destruidas. Hasta hace poco, el énfasis de los estudios de la actividad cerebral funcional se han centrado en la identidad de los nodos particulares que forman estas redes, y en la caracterización de métricas de conectividad entre ellos: la hipótesis subyacente es que cada nodo, que es una representación mas bien aproximada de una región cerebral dada, ofrece a una única contribución al total de la red. Por tanto, la neuroimagen funcional integra los dos ingredientes básicos de la neuropsicología: la localización de la función cognitiva en módulos cerebrales especializados y el rol de las fibras de conexión en la integración de dichos módulos. Sin embargo, recientemente, la estructura y la función cerebral han empezado a ser investigadas mediante la Ciencia de la Redes, una interpretación mecánico-estadística de una antigua rama de las matemáticas: La teoría de grafos. La Ciencia de las Redes permite dotar a las redes funcionales de una gran cantidad de propiedades cuantitativas (robustez, centralidad, eficiencia, ...), y así enriquecer el conjunto de elementos que describen objetivamente la estructura y la función cerebral a disposición de los neurocientíficos. La conexión entre la Ciencia de las Redes y la Neurociencia ha aportado nuevos puntos de vista en la comprensión de la intrincada anatomía del cerebro, y de cómo las patrones de actividad cerebral se pueden sincronizar para generar las denominadas redes funcionales cerebrales, el principal objeto de estudio de esta Tesis Doctoral. Dentro de este contexto, la complejidad emerge como el puente entre las propiedades topológicas y dinámicas de los sistemas biológicos y, específicamente, en la relación entre la organización y la dinámica de las redes funcionales cerebrales. Esta Tesis Doctoral es, en términos generales, un estudio de cómo la actividad cerebral puede ser entendida como el resultado de una red de un sistema dinámico íntimamente relacionado con los procesos que ocurren en el cerebro. Con este fin, he realizado cinco estudios que tienen en cuenta ambos aspectos de dichas redes funcionales: el topológico y el dinámico. De esta manera, la Tesis está dividida en tres grandes partes: Introducción, Resultados y Discusión. En la primera parte, que comprende los Capítulos 1, 2 y 3, se hace un resumen de los conceptos más importantes de la Ciencia de las Redes relacionados al análisis de imágenes cerebrales. Concretamente, el Capitulo 1 está dedicado a introducir al lector en el mundo de la complejidad, en especial, a la complejidad topológica y dinámica de sistemas acoplados en red. El Capítulo 2 tiene como objetivo desarrollar los fundamentos biológicos, estructurales y funcionales del cerebro, cuando éste es interpretado como una red compleja. En el Capítulo 3, se resumen los objetivos esenciales y tareas que serán desarrolladas a lo largo de la segunda parte de la Tesis. La segunda parte es el núcleo de la Tesis, ya que contiene los resultados obtenidos a lo largo de los últimos cuatro años. Esta parte está dividida en cinco Capítulos, que contienen una versión detallada de las publicaciones llevadas a cabo durante esta Tesis. El Capítulo 4 está relacionado con la topología de las redes funcionales y, específicamente, con la detección y cuantificación de los nodos mas importantes: aquellos denominados “hubs” de la red. En el Capítulo 5 se muestra como las redes funcionales cerebrales pueden ser vistas no como una única red, sino más bien como una red-de-redes donde sus componentes tienen que coexistir en una situación de balance funcional. De esta forma, se investiga cómo los hemisferios cerebrales compiten para adquirir centralidad en la red-de-redes, y cómo esta interacción se mantiene (o no) cuando se introducen fallos deliberadamente en la red funcional. El Capítulo 6 va un paso mas allá al considerar las redes funcionales como sistemas vivos. En este Capítulo se muestra cómo al analizar la evolución de la topología de las redes, en vez de tratarlas como si estas fueran un sistema estático, podemos caracterizar mejor su estructura. Este hecho es especialmente relevante cuando se quiere tratar de encontrar diferencias entre grupos que desempeñan una tarea de memoria, en la que las redes funcionales tienen fuertes fluctuaciones. En el Capítulo 7 defino cómo crear redes parenclíticas a partir de bases de datos de actividad cerebral. Este nuevo tipo de redes, recientemente introducido para estudiar las anormalidades entre grupos de control y grupos anómalos, no ha sido implementado nunca en datos cerebrales y, en este Capítulo explico cómo hacerlo cuando se quiere evaluar la consistencia de la dinámica cerebral. Para concluir esta parte de la Tesis, el Capítulo 8 se centra en la relación entre las propiedades topológicas de los nodos dentro de una red y sus características dinámicas. Como mostraré más adelante, existe una relación entre ellas que revela que la posición de un nodo dentro una red está íntimamente correlacionada con sus propiedades dinámicas. Finalmente, la última parte de esta Tesis Doctoral está compuesta únicamente por el Capítulo 9, el cual contiene las conclusiones y perspectivas futuras que pueden surgir de los trabajos expuestos. En vista de todo lo anterior, espero que esta Tesis aporte una perspectiva complementaria sobre uno de los más extraordinarios sistemas complejos frente a los que nos encontramos: El cerebro humano. ABSTRACT The human brain is probably one of the most complex systems we are facing, thus being a timely and fascinating object of study. Characterizing how the brain organizes its activity to carry out complex tasks is highly non-trivial. While early neuroimaging and electrophysiological studies typically aimed at identifying patches of task-specific activations or local time-varying patterns of activity, there has now been consensus that task-related brain activity has a temporally multiscale, spatially extended character, as networks of coordinated brain areas are continuously formed and destroyed. Up until recently, though, the emphasis of functional brain activity studies has been on the identity of the particular nodes forming these networks, and on the characterization of connectivity metrics between them, the underlying covert hypothesis being that each node, constituting a coarse-grained representation of a given brain region, provides a unique contribution to the whole. Thus, functional neuroimaging initially integrated the two basic ingredients of early neuropsychology: localization of cognitive function into specialized brain modules and the role of connection fibres in the integration of various modules. Lately, brain structure and function have started being investigated using Network Science, a statistical mechanics understanding of an old branch of pure mathematics: graph theory. Network Science allows endowing networks with a great number of quantitative properties, thus vastly enriching the set of objective descriptors of brain structure and function at neuroscientists’ disposal. The link between Network Science and Neuroscience has shed light about how the entangled anatomy of the brain is, and how cortical activations may synchronize to generate the so-called functional brain networks, the principal object under study along this PhD Thesis. Within this context, complexity appears to be the bridge between the topological and dynamical properties of biological systems and, more specifically, the interplay between the organization and dynamics of functional brain networks. This PhD Thesis is, in general terms, a study of how cortical activations can be understood as the output of a network of dynamical systems that are intimately related with the processes occurring in the brain. In order to do that, I performed five studies that encompass both the topological and the dynamical aspects of such functional brain networks. In this way, the Thesis is divided into three major parts: Introduction, Results and Discussion. In the first part, comprising Chapters 1, 2 and 3, I make an overview of the main concepts of Network Science related to the analysis of brain imaging. More specifically, Chapter 1 is devoted to introducing the reader to the world of complexity, specially to the topological and dynamical complexity of networked systems. Chapter 2 aims to develop the biological, topological and functional fundamentals of the brain when it is seen as a complex network. Next, Chapter 3 summarizes the main objectives and tasks that will be developed along the forthcoming Chapters. The second part of the Thesis is, in turn, its core, since it contains the results obtained along these last four years. This part is divided into five Chapters, containing a detailed version of the publications carried out during the Thesis. Chapter 4 is related to the topology of functional networks and, more specifically, to the detection and quantification of the leading nodes of the network: the hubs. In Chapter 5 I will show that functional brain networks can be viewed not as a single network, but as a network-of-networks, where its components have to co-exist in a trade-off situation. In this way, I investigate how the brain hemispheres compete for acquiring the centrality of the network-of-networks and how this interplay is maintained (or not) when failures are introduced in the functional network. Chapter 6 goes one step beyond by considering functional networks as living systems. In this Chapter I show how analyzing the evolution of the network topology instead of treating it as a static system allows to better characterize functional networks. This fact is especially relevant when trying to find differences between groups performing certain memory tasks, where functional networks have strong fluctuations. In Chapter 7 I define how to create parenclitic networks from brain imaging datasets. This new kind of networks, recently introduced to study abnormalities between control and anomalous groups, have not been implemented with brain datasets and I explain in this Chapter how to do it when evaluating the consistency of brain dynamics. To conclude with this part of the Thesis, Chapter 8 is devoted to the interplay between the topological properties of the nodes within a network and their dynamical features. As I will show, there is an interplay between them which reveals that the position of a node in a network is intimately related with its dynamical properties. Finally, the last part of this PhD Thesis is composed only by Chapter 9, which contains the conclusions and future perspectives that may arise from the exposed results. In view of all, I hope that reading this Thesis will give a complementary perspective of one of the most extraordinary complex systems: The human brain.
Resumo:
La diabetes mellitus es un trastorno en la metabolización de los carbohidratos, caracterizado por la nula o insuficiente segregación de insulina (hormona producida por el páncreas), como resultado del mal funcionamiento de la parte endocrina del páncreas, o de una creciente resistencia del organismo a esta hormona. Esto implica, que tras el proceso digestivo, los alimentos que ingerimos se transforman en otros compuestos químicos más pequeños mediante los tejidos exocrinos. La ausencia o poca efectividad de esta hormona polipéptida, no permite metabolizar los carbohidratos ingeridos provocando dos consecuencias: Aumento de la concentración de glucosa en sangre, ya que las células no pueden metabolizarla; consumo de ácidos grasos mediante el hígado, liberando cuerpos cetónicos para aportar la energía a las células. Esta situación expone al enfermo crónico, a una concentración de glucosa en sangre muy elevada, denominado hiperglucemia, la cual puede producir a medio o largo múltiples problemas médicos: oftalmológicos, renales, cardiovasculares, cerebrovasculares, neurológicos… La diabetes representa un gran problema de salud pública y es la enfermedad más común en los países desarrollados por varios factores como la obesidad, la vida sedentaria, que facilitan la aparición de esta enfermedad. Mediante el presente proyecto trabajaremos con los datos de experimentación clínica de pacientes con diabetes de tipo 1, enfermedad autoinmune en la que son destruidas las células beta del páncreas (productoras de insulina) resultando necesaria la administración de insulina exógena. Dicho esto, el paciente con diabetes tipo 1 deberá seguir un tratamiento con insulina administrada por la vía subcutánea, adaptado a sus necesidades metabólicas y a sus hábitos de vida. Para abordar esta situación de regulación del control metabólico del enfermo, mediante una terapia de insulina, no serviremos del proyecto “Páncreas Endocrino Artificial” (PEA), el cual consta de una bomba de infusión de insulina, un sensor continuo de glucosa, y un algoritmo de control en lazo cerrado. El objetivo principal del PEA es aportar al paciente precisión, eficacia y seguridad en cuanto a la normalización del control glucémico y reducción del riesgo de hipoglucemias. El PEA se instala mediante vía subcutánea, por lo que, el retardo introducido por la acción de la insulina, el retardo de la medida de glucosa, así como los errores introducidos por los sensores continuos de glucosa cuando, se descalibran dificultando el empleo de un algoritmo de control. Llegados a este punto debemos modelar la glucosa del paciente mediante sistemas predictivos. Un modelo, es todo aquel elemento que nos permita predecir el comportamiento de un sistema mediante la introducción de variables de entrada. De este modo lo que conseguimos, es una predicción de los estados futuros en los que se puede encontrar la glucosa del paciente, sirviéndonos de variables de entrada de insulina, ingesta y glucosa ya conocidas, por ser las sucedidas con anterioridad en el tiempo. Cuando empleamos el predictor de glucosa, utilizando parámetros obtenidos en tiempo real, el controlador es capaz de indicar el nivel futuro de la glucosa para la toma de decisones del controlador CL. Los predictores que se están empleando actualmente en el PEA no están funcionando correctamente por la cantidad de información y variables que debe de manejar. Data Mining, también referenciado como Descubrimiento del Conocimiento en Bases de Datos (Knowledge Discovery in Databases o KDD), ha sido definida como el proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil. Todo ello, sirviéndonos las siguientes fases del proceso de extracción del conocimiento: selección de datos, pre-procesado, transformación, minería de datos, interpretación de los resultados, evaluación y obtención del conocimiento. Con todo este proceso buscamos generar un único modelo insulina glucosa que se ajuste de forma individual a cada paciente y sea capaz, al mismo tiempo, de predecir los estados futuros glucosa con cálculos en tiempo real, a través de unos parámetros introducidos. Este trabajo busca extraer la información contenida en una base de datos de pacientes diabéticos tipo 1 obtenidos a partir de la experimentación clínica. Para ello emplearemos técnicas de Data Mining. Para la consecución del objetivo implícito a este proyecto hemos procedido a implementar una interfaz gráfica que nos guía a través del proceso del KDD (con información gráfica y estadística) de cada punto del proceso. En lo que respecta a la parte de la minería de datos, nos hemos servido de la denominada herramienta de WEKA, en la que a través de Java controlamos todas sus funciones, para implementarlas por medio del programa creado. Otorgando finalmente, una mayor potencialidad al proyecto con la posibilidad de implementar el servicio de los dispositivos Android por la potencial capacidad de portar el código. Mediante estos dispositivos y lo expuesto en el proyecto se podrían implementar o incluso crear nuevas aplicaciones novedosas y muy útiles para este campo. Como conclusión del proyecto, y tras un exhaustivo análisis de los resultados obtenidos, podemos apreciar como logramos obtener el modelo insulina-glucosa de cada paciente. ABSTRACT. The diabetes mellitus is a metabolic disorder, characterized by the low or none insulin production (a hormone produced by the pancreas), as a result of the malfunctioning of the endocrine pancreas part or by an increasing resistance of the organism to this hormone. This implies that, after the digestive process, the food we consume is transformed into smaller chemical compounds, through the exocrine tissues. The absence or limited effectiveness of this polypeptide hormone, does not allow to metabolize the ingested carbohydrates provoking two consequences: Increase of the glucose concentration in blood, as the cells are unable to metabolize it; fatty acid intake through the liver, releasing ketone bodies to provide energy to the cells. This situation exposes the chronic patient to high blood glucose levels, named hyperglycemia, which may cause in the medium or long term multiple medical problems: ophthalmological, renal, cardiovascular, cerebrum-vascular, neurological … The diabetes represents a great public health problem and is the most common disease in the developed countries, by several factors such as the obesity or sedentary life, which facilitate the appearance of this disease. Through this project we will work with clinical experimentation data of patients with diabetes of type 1, autoimmune disease in which beta cells of the pancreas (producers of insulin) are destroyed resulting necessary the exogenous insulin administration. That said, the patient with diabetes type 1 will have to follow a treatment with insulin, administered by the subcutaneous route, adapted to his metabolic needs and to his life habits. To deal with this situation of metabolic control regulation of the patient, through an insulin therapy, we shall be using the “Endocrine Artificial Pancreas " (PEA), which consists of a bomb of insulin infusion, a constant glucose sensor, and a control algorithm in closed bow. The principal aim of the PEA is providing the patient precision, efficiency and safety regarding the normalization of the glycemic control and hypoglycemia risk reduction". The PEA establishes through subcutaneous route, consequently, the delay introduced by the insulin action, the delay of the glucose measure, as well as the mistakes introduced by the constant glucose sensors when, decalibrate, impede the employment of an algorithm of control. At this stage we must shape the patient glucose levels through predictive systems. A model is all that element or set of elements which will allow us to predict the behavior of a system by introducing input variables. Thus what we obtain, is a prediction of the future stages in which it is possible to find the patient glucose level, being served of input insulin, ingestion and glucose variables already known, for being the ones happened previously in the time. When we use the glucose predictor, using obtained real time parameters, the controller is capable of indicating the future level of the glucose for the decision capture CL controller. The predictors that are being used nowadays in the PEA are not working correctly for the amount of information and variables that it need to handle. Data Mining, also indexed as Knowledge Discovery in Databases or KDD, has been defined as the not trivial extraction process of implicit information, previously unknown and potentially useful. All this, using the following phases of the knowledge extraction process: selection of information, pre- processing, transformation, data mining, results interpretation, evaluation and knowledge acquisition. With all this process we seek to generate the unique insulin glucose model that adjusts individually and in a personalized way for each patient form and being capable, at the same time, of predicting the future conditions with real time calculations, across few input parameters. This project of end of grade seeks to extract the information contained in a database of type 1 diabetics patients, obtained from clinical experimentation. For it, we will use technologies of Data Mining. For the attainment of the aim implicit to this project we have proceeded to implement a graphical interface that will guide us across the process of the KDD (with graphical and statistical information) of every point of the process. Regarding the data mining part, we have been served by a tool called WEKA's tool called, in which across Java, we control all of its functions to implement them by means of the created program. Finally granting a higher potential to the project with the possibility of implementing the service for Android devices, porting the code. Through these devices and what has been exposed in the project they might help or even create new and very useful applications for this field. As a conclusion of the project, and after an exhaustive analysis of the obtained results, we can show how we achieve to obtain the insulin–glucose model for each patient.
Resumo:
Uno de los problemas más importantes a los que se enfrenta nuestra sociedad es el de la degradación del medioambiente por la emisión de gases de efecto invernadero. La captura de CO2 en los puntos de emisión y su enterramiento mediante inyección en reservorios geológicos profundos se plantea como una solución hasta que a medio o largo plazo pueda ser mitigada la actual dependencia de la quema de combustibles fósiles. Pero la estabilidad de esos reservorios debe ser monitorizada adecuadamente. En esta tesis se ha estudiado el problema de la detección de fugas de CO2 en un análogo natural de un emplazamiento de almacenamiento profundo a través del análisis de imágenes de satélite multiespectrales. El análogo utilizado ha sido la zona de Campo de Calatrava (Ciudad Real, España), donde, por efecto de la actividad volcánica remanente, aún se pueden encontrar numerosos puntos de emisión de CO2. Se han caracterizado los puntos de emisión de CO2 identificándose dos tipologías con características y manifestaciones claramente diferenciadas: puntos de emisión húmeda o hervideros, y puntos de emisión seca o fumarolas. Para el estudio se han utilizado índices de vegetación y su relación de éstos con los contenidos atmosféricos de CO2. Se han utilizado imágenes multiespectrales de los satélites QuickBird y WorldView‐2. Se ha realizado una preselección de doce índices de vegetación especialmente adecuados para la detección de puntos de emisión de CO2. Mediante análisis y comparación de imágenes de índices de vegetación sobre puntos de emisión conocidos se ha seleccionado los cinco índices con mayor sensibilidad frente al fenómeno. Atendiendo a los principales factores condicionantes de la aparición de nuevos puntos de emisión de CO2 se ha realizado sobre las imágenes de índices de vegetación una predicción de nuevos puntos de emisión. Entre los puntos candidato se han encontrado tres nuevos puntos de emisión de CO2 no descritos previamente en la bibliografía. ABSTRACT One of the most important issues facing our society is the degradation of the environment caused by the emission of greenhouse gases. Capturing CO2 emissions, injection and burial in deep geological reservoirs is presented as a solution until the medium or long term, when the problem of the current dependence on fossil fuels burning can be mitigated. But the stability of these reservoirs should be properly monitored. In this work we study the problem of detecting CO2 leakage in a natural analogue of a deep storage site through analysis of multispectral satellite imagery. The analogue used is in the Campo de Calatrava (Ciudad Real, Spain) where, due to the remaining volcanic activity, it can still be found numerous CO2 emission points. CO2 emission points have been characterized identifying two types having distinct characteristics and effects: wet emission points or hotbeds, and dry emission points or fumaroles. For this study it has been used vegetation indices and its relationship with atmospheric CO2 contents. It has been used multispectral images from QuickBird and WorldView‐2 satellites. It has been done a preselection of twelve vegetation indices especially suitable for the detection of CO2 emission points. Using analysis and comparison of vegetation index images on real emission points it has been selected the five indexes with greater sensitivity to this phenomenon. Based upon the main factors of the emergence of new CO2 emission points it has been made a prediction of new emission points over the vegetation index images. Among the candidate points it has been found three new CO2 emission points not previously described in the literature.
Resumo:
La investigación de esta tesis se centra en el estudio de técnicas geoestadísticas y su contribución a una mayor caracterización del binomio factores climáticos-rendimiento de un cultivo agrícola. El inexorable vínculo entre la variabilidad climática y la producción agrícola cobra especial relevancia en estudios sobre el cambio climático o en la modelización de cultivos para dar respuesta a escenarios futuros de producción mundial. Es información especialmente valiosa en sistemas operacionales de monitoreo y predicción de rendimientos de cultivos Los cuales son actualmente uno de los pilares operacionales en los que se sustenta la agricultura y seguridad alimentaria mundial; ya que su objetivo final es el de proporcionar información imparcial y fiable para la regularización de mercados. Es en este contexto, donde se quiso dar un enfoque alternativo a estudios, que con distintos planteamientos, analizan la relación inter-anual clima vs producción. Así, se sustituyó la dimensión tiempo por la espacio, re-orientando el análisis estadístico de correlación interanual entre rendimiento y factores climáticos, por el estudio de la correlación inter-regional entre ambas variables. Se utilizó para ello una técnica estadística relativamente nueva y no muy aplicada en investigaciones similares, llamada regresión ponderada geográficamente (GWR, siglas en inglés de “Geographically weighted regression”). Se obtuvieron superficies continuas de las variables climáticas acumuladas en determinados periodos fenológicos, que fueron seleccionados por ser factores clave en el desarrollo vegetativo de un cultivo. Por ello, la primera parte de la tesis, consistió en un análisis exploratorio sobre comparación de Métodos de Interpolación Espacial (MIE). Partiendo de la hipótesis de que existe la variabilidad espacial de la relación entre factores climáticos y rendimiento, el objetivo principal de esta tesis, fue el de establecer en qué medida los MIE y otros métodos geoestadísticos de regresión local, pueden ayudar por un lado, a alcanzar un mayor entendimiento del binomio clima-rendimiento del trigo blando (Triticum aestivum L.) al incorporar en dicha relación el componente espacial; y por otro, a caracterizar la variación de los principales factores climáticos limitantes en el crecimiento del trigo blando, acumulados éstos en cuatro periodos fenológicos. Para lleva a cabo esto, una gran carga operacional en la investigación de la tesis consistió en homogeneizar y hacer los datos fenológicos, climáticos y estadísticas agrícolas comparables tanto a escala espacial como a escala temporal. Para España y los Bálticos se recolectaron y calcularon datos diarios de precipitación, temperatura máxima y mínima, evapotranspiración y radiación solar en las estaciones meteorológicas disponibles. Se dispuso de una serie temporal que coincidía con los mismos años recolectados en las estadísticas agrícolas, es decir, 14 años contados desde 2000 a 2013 (hasta 2011 en los Bálticos). Se superpuso la malla de información fenológica de cuadrícula 25 km con la ubicación de las estaciones meteorológicas con el fin de conocer los valores fenológicos en cada una de las estaciones disponibles. Hecho esto, para cada año de la serie temporal disponible se calcularon los valores climáticos diarios acumulados en cada uno de los cuatro periodos fenológicos seleccionados P1 (ciclo completo), P2 (emergencia-madurez), P3 (floración) y P4 (floraciónmadurez). Se calculó la superficie interpolada por el conjunto de métodos seleccionados en la comparación: técnicas deterministas convencionales, kriging ordinario y cokriging ordinario ponderado por la altitud. Seleccionados los métodos más eficaces, se calculó a nivel de provincias las variables climatológicas interpoladas. Y se realizaron las regresiones locales GWR para cuantificar, explorar y modelar las relaciones espaciales entre el rendimiento del trigo y las variables climáticas acumuladas en los cuatro periodos fenológicos. Al comparar la eficiencia de los MIE no destaca una técnica por encima del resto como la que proporcione el menor error en su predicción. Ahora bien, considerando los tres indicadores de calidad de los MIE estudiados se han identificado los métodos más efectivos. En el caso de la precipitación, es la técnica geoestadística cokriging la más idónea en la mayoría de los casos. De manera unánime, la interpolación determinista en función radial (spline regularizado) fue la técnica que mejor describía la superficie de precipitación acumulada en los cuatro periodos fenológicos. Los resultados son más heterogéneos para la evapotranspiración y radiación. Los métodos idóneos para estas se reparten entre el Inverse Distance Weighting (IDW), IDW ponderado por la altitud y el Ordinary Kriging (OK). También, se identificó que para la mayoría de los casos en que el error del Ordinary CoKriging (COK) era mayor que el del OK su eficacia es comparable a la del OK en términos de error y el requerimiento computacional de este último es mucho menor. Se pudo confirmar que existe la variabilidad espacial inter-regional entre factores climáticos y el rendimiento del trigo blando tanto en España como en los Bálticos. La herramienta estadística GWR fue capaz de reproducir esta variabilidad con un rendimiento lo suficientemente significativo como para considerarla una herramienta válida en futuros estudios. No obstante, se identificaron ciertas limitaciones en la misma respecto a la información que devuelve el programa a nivel local y que no permite desgranar todo el detalle sobre la ejecución del mismo. Los indicadores y periodos fenológicos que mejor pudieron reproducir la variabilidad espacial del rendimiento en España y Bálticos, arrojaron aún, una mayor credibilidad a los resultados obtenidos y a la eficacia del GWR, ya que estaban en línea con el conocimiento agronómico sobre el cultivo del trigo blando en sistemas agrícolas mediterráneos y norteuropeos. Así, en España, el indicador más robusto fue el balance climático hídrico Climatic Water Balance) acumulado éste, durante el periodo de crecimiento (entre la emergencia y madurez). Aunque se identificó la etapa clave de la floración como el periodo en el que las variables climáticas acumuladas proporcionaban un mayor poder explicativo del modelo GWR. Sin embargo, en los Bálticos, países donde el principal factor limitante en su agricultura es el bajo número de días de crecimiento efectivo, el indicador más efectivo fue la radiación acumulada a lo largo de todo el ciclo de crecimiento (entre la emergencia y madurez). Para el trigo en regadío no existe ninguna combinación que pueda explicar más allá del 30% de la variación del rendimiento en España. Poder demostrar que existe un comportamiento heterogéneo en la relación inter-regional entre el rendimiento y principales variables climáticas, podría contribuir a uno de los mayores desafíos a los que se enfrentan, a día de hoy, los sistemas operacionales de monitoreo y predicción de rendimientos de cultivos, y éste es el de poder reducir la escala espacial de predicción, de un nivel nacional a otro regional. ABSTRACT This thesis explores geostatistical techniques and their contribution to a better characterization of the relationship between climate factors and agricultural crop yields. The crucial link between climate variability and crop production plays a key role in climate change research as well as in crops modelling towards the future global production scenarios. This information is particularly important for monitoring and forecasting operational crop systems. These geostatistical techniques are currently one of the most fundamental operational systems on which global agriculture and food security rely on; with the final aim of providing neutral and reliable information for food market controls, thus avoiding financial speculation of nourishments of primary necessity. Within this context the present thesis aims to provide an alternative approach to the existing body of research examining the relationship between inter-annual climate and production. Therefore, the temporal dimension was replaced for the spatial dimension, re-orienting the statistical analysis of the inter-annual relationship between crops yields and climate factors to an inter-regional correlation between these two variables. Geographically weighted regression, which is a relatively new statistical technique and which has rarely been used in previous research on this topic was used in the current study. Continuous surface values of the climate accumulated variables in specific phenological periods were obtained. These specific periods were selected because they are key factors in the development of vegetative crop. Therefore, the first part of this thesis presents an exploratory analysis regarding the comparability of spatial interpolation methods (SIM) among diverse SIMs and alternative geostatistical methodologies. Given the premise that spatial variability of the relationship between climate factors and crop production exists, the primary aim of this thesis was to examine the extent to which the SIM and other geostatistical methods of local regression (which are integrated tools of the GIS software) are useful in relating crop production and climate variables. The usefulness of these methods was examined in two ways; on one hand the way this information could help to achieve higher production of the white wheat binomial (Triticum aestivum L.) by incorporating the spatial component in the examination of the above-mentioned relationship. On the other hand, the way it helps with the characterization of the key limiting climate factors of soft wheat growth which were analysed in four phenological periods. To achieve this aim, an important operational workload of this thesis consisted in the homogenization and obtention of comparable phenological and climate data, as well as agricultural statistics, which made heavy operational demands. For Spain and the Baltic countries, data on precipitation, maximum and minimum temperature, evapotranspiration and solar radiation from the available meteorological stations were gathered and calculated. A temporal serial approach was taken. These temporal series aligned with the years that agriculture statistics had previously gathered, these being 14 years from 2000 to 2013 (until 2011 for the Baltic countries). This temporal series was mapped with a phenological 25 km grid that had the location of the meteorological stations with the objective of obtaining the phenological values in each of the available stations. Following this procedure, the daily accumulated climate values for each of the four selected phenological periods were calculated; namely P1 (complete cycle), P2 (emergency-maturity), P3 (flowering) and P4 (flowering- maturity). The interpolated surface was then calculated using the set of selected methodologies for the comparison: deterministic conventional techniques, ordinary kriging and ordinary cokriging weighted by height. Once the most effective methods had been selected, the level of the interpolated climate variables was calculated. Local GWR regressions were calculated to quantify, examine and model the spatial relationships between soft wheat production and the accumulated variables in each of the four selected phenological periods. Results from the comparison among the SIMs revealed that no particular technique seems more favourable in terms of accuracy of prediction. However, when the three quality indicators of the compared SIMs are considered, some methodologies appeared to be more efficient than others. Regarding precipitation results, cokriging was the most accurate geostatistical technique for the majority of the cases. Deterministic interpolation in its radial function (controlled spline) was the most accurate technique for describing the accumulated precipitation surface in all phenological periods. However, results are more heterogeneous for the evapotranspiration and radiation methodologies. The most appropriate technique for these forecasts are the Inverse Distance Weighting (IDW), weighted IDW by height and the Ordinary Kriging (OK). Furthermore, it was found that for the majority of the cases where the Ordinary CoKriging (COK) error was larger than that of the OK, its efficacy was comparable to that of the OK in terms of error while the computational demands of the latter was much lower. The existing spatial inter-regional variability between climate factors and soft wheat production was confirmed for both Spain and the Baltic countries. The GWR statistic tool reproduced this variability with an outcome significative enough as to be considered a valid tool for future studies. Nevertheless, this tool also had some limitations with regards to the information delivered by the programme because it did not allow for a detailed break-down of its procedure. The indicators and phenological periods that best reproduced the spatial variability of yields in Spain and the Baltic countries made the results and the efficiency of the GWR statistical tool even more reliable, despite the fact that these were already aligned with the agricultural knowledge about soft wheat crop under mediterranean and northeuropean agricultural systems. Thus, for Spain, the most robust indicator was the Climatic Water Balance outcome accumulated throughout the growing period (between emergency and maturity). Although the flowering period was the phase that best explained the accumulated climate variables in the GWR model. For the Baltic countries where the main limiting agricultural factor is the number of days of effective growth, the most effective indicator was the accumulated radiation throughout the entire growing cycle (between emergency and maturity). For the irrigated soft wheat there was no combination capable of explaining above the 30% of variation of the production in Spain. The fact that the pattern of the inter-regional relationship between the crop production and key climate variables is heterogeneous within a country could contribute to one is one of the greatest challenges that the monitoring and forecasting operational systems for crop production face nowadays. The present findings suggest that the solution may lay in downscaling the spatial target scale from a national to a regional level.
Resumo:
En esta tesis se desarrolla un modelo físico-matemático, original, que permite simular el comportamiento de las máquinas de visión, en particular las máquinas ópticas digitales, cuando reciben información a través de la luz reflejada por los mensurandos. El modelo desarrollado se lia aplicado para la determinación de los parámetros que intervienen en el proceso de caracterización de formas geométricas básicas, tales como líneas, círculos y elipses. También se analizan las fuentes de error que intervienen a lo largo de la cadena metrológica y se proponen modelos de estimación de las incertidumbres de medida a través un nuevo enfoque basado en estadística bayesiana y resolución subpíxel. La validez del modelo se ha comprobado por comparación de los resultados teóricos, obtenidos a partir de modelos virtuales y simulaciones informáticas, y los reales, obtenidos mediante la realización de medidas de diferentes mensurandos del ámbito electromecánico y de dimensiones submilimétricas. Utilizando el modelo propuesto, es posible caracterizar adecuadamente mensurandos a partir del filtrado, segmentación y tratamiento matemático de las imágenes. El estudio experimental y validación definitiva de los resultados se ha realizado en el Laboratorio de Metrología Dimensional de la Escuela Técnica Superior de Ingeniería y Diseño Industrial de la Universidad Politécnica de Madrid. Los modelos desarrollados se han implementado sobre imágenes obtenidas con la máquina de visión marca TESA, modelo VISIO 300. Abstract In this PhD Thesis an original mathematic-physic model has been developed. It allows simulating the behaviour of the vision measuring machines, in particular the optical digital machines, where they receive information through the light reflected by the measurands. The developed model has been applied to determine the parameters involved in the process of characterization of basic geometrical features such as lines, circles and ellipses. The error sources involved along the metrological chain also are analyzed and new models for estimating measurement uncertainties through a new approach based on Bayesian statistics and subpixel resolution are proposed. The validity of the model has been verified by comparing the theoretical results obtained from virtual models and computer simulations, with actual ones, obtained by measuring of various measurands belonging to the electromechanical field and of submillimeter dimensions. Using the proposed model, it is possible to properly characterize measurands from filtering, segmentation and mathematical processing of images. The experimental study and final validation of the results has been carried out in the "Laboratorio de Metrología Dimensional" (Dimensional Metrology Laboratory) at the Escuela Técnica Superior de Ingeniería y Diseño Industrial (ETSIDI) (School of Engineering and Industrial Design) at Universidad Politécnica de Madrid (UPM). The developed models have been implemented on images obtained with the vision measuring machine of the brand TESA, model VISIO 300.
Resumo:
I. GENERALIDADES 1.1. Introducción Entre los diversos tipos de perturbaciones eléctricas, los huecos de tensión son considerados el problema de calidad de suministro más frecuente en los sistemas eléctricos. Este fenómeno es originado por un aumento extremo de la corriente en el sistema, causado principalmente por cortocircuitos o maniobras inadecuadas en la red. Este tipo de perturbación eléctrica está caracterizado básicamente por dos parámetros: tensión residual y duración. Típicamente, se considera que el hueco se produce cuando la tensión residual alcanza en alguna de las fases un valor entre 0.01 a 0.9 pu y tiene una duración de hasta 60 segundos. Para un usuario final, el efecto más relevante de un hueco de tensión es la interrupción o alteración de la operación de sus equipos, siendo los dispositivos de naturaleza electrónica los principalmente afectados (p. ej. ordenador, variador de velocidad, autómata programable, relé, etc.). Debido al auge tecnológico de las últimas décadas y a la búsqueda constante de automatización de los procesos productivos, el uso de componentes electrónicos resulta indispensable en la actualidad. Este hecho, lleva a que los efectos de los huecos de tensión sean más evidentes para el usuario final, provocando que su nivel de exigencia de la calidad de energía suministrada sea cada vez mayor. De forma general, el estudio de los huecos de tensión suele ser abordado bajo dos enfoques: en la carga o en la red. Desde el punto de vista de la carga, se requiere conocer las características de sensibilidad de los equipos para modelar su respuesta ante variaciones súbitas de la tensión del suministro eléctrico. Desde la perspectiva de la red, se busca estimar u obtener información adecuada que permita caracterizar su comportamiento en términos de huecos de tensión. En esta tesis, el trabajo presentado se encuadra en el segundo aspecto, es decir, en el modelado y estimación de la respuesta de un sistema eléctrico de potencia ante los huecos de tensión. 1.2. Planteamiento del problema A pesar de que los huecos de tensión son el problema de calidad de suministro más frecuente en las redes, hasta la actualidad resulta complejo poder analizar de forma adecuada este tipo de perturbación para muchas compañías del sector eléctrico. Entre las razones más comunes se tienen: - El tiempo de monitorización puede llegar a ser de varios años para conseguir una muestra de registros de huecos estadísticamente válida. - La limitación de recursos económicos para la adquisición e instalación de equipos de monitorización de huecos. - El elevado coste operativo que implica el análisis de los datos de los medidores de huecos de tensión instalados. - La restricción que tienen los datos de calidad de energía de las compañías eléctricas. Es decir, ante la carencia de datos que permitan analizar con mayor detalle los huecos de tensión, es de interés de las compañías eléctricas y la academia poder crear métodos fiables que permitan profundizar en el estudio, estimación y supervisión de este fenómeno electromagnético. Los huecos de tensión, al ser principalmente originados por eventos fortuitos como los cortocircuitos, son el resultado de diversas variables exógenas como: (i) la ubicación de la falta, (ii) la impedancia del material de contacto, (iii) el tipo de fallo, (iv) la localización del fallo en la red, (v) la duración del evento, etc. Es decir, para plantear de forma adecuada cualquier modelo teórico sobre los huecos de tensión, se requeriría representar esta incertidumbre combinada de las variables para proveer métodos realistas y, por ende, fiables para los usuarios. 1.3. Objetivo La presente tesis ha tenido como objetivo el desarrollo diversos métodos estocásticos para el estudio, estimación y supervisión de los huecos de tensión en los sistemas eléctricos de potencia. De forma específica, se ha profundizado en los siguientes ámbitos: - En el modelado realista de las variables que influyen en la caracterización de los huecos. Esto es, en esta Tesis se ha propuesto un método que permite representar de forma verosímil su cuantificación y aleatoriedad en el tiempo empleando distribuciones de probabilidad paramétricas. A partir de ello, se ha creado una herramienta informática que permite estimar la severidad de los huecos de tensión en un sistema eléctrico genérico. - Se ha analizado la influencia la influencia de las variables de entrada en la estimación de los huecos de tensión. En este caso, el estudio se ha enfocado en las variables de mayor divergencia en su caracterización de las propuestas existentes. - Se ha desarrollado un método que permite estima el número de huecos de tensión de una zona sin monitorización a través de la información de un conjunto limitado de medidas de un sistema eléctrico. Para ello, se aplican los principios de la estadística Bayesiana, estimando el número de huecos de tensión más probable de un emplazamiento basándose en los registros de huecos de otros nudos de la red. - Plantear una estrategia para optimizar la monitorización de los huecos de tensión en un sistema eléctrico. Es decir, garantizar una supervisión del sistema a través de un número de medidores menor que el número de nudos de la red. II. ESTRUCTURA DE LA TESIS Para plantear las propuestas anteriormente indicadas, la presente Tesis se ha estructurado en seis capítulos. A continuación, se describen brevemente los mismos. A manera de capítulo introductorio, en el capítulo 1, se realiza una descripción del planteamiento y estructura de la presente tesis. Esto es, se da una visión amplia de la problemática a tratar, además de describir el alcance de cada capítulo de la misma. En el capítulo 2, se presenta una breve descripción de los fundamentos y conceptos generales de los huecos de tensión. Los mismos, buscan brindar al lector de una mejor comprensión de los términos e indicadores más empleados en el análisis de severidad de los huecos de tensión en las redes eléctricas. Asimismo, a manera de antecedente, se presenta un resumen de las principales características de las técnicas o métodos existentes aplicados en la predicción y monitorización óptima de los huecos de tensión. En el capítulo 3, se busca fundamentalmente conocer la importancia de las variables que determinen la frecuencia o severidad de los huecos de tensión. Para ello, se ha implementado una herramienta de estimación de huecos de tensión que, a través de un conjunto predeterminado de experimentos mediante la técnica denominada Diseño de experimentos, analiza la importancia de la parametrización de las variables de entrada del modelo. Su análisis, es realizado mediante la técnica de análisis de la varianza (ANOVA), la cual permite establecer con rigor matemático si la caracterización de una determinada variable afecta o no la respuesta del sistema en términos de los huecos de tensión. En el capítulo 4, se propone una metodología que permite predecir la severidad de los huecos de tensión de todo el sistema a partir de los registros de huecos de un conjunto reducido de nudos de dicha red. Para ello, se emplea el teorema de probabilidad condicional de Bayes, el cual calcula las medidas más probables de todo el sistema a partir de la información proporcionada por los medidores de huecos instalados. Asimismo, en este capítulo se revela una importante propiedad de los huecos de tensión, como es la correlación del número de eventos de huecos de tensión en diversas zonas de las redes eléctricas. En el capítulo 5, se desarrollan dos métodos de localización óptima de medidores de huecos de tensión. El primero, que es una evolución metodológica del criterio de observabilidad; aportando en el realismo de la pseudo-monitorización de los huecos de tensión con la que se calcula el conjunto óptimo de medidores y, por ende, en la fiabilidad del método. Como una propuesta alternativa, se emplea la propiedad de correlación de los eventos de huecos de tensión de una red para plantear un método que permita establecer la severidad de los huecos de todo el sistema a partir de una monitorización parcial de dicha red. Finalmente, en el capítulo 6, se realiza una breve descripción de las principales aportaciones de los estudios realizados en esta tesis. Adicionalmente, se describen diversos temas a desarrollar en futuros trabajos. III. RESULTADOS En base a las pruebas realizadas en las tres redes planteadas; dos redes de prueba IEEE de 24 y 118 nudos (IEEE-24 e IEEE-118), además del sistema eléctrico de la República del Ecuador de 357 nudos (EC-357), se describen los siguientes puntos como las observaciones más relevantes: A. Estimación de huecos de tensión en ausencia de medidas: Se implementa un método estocástico de estimación de huecos de tensión denominado PEHT, el cual representa con mayor realismo la simulación de los eventos de huecos de un sistema a largo plazo. Esta primera propuesta de la tesis, es considerada como un paso clave para el desarrollo de futuros métodos del presente trabajo, ya que permite emular de forma fiable los registros de huecos de tensión a largo plazo en una red genérica. Entre las novedades más relevantes del mencionado Programa de Estimación de Huecos de Tensión (PEHT) se tienen: - Considerar el efecto combinado de cinco variables aleatorias de entrada para simular los eventos de huecos de tensión en una pseudo-monitorización a largo plazo. Las variables de entrada modeladas en la caracterización de los huecos de tensión en el PEHT son: (i) coeficiente de fallo, (ii) impedancia de fallo, (iii) tipo de fallo, (iv) localización del fallo y (v) duración. - El modelado estocástico de las variables de entrada impedancia de fallo y duración en la caracterización de los eventos de huecos de tensión. Para la parametrización de las variables mencionadas, se realizó un estudio detallado del comportamiento real de las mismas en los sistemas eléctricos. Asimismo, se define la función estadística que mejor representa la naturaleza aleatoria de cada variable. - Considerar como variables de salida del PEHT a indicadores de severidad de huecos de uso común en las normativas, como es el caso de los índices: SARFI-X, SARFI-Curve, etc. B. Análisis de sensibilidad de los huecos de tensión: Se presenta un estudio causa-efecto (análisis de sensibilidad) de las variables de entrada de mayor divergencia en su parametrización entre las referencias relacionadas a la estimación de los huecos de tensión en redes eléctricas. De forma específica, se profundiza en el estudio de la influencia de la parametrización de las variables coeficiente de fallo e impedancia de fallo en la predicción de los huecos de tensión. A continuación un resumen de las conclusiones más destacables: - La precisión de la variable de entrada coeficiente de fallo se muestra como un parámetro no influyente en la estimación del número de huecos de tensión (SARFI-90 y SARFI-70) a largo plazo. Es decir, no se requiere de una alta precisión del dato tasa de fallo de los elementos del sistema para obtener una adecuada estimación de los huecos de tensión. - La parametrización de la variable impedancia de fallo se muestra como un factor muy sensible en la estimación de la severidad de los huecos de tensión. Por ejemplo, al aumentar el valor medio de esta variable aleatoria, se disminuye considerablemente la severidad reportada de los huecos en la red. Por otra parte, al evaluar el parámetro desviación típica de la impedancia de fallo, se observa una relación directamente proporcional de este parámetro con la severidad de los huecos de tensión de la red. Esto es, al aumentar la desviación típica de la impedancia de fallo, se evidencia un aumento de la media y de la variación interanual de los eventos SARFI-90 y SARFI-70. - En base al análisis de sensibilidad desarrollado en la variable impedancia de fallo, se considera muy cuestionable la fiabilidad de los métodos de estimación de huecos de tensión que omiten su efecto en el modelo planteado. C. Estimación de huecos de tensión en base a la información de una monitorización parcial de la red: Se desarrolla un método que emplea los registros de una red parcialmente monitorizada para determinar la severidad de los huecos de todo el sistema eléctrico. A partir de los casos de estudio realizados, se observa que el método implementado (PEHT+MP) posee las siguientes características: - La metodología propuesta en el PEHT+MP combina la teoría clásica de cortocircuitos con diversas técnicas estadísticas para estimar, a partir de los datos de los medidores de huecos instalados, las medidas de huecos de los nudos sin monitorización de una red genérica. - El proceso de estimación de los huecos de tensión de la zona no monitorizada de la red se fundamenta en la aplicación del teorema de probabilidad condicional de Bayes. Es decir, en base a los datos observados (los registros de los nudos monitorizados), el PEHT+MP calcula de forma probabilística la severidad de los huecos de los nudos sin monitorización del sistema. Entre las partes claves del procedimiento propuesto se tienen los siguientes puntos: (i) la creación de una base de datos realista de huecos de tensión a través del Programa de Estimación de Huecos de Tensión (PEHT) propuesto en el capítulo anterior; y, (ii) el criterio de máxima verosimilitud empleado para estimar las medidas de huecos de los nudos sin monitorización de la red evaluada. - Las predicciones de medidas de huecos de tensión del PEHT+MP se ven potenciadas por la propiedad de correlación de los huecos de tensión en diversas zonas de un sistema eléctrico. Esta característica intrínseca de las redes eléctricas limita de forma significativa la respuesta de las zonas fuertemente correlacionadas del sistema ante un eventual hueco de tensión. Como el PEHT+MP está basado en principios probabilísticos, la reducción del rango de las posibles medidas de huecos se ve reflejado en una mejor predicción de las medidas de huecos de la zona no monitorizada. - Con los datos de un conjunto de medidores relativamente pequeño del sistema, es posible obtener estimaciones precisas (error nulo) de la severidad de los huecos de la zona sin monitorizar en las tres redes estudiadas. - El PEHT+MP se puede aplicar a diversos tipos de indicadores de severidad de los huecos de tensión, como es el caso de los índices: SARFI-X, SARFI-Curve, SEI, etc. D. Localización óptima de medidores de huecos de tensión: Se plantean dos métodos para ubicar de forma estratégica al sistema de monitorización de huecos en una red genérica. La primera propuesta, que es una evolución metodológica de la localización óptima de medidores de huecos basada en el criterio de observabilidad (LOM+OBS); y, como segunda propuesta, un método que determina la localización de los medidores de huecos según el criterio del área de correlación (LOM+COR). Cada método de localización óptima de medidores propuesto tiene un objetivo concreto. En el caso del LOM+OBS, la finalidad del método es determinar el conjunto óptimo de medidores que permita registrar todos los fallos que originen huecos de tensión en la red. Por otro lado, en el método LOM+COR se persigue definir un sistema óptimo de medidores que, mediante la aplicación del PEHT+MP (implementado en el capítulo anterior), sea posible estimar de forma precisa las medidas de huecos de tensión de todo el sistema evaluado. A partir del desarrollo de los casos de estudio de los citados métodos de localización óptima de medidores en las tres redes planteadas, se describen a continuación las observaciones más relevantes: - Como la generación de pseudo-medidas de huecos de tensión de los métodos de localización óptima de medidores (LOM+OBS y LOM+COR) se obtienen mediante la aplicación del algoritmo PEHT, la formulación del criterio de optimización se realiza en base a una pseudo-monitorización realista, la cual considera la naturaleza aleatoria de los huecos de tensión a través de las cinco variables estocásticas modeladas en el PEHT. Esta característica de la base de datos de pseudo-medidas de huecos de los métodos LOM+OBS y LOM+COR brinda una mayor fiabilidad del conjunto óptimo de medidores calculado respecto a otros métodos similares en la bibliografía. - El conjunto óptimo de medidores se determina según la necesidad del operador de la red. Esto es, si el objetivo es registrar todos los fallos que originen huecos de tensión en el sistema, se emplea el criterio de observabilidad en la localización óptima de medidores de huecos. Por otra parte, si se plantea definir un sistema de monitorización que permita establecer la severidad de los huecos de tensión de todo el sistema en base a los datos de un conjunto reducido de medidores de huecos, el criterio de correlación resultaría el adecuado. De forma específica, en el caso del método LOM+OBS, basado en el criterio de observabilidad, se evidenciaron las siguientes propiedades en los casos de estudio realizados: - Al aumentar el tamaño de la red, se observa la tendencia de disminuir el porcentaje de nudos monitorizados de dicho sistema. Por ejemplo, para monitorizar los fallos que originan huecos en la red IEEE-24, se requiere monitorizar el 100\% de los nudos del sistema. En el caso de las redes IEEE-118 y EC-357, el método LOM+OBS determina que con la monitorización de un 89.5% y 65.3% del sistema, respectivamente, se cumpliría con el criterio de observabilidad del método. - El método LOM+OBS permite calcular la probabilidad de utilización del conjunto óptimo de medidores a largo plazo, estableciendo así un criterio de la relevancia que tiene cada medidor considerado como óptimo en la red. Con ello, se puede determinar el nivel de precisión u observabilidad (100%, 95%, etc.) con el cual se detectarían los fallos que generan huecos en la red estudiada. Esto es, al aumentar el nivel de precisión de detección de los fallos que originan huecos, se espera que aumente el número de medidores requeridos en el conjunto óptimo de medidores calculado. - El método LOM+OBS se evidencia como una técnica aplicable a todo tipo de sistema eléctrico (radial o mallado), el cual garantiza la detección de los fallos que originan huecos de tensión en un sistema según el nivel de observabilidad planteado. En el caso del método de localización óptima de medidores basado en el criterio del área de correlación (LOM+COR), las diversas pruebas realizadas evidenciaron las siguientes conclusiones: - El procedimiento del método LOM+COR combina los métodos de estimación de huecos de tensión de capítulos anteriores (PEHT y PEHT+MP) con técnicas de optimización lineal para definir la localización óptima de los medidores de huecos de tensión de una red. Esto es, se emplea el PEHT para generar los pseudo-registros de huecos de tensión, y, en base al criterio planteado de optimización (área de correlación), el LOM+COR formula y calcula analíticamente el conjunto óptimo de medidores de la red a largo plazo. A partir de la información registrada por este conjunto óptimo de medidores de huecos, se garantizaría una predicción precisa de la severidad de los huecos de tensión de todos los nudos del sistema con el PEHT+MP. - El método LOM+COR requiere un porcentaje relativamente reducido de nudos del sistema para cumplir con las condiciones de optimización establecidas en el criterio del área de correlación. Por ejemplo, en el caso del número total de huecos (SARFI-90) de las redes IEEE-24, IEEE-118 y EC-357, se calculó un conjunto óptimo de 9, 12 y 17 medidores de huecos, respectivamente. Es decir, solamente se requeriría monitorizar el 38\%, 10\% y 5\% de los sistemas indicados para supervisar los eventos SARFI-90 en toda la red. - El método LOM+COR se muestra como un procedimiento de optimización versátil, el cual permite reducir la dimensión del sistema de monitorización de huecos de redes eléctricas tanto radiales como malladas. Por sus características, este método de localización óptima permite emular una monitorización integral del sistema a través de los registros de un conjunto pequeño de monitores. Por ello, este nuevo método de optimización de medidores sería aplicable a operadores de redes que busquen disminuir los costes de instalación y operación del sistema de monitorización de los huecos de tensión. ABSTRACT I. GENERALITIES 1.1. Introduction Among the various types of electrical disturbances, voltage sags are considered the most common quality problem in power systems. This phenomenon is caused by an extreme increase of the current in the network, primarily caused by short-circuits or inadequate maneuvers in the system. This type of electrical disturbance is basically characterized by two parameters: residual voltage and duration. Typically, voltage sags occur when the residual voltage, in some phases, reaches a value between 0.01 to 0.9 pu and lasts up to 60 seconds. To an end user, the most important effect of a voltage sags is the interruption or alteration of their equipment operation, with electronic devices the most affected (e.g. computer, drive controller, PLC, relay, etc.). Due to the technology boom of recent decades and the constant search for automating production processes, the use of electronic components is essential today. This fact makes the effects of voltage sags more noticeable to the end user, causing the level of demand for a quality energy supply to be increased. In general, the study of voltage sags is usually approached from one of two aspects: the load or the network. From the point of view of the load, it is necessary to know the sensitivity characteristics of the equipment to model their response to sudden changes in power supply voltage. From the perspective of the network, the goal is to estimate or obtain adequate information to characterize the network behavior in terms of voltage sags. In this thesis, the work presented fits into the second aspect; that is, in the modeling and estimation of the response of a power system to voltage sag events. 1.2. Problem Statement Although voltage sags are the most frequent quality supply problem in electrical networks, thistype of disturbance remains complex and challenging to analyze properly. Among the most common reasons for this difficulty are: - The sag monitoring time, because it can take up to several years to get a statistically valid sample. - The limitation of funds for the acquisition and installation of sag monitoring equipment. - The high operating costs involved in the analysis of the voltage sag data from the installed monitors. - The restrictions that electrical companies have with the registered power quality data. That is, given the lack of data to further voltage sag analysis, it is of interest to electrical utilities and researchers to create reliable methods to deepen the study, estimation and monitoring of this electromagnetic phenomenon. Voltage sags, being mainly caused by random events such as short-circuits, are the result of various exogenous variables such as: (i) the number of faults of a system element, (ii) the impedance of the contact material, (iii) the fault type, (iv) the fault location, (v) the duration of the event, etc. That is, to properly raise any theoretical model of voltage sags, it is necessary to represent the combined uncertainty of variables to provide realistic methods that are reliable for users. 1.3. Objective This Thesis has been aimed at developing various stochastic methods for the study, estimation and monitoring of voltage sags in electrical power systems. Specifically, it has deepened the research in the following areas: - This research furthers knowledge in the realistic modeling of the variables that influence sag characterization. This thesis proposes a method to credibly represent the quantification and randomness of the sags in time by using parametric probability distributions. From this, a software tool was created to estimate the severity of voltage sags in a generic power system. - This research also analyzes the influence of the input variables in the estimation of voltage sags. In this case, the study has focused on the variables of greatest divergence in their characterization of the existing proposals. - A method was developed to estimate the number of voltage sags of an area without monitoring through the information of a limited set of sag monitors in an electrical system. To this end, the principles of Bayesian statistics are applied, estimating the number of sags most likely to happen in a system busbar based in records of other sag network busbars. - A strategy was developed to optimize the monitorization of voltage sags on a power system. Its purpose is to ensure the monitoring of the system through a number of monitors lower than the number of busbars of the network assessed. II. THESIS STRUCTURE To describe in detail the aforementioned proposals, this Thesis has been structured into six chapters. Below is are brief descriptions of them: As an introductory chapter, Chapter 1, provides a description of the approach and structure of this thesis. It presents a wide view of the problem to be treated, in addition to the description of the scope of each chapter. In Chapter 2, a brief description of the fundamental and general concepts of voltage sags is presented to provide to the reader a better understanding of the terms and indicators used in the severity analysis of voltage sags in power networks. Also, by way of background, a summary of the main features of existing techniques or methods used in the prediction and optimal monitoring of voltage sags is also presented. Chapter 3 essentially seeks to know the importance of the variables that determine the frequency or severity of voltage sags. To do this, a tool to estimate voltage sags is implemented that, through a predetermined set of experiments using the technique called Design of Experiments, discusses the importance of the parameters of the input variables of the model. Its analysis is interpreted by using the technique of analysis of variance (ANOVA), which provides mathematical rigor to establish whether the characterization of a particular variable affects the system response in terms of voltage sags or not. In Chapter 4, a methodology to predict the severity of voltage sags of an entire system through the sag logs of a reduced set of monitored busbars is proposed. For this, the Bayes conditional probability theorem is used, which calculates the most likely sag severity of the entire system from the information provided by the installed monitors. Also, in this chapter an important property of voltage sags is revealed, as is the correlation of the voltage sags events in several zones of a power system. In Chapter 5, two methods of optimal location of voltage sag monitors are developed. The first one is a methodological development of the observability criteria; it contributes to the realism of the sag pseudo-monitoring with which the optimal set of sag monitors is calculated and, therefore, to the reliability of the proposed method. As an alternative proposal, the correlation property of the sag events of a network is used to raise a method that establishes the sag severity of the entire system from a partial monitoring of the network. Finally, in Chapter 6, a brief description of the main contributions of the studies in this Thesis is detailed. Additionally, various themes to be developed in future works are described. III. RESULTS. Based on tests on the three networks presented, two IEEE test networks of 24 and 118 busbars (IEEE-24 and IEEE-118) and the electrical system of the Republic of Ecuador (EC-357), the following points present the most important observations: A. Estimation of voltage sags in the absence of measures: A stochastic estimation method of voltage sags, called PEHT, is implemented to represent with greater realism the long-term simulation of voltage sags events in a system. This first proposal of this thesis is considered a key step for the development of future methods of this work, as it emulates in a reliable manner the voltage sag long-term records in a generic network. Among the main innovations of this voltage sag estimation method are the following: - Consideration of the combined effect of five random input variables to simulate the events of voltage sags in long-term monitoring is included. The input variables modeled in the characterization of voltage sags on the PEHT are as follows: (i) fault coefficient, (ii) fault impedance, (iii) type of fault, (iv) location of the fault, and (v) fault duration. - Also included is the stochastic modeling of the input variables of fault impedance and duration in the characterization of the events of voltage sags. For the parameterization of these variables, a detailed study of the real behavior in power systems is developed. Also, the statistical function best suited to the random nature of each variable is defined. - Consideration of sag severity indicators used in standards as PEHT output variables, including such as indices as SARFI-X, SARFI-Curve, etc. B. Sensitivity analysis of voltage sags: A cause-effect study (sensitivity analysis) of the input variables of greatest divergence between reference parameterization related to the estimation of voltage sags in electrical networks is presented. Specifically, it delves into the study of the influence of the parameterization of the variables fault coefficient and fault impedance in the voltage sag estimation. Below is a summary of the most notable observations: - The accuracy of the input variable fault coefficient is shown as a non-influential parameter in the long-term estimation of the number of voltage sags (SARFI-90 and SARFI-70). That is, it does not require a high accuracy of the fault rate data of system elements for a proper voltage sag estimation. - The parameterization of the variable fault impedance is shown to be a very sensitive factor in the estimation of the voltage sag severity. For example, by increasing the average value of this random variable, the reported sag severity in the network significantly decreases. Moreover, in assessing the standard deviation of the fault impedance parameter, a direct relationship of this parameter with the voltage sag severity of the network is observed. That is, by increasing the fault impedance standard deviation, an increase of the average and the interannual variation of the SARFI-90 and SARFI-70 events is evidenced. - Based on the sensitivity analysis developed in the variable fault impedance, the omission of this variable in the voltage sag estimation would significantly call into question the reliability of the responses obtained. C. Voltage sag estimation from the information of a network partially monitored: A method that uses the voltage sag records of a partially monitored network for the sag estimation of all the power system is developed. From the case studies performed, it is observed that the method implemented (PEHT+MP) has the following characteristics: - The methodology proposed in the PEHT+MP combines the classical short-circuit theory with several statistical techniques to estimate, from data the of the installed sag meters, the sag measurements of unmonitored busbars of a generic power network. - The estimation process of voltage sags of the unmonitored zone of the network is based on the application of the conditional probability theorem of Bayes. That is, based on the observed data (monitored busbars records), the PEHT+MP calculates probabilistically the sag severity at unmonitored system busbars. Among the key parts of the proposed procedure are the following: (i) the creation of a realistic data base of voltage sags through of the sag estimation program (PEHT); and, (ii) the maximum likelihood criterion used to estimate the sag indices of system busbars without monitoring. - The voltage sag measurement estimations of PEHT+MP are potentiated by the correlation property of the sag events in power systems. This inherent characteristic of networks significantly limits the response of strongly correlated system zones to a possible voltage sag. As the PEHT+MP is based on probabilistic principles, a reduction of the range of possible sag measurements is reflected in a better sag estimation of the unmonitored area of the power system. - From the data of a set of monitors representing a relatively small portion of the system, to obtain accurate estimations (null error) of the sag severity zones without monitoring is feasible in the three networks studied. - The PEHT+MP can be applied to several types of sag indices, such as: SARFI-X, SARFI-Curve, SEI, etc. D. Optimal location of voltage sag monitors in power systems: Two methods for strategically locating the sag monitoring system are implemented for a generic network. The first proposal is a methodological development of the optimal location of sag monitors based on the observability criterion (LOM + OBS); the second proposal is a method that determines the sag monitor location according to the correlation area criterion (LOM+COR). Each proposed method of optimal location of sag monitors has a specific goal. In the case of LOM+OBS, the purpose of the method is to determine the optimal set of sag monitors to record all faults that originate voltage sags in the network. On the other hand, the LOM+COR method attempts to define the optimal location of sag monitors to estimate the sag indices in all the assessed network with the PEHT+MP application. From the development of the case studies of these methods of optimal location of sag monitors in the three networks raised, the most relevant observations are described below: - As the generation of voltage sag pseudo-measurements of the optimal location methods (LOM+OBS and LOM+COR) are obtained by applying the algorithm PEHT, the formulation of the optimization criterion is performed based on a realistic sag pseudo-monitoring, which considers the random nature of voltage sags through the five stochastic variables modeled in PEHT. This feature of the database of sag pseudo-measurements of the LOM+OBS and LOM+COR methods provides a greater reliability of the optimal set of monitors calculated when compared to similar methods in the bibliography. - The optimal set of sag monitors is determined by the network operator need. That is, if the goal is to record all faults that originate from voltage sags in the system, the observability criterion is used to determine the optimal location of sag monitors (LOM+OBS). Moreover, if the objective is to define a monitoring system that allows establishing the sag severity of the system from taken from information based on a limited set of sag monitors, the correlation area criterion would be appropriate (LOM+COR). Specifically, in the case of the LOM+OBS method (based on the observability criterion), the following properties were observed in the case studies: - By increasing the size of the network, there was observed a reduction in the percentage of monitored system busbars required. For example, to monitor all the faults which cause sags in the IEEE-24 network, then 100% of the system busbars are required for monitoring. In the case of the IEEE-118 and EC-357 networks, the method LOM+OBS determines that with monitoring 89.5 % and 65.3 % of the system, respectively, the observability criterion of the method would be fulfilled. - The LOM+OBS method calculates the probability of using the optimal set of sag monitors in the long term, establishing a relevance criterion of each sag monitor considered as optimal in the network. With this, the level of accuracy or observability (100%, 95%, etc.) can be determined, with which the faults that caused sags in the studied network are detected. That is, when the accuracy level for detecting faults that cause sags in the system is increased, a larger number of sag monitors is expected when calculating the optimal set of monitors. - The LOM + OBS method is demonstrated to be a technique applicable to any type of electrical system (radial or mesh), ensuring the detection of faults that cause voltage sags in a system according to the observability level raised. In the case of the optimal localization of sag monitors based on the criterion of correlation area (LOM+COR), several tests showed the following conclusions: - The procedure of LOM+COR method combines the implemented algorithms of voltage sag estimation (PEHT and PEHT+MP) with linear optimization techniques to define the optimal location of the sag monitors in a network. That is, the PEHT is used to generate the voltage sag pseudo-records, and, from the proposed optimization criterion (correlation area), the LOM+COR formulates and analytically calculates the optimal set of sag monitors of the network in the long term. From the information recorded by the optimal set of sag monitors, an accurate prediction of the voltage sag severity at all the busbars of the system is guaranteed with the PEHT+MP. - The LOM + COR method is shown to be a versatile optimization procedure, which reduces the size of the sag monitoring system both at radial as meshed grids. Due to its characteristics, this optimal location method allows emulation of complete system sag monitoring through the records of a small optimal set of sag monitors. Therefore, this new optimization method would be applicable to network operators that looks to reduce the installation and operation costs of the voltage sag monitoring system.
Resumo:
Esta tesis presenta el diseño y la aplicación de una metodología que permite la determinación de los parámetros para la planificación de nodos e infraestructuras logísticas en un territorio, considerando además el impacto de estas en los diferentes componentes territoriales, así como en el desarrollo poblacional, el desarrollo económico y el medio ambiente, presentando así un avance en la planificación integral del territorio. La Metodología propuesta está basada en Minería de Datos, que permite el descubrimiento de patrones detrás de grandes volúmenes de datos previamente procesados. Las características propias de los datos sobre el territorio y los componentes que lo conforman hacen de los estudios territoriales un campo ideal para la aplicación de algunas de las técnicas de Minería de Datos, tales como los ´arboles decisión y las redes bayesianas. Los árboles de decisión permiten representar y categorizar de forma esquemática una serie de variables de predicción que ayudan al análisis de una variable objetivo. Las redes bayesianas representan en un grafo acíclico dirigido, un modelo probabilístico de variables distribuidas en padres e hijos, y la inferencia estadística que permite determinar la probabilidad de certeza de una hipótesis planteada, es decir, permiten construir modelos de probabilidad conjunta que presentan de manera gráfica las dependencias relevantes en un conjunto de datos. Al igual que con los árboles de decisión, la división del territorio en diferentes unidades administrativas hace de las redes bayesianas una herramienta potencial para definir las características físicas de alguna tipología especifica de infraestructura logística tomando en consideración las características territoriales, poblacionales y económicas del área donde se plantea su desarrollo y las posibles sinergias que se puedan presentar sobre otros nodos e infraestructuras logísticas. El caso de estudio seleccionado para la aplicación de la metodología ha sido la República de Panamá, considerando que este país presenta algunas características singulares, entra las que destacan su alta concentración de población en la Ciudad de Panamá; que a su vez a concentrado la actividad económica del país; su alto porcentaje de zonas protegidas, lo que ha limitado la vertebración del territorio; y el Canal de Panamá y los puertos de contenedores adyacentes al mismo. La metodología se divide en tres fases principales: Fase 1: Determinación del escenario de trabajo 1. Revisión del estado del arte. 2. Determinación y obtención de las variables de estudio. Fase 2: Desarrollo del modelo de inteligencia artificial 3. Construcción de los ´arboles de decisión. 4. Construcción de las redes bayesianas. Fase 3: Conclusiones 5. Determinación de las conclusiones. Con relación al modelo de planificación aplicado al caso de estudio, una vez aplicada la metodología, se estableció un modelo compuesto por 47 variables que definen la planificación logística de Panamá, el resto de variables se definen a partir de estas, es decir, conocidas estas, el resto se definen a través de ellas. Este modelo de planificación establecido a través de la red bayesiana considera los aspectos de una planificación sostenible: económica, social y ambiental; que crean sinergia con la planificación de nodos e infraestructuras logísticas. The thesis presents the design and application of a methodology that allows the determination of parameters for the planning of nodes and logistics infrastructure in a territory, besides considering the impact of these different territorial components, as well as the population growth, economic and environmental development. The proposed methodology is based on Data Mining, which allows the discovery of patterns behind large volumes of previously processed data. The own characteristics of the territorial data makes of territorial studies an ideal field of knowledge for the implementation of some of the Data Mining techniques, such as Decision Trees and Bayesian Networks. Decision trees categorize schematically a series of predictor variables of an analyzed objective variable. Bayesian Networks represent a directed acyclic graph, a probabilistic model of variables divided in fathers and sons, and statistical inference that allow determine the probability of certainty in a hypothesis. The case of study for the application of the methodology is the Republic of Panama. This country has some unique features: a high population density in the Panama City, a concentration of economic activity, a high percentage of protected areas, and the Panama Canal. The methodology is divided into three main phases: Phase 1: definition of the work stage. 1. Review of the State of the art. 2. Determination of the variables. Phase 2: Development of artificial intelligence model 3. Construction of decision trees. 4. Construction of Bayesian Networks. Phase 3: conclusions 5. Determination of the conclusions. The application of the methodology to the case study established a model composed of 47 variables that define the logistics planning for Panama. This model of planning established through the Bayesian network considers aspects of sustainable planning and simulates the synergies between the nodes and logistical infrastructure planning.
Resumo:
El éxito en la búsqueda de conocimiento a partir de grandes cantidades de datos radica en la calidad de los mismos. Hasta ahora los aspectos de calidad de los datos se han enfocado principalmente a la limpieza de los datos: detección de duplicados, valores atípicos, perdidos, incompletos o conflictos en instancias, entre otros. En este trabajo se presenta un caso de estudio que nos ha permitido determinar ciertos aspectos de calidad que pueden mejorar la expectativa de éxito en el análisis evitando resultados erróneos, incorrectos o poco fiables. Este es un primer paso hacia la consideración de manera sistemática y estructurada de criterios de calidad específicos para minería de datos que ayude al minero de datos en sus objetivos.