23 resultados para Greedy String Tiling
Resumo:
Multi-label classification (MLC) is the supervised learning problem where an instance may be associated with multiple labels. Modeling dependencies between labels allows MLC methods to improve their performance at the expense of an increased computational cost. In this paper we focus on the classifier chains (CC) approach for modeling dependencies. On the one hand, the original CC algorithm makes a greedy approximation, and is fast but tends to propagate errors down the chain. On the other hand, a recent Bayes-optimal method improves the performance, but is computationally intractable in practice. Here we present a novel double-Monte Carlo scheme (M2CC), both for finding a good chain sequence and performing efficient inference. The M2CC algorithm remains tractable for high-dimensional data sets and obtains the best overall accuracy, as shown on several real data sets with input dimension as high as 1449 and up to 103 labels.
Resumo:
Probabilistic graphical models are a huge research field in artificial intelligence nowadays. The scope of this work is the study of directed graphical models for the representation of discrete distributions. Two of the main research topics related to this area focus on performing inference over graphical models and on learning graphical models from data. Traditionally, the inference process and the learning process have been treated separately, but given that the learned models structure marks the inference complexity, this kind of strategies will sometimes produce very inefficient models. With the purpose of learning thinner models, in this master thesis we propose a new model for the representation of network polynomials, which we call polynomial trees. Polynomial trees are a complementary representation for Bayesian networks that allows an efficient evaluation of the inference complexity and provides a framework for exact inference. We also propose a set of methods for the incremental compilation of polynomial trees and an algorithm for learning polynomial trees from data using a greedy score+search method that includes the inference complexity as a penalization in the scoring function.
Resumo:
Multi-dimensional classification (MDC) is the supervised learning problem where an instance is associated with multiple classes, rather than with a single class, as in traditional classification problems. Since these classes are often strongly correlated, modeling the dependencies between them allows MDC methods to improve their performance – at the expense of an increased computational cost. In this paper we focus on the classifier chains (CC) approach for modeling dependencies, one of the most popular and highest-performing methods for multi-label classification (MLC), a particular case of MDC which involves only binary classes (i.e., labels). The original CC algorithm makes a greedy approximation, and is fast but tends to propagate errors along the chain. Here we present novel Monte Carlo schemes, both for finding a good chain sequence and performing efficient inference. Our algorithms remain tractable for high-dimensional data sets and obtain the best predictive performance across several real data sets.
Resumo:
El paso superior sobre la GI-40, incluido en la conexión entre Martutene-Hospitales y la A-8, se resuelve, debido a la imposibilidad de disponer pilas intermedias, mediante un vano único de 37,6 m, minimizando, a su vez, la afección al tráfico durante la construcción. La estructura metálica principal sustenta un tablero inferior mixto encofrado con chapa grecada, satisfaciendo los requerimientos de gálibo de la vía inferior y mejorando la seguridad durante la construcción. El esquema estructural, a medio camino entre un arco ?bow-string? y una viga Vierendeel de canto variable, permite alcanzar una disposición robusta, de formas limpias y de alta permeabilidad visual, que, junto con el acabado ofrecido por los estribos de suelo reforzado, configuran un marco estético de calidad que resulta compatible con una alta optimización económica y funcional de la estructura.
Resumo:
This paper presents the impact of non-homogeneous deposits of dust on the performance of a PV array. The observations have been made in a 2-MW PV park in the southeast region of Spain. The results are that inhomogeneous dust leads to more significant consequences than the mere short-circuit current reduction resulting from transmittance losses. In particular, when the affected PV modules are part of a string together with other cleaned (or less dusty) ones, operation voltage losses arise. These voltage losses can be several times larger than the short-circuit ones, leading to power losses that can be much larger than what measurements suggest when the PV modules are considered separately. Significant hot-spot phenomena can also arise leading to cells exhibiting temperature differences of more than 20 degrees and thus representing a threat to the PV modules' lifetime.
Resumo:
La estructura económica mundial, con centros de producción y consumo descentralizados y el consiguiente aumento en el tráfico de mercancías en todo el mundo, crea considerables problemas y desafíos para el sector del transporte de mercancías. Esta situación ha llevado al transporte marítimo a convertirse en el modo más económico y más adecuado para el transporte de mercancías a nivel global. De este modo, los puertos marítimos se configuran como nodos de importancia capital en la cadena de suministro al servir como enlace entre dos sistemas de transporte, el marítimo y el terrestre. El aumento de la actividad en los puertos marítimos produce tres efectos indeseables: el aumento de la congestión vial, la falta de espacio abierto en las instalaciones portuarias y un impacto ambiental significativo en los puertos marítimos. Los puertos secos nacen para favorecer la utilización de cada modo de transporte en los segmentos en que resultan más competitivos y para mitigar estos problemas moviendo parte de la actividad en el interior. Además, gracias a la implantación de puertos secos es posible discretizar cada uno de los eslabones de la cadena de transporte, permitiendo que los modos más contaminantes y con menor capacidad de transporte tengan itinerarios lo más cortos posible, o bien, sean utilizados únicamente para el transporte de mercancías de alto valor añadido. Así, los puertos secos se presentan como una oportunidad para fortalecer las soluciones intermodales como parte de una cadena integrada de transporte sostenible, potenciando el transporte de mercancías por ferrocarril. Sin embargo, su potencial no es aprovechado al no existir una metodología de planificación de la ubicación de uso sencillo y resultados claros para la toma de decisiones a partir de los criterios ingenieriles definidos por los técnicos. La decisión de dónde ubicar un puerto seco exige un análisis exhaustivo de toda la cadena logística, con el objetivo de transferir el mayor volumen de tráfico posible a los modos más eficientes desde el punto de vista energético, que son menos perjudiciales para el medio ambiente. Sin embargo, esta decisión también debe garantizar la sostenibilidad de la propia localización. Esta Tesis Doctoral, pretende sentar las bases teóricas para el desarrollo de una herramienta de Herramienta de Ayuda a la Toma de Decisiones que permita establecer la localización más adecuada para la construcción de puertos secos. Este primer paso es el desarrollo de una metodología de evaluación de la sostenibilidad y la calidad de las localizaciones de los puertos secos actuales mediante el uso de las siguientes técnicas: Metodología DELPHI, Redes Bayesianas, Análisis Multicriterio y Sistemas de Información Geográfica. Reconociendo que la determinación de la ubicación más adecuada para situar diversos tipos de instalaciones es un importante problema geográfico, con significativas repercusiones medioambientales, sociales, económicos, locacionales y de accesibilidad territorial, se considera un conjunto de 40 variables (agrupadas en 17 factores y estos, a su vez, en 4 criterios) que permiten evaluar la sostenibilidad de las localizaciones. El Análisis Multicriterio se utiliza como forma de establecer una puntuación a través de un algoritmo de scoring. Este algoritmo se alimenta a través de: 1) unas calificaciones para cada variable extraídas de información geográfica analizada con ArcGIS (Criteria Assessment Score); 2) los pesos de los factores obtenidos a través de un cuestionario DELPHI, una técnica caracterizada por su capacidad para alcanzar consensos en un grupo de expertos de muy diferentes especialidades: logística, sostenibilidad, impacto ambiental, planificación de transportes y geografía; y 3) los pesos de las variables, para lo que se emplean las Redes Bayesianas lo que supone una importante aportación metodológica al tratarse de una novedosa aplicación de esta técnica. Los pesos se obtienen aprovechando la capacidad de clasificación de las Redes Bayesianas, en concreto de una red diseñada con un algoritmo de tipo greedy denominado K2 que permite priorizar cada variable en función de las relaciones que se establecen en el conjunto de variables. La principal ventaja del empleo de esta técnica es la reducción de la arbitrariedad en la fijación de los pesos de la cual suelen adolecer las técnicas de Análisis Multicriterio. Como caso de estudio, se evalúa la sostenibilidad de los 10 puertos secos existentes en España. Los resultados del cuestionario DELPHI revelan una mayor importancia a la hora de buscar la localización de un Puerto Seco en los aspectos tenidos en cuenta en las teorías clásicas de localización industrial, principalmente económicos y de accesibilidad. Sin embargo, no deben perderse de vista el resto de factores, cuestión que se pone de manifiesto a través del cuestionario, dado que ninguno de los factores tiene un peso tan pequeño como para ser despreciado. Por el contrario, los resultados de la aplicación de Redes Bayesianas, muestran una mayor importancia de las variables medioambientales, por lo que la sostenibilidad de las localizaciones exige un gran respeto por el medio natural y el medio urbano en que se encuadra. Por último, la aplicación práctica refleja que la localización de los puertos secos existentes en España en la actualidad presenta una calidad modesta, que parece responder más a decisiones políticas que a criterios técnicos. Por ello, deben emprenderse políticas encaminadas a generar un modelo logístico colaborativo-competitivo en el que se evalúen los diferentes factores tenidos en cuenta en esta investigación. The global economic structure, with its decentralized production and the consequent increase in freight traffic all over the world, creates considerable problems and challenges for the freight transport sector. This situation has led shipping to become the most suitable and cheapest way to transport goods. Thus, ports are configured as nodes with critical importance in the logistics supply chain as a link between two transport systems, sea and land. Increase in activity at seaports is producing three undesirable effects: increasing road congestion, lack of open space in port installations and a significant environmental impact on seaports. These adverse effects can be mitigated by moving part of the activity inland. Implementation of dry ports is a possible solution and would also provide an opportunity to strengthen intermodal solutions as part of an integrated and more sustainable transport chain, acting as a link between road and railway networks. In this sense, implementation of dry ports allows the separation of the links of the transport chain, thus facilitating the shortest possible routes for the lowest capacity and most polluting means of transport. Thus, the decision of where to locate a dry port demands a thorough analysis of the whole logistics supply chain, with the objective of transferring the largest volume of goods possible from road to more energy efficient means of transport, like rail or short-sea shipping, that are less harmful to the environment. However, the decision of where to locate a dry port must also ensure the sustainability of the site. Thus, the main goal of this dissertation is to research the variables influencing the sustainability of dry port location and how this sustainability can be evaluated. With this objective, in this research we present a methodology for assessing the sustainability of locations by the use of Multi-Criteria Decision Analysis (MCDA) and Bayesian Networks (BNs). MCDA is used as a way to establish a scoring, whilst BNs were chosen to eliminate arbitrariness in setting the weightings using a technique that allows us to prioritize each variable according to the relationships established in the set of variables. In order to determine the relationships between all the variables involved in the decision, giving us the importance of each factor and variable, we built a K2 BN algorithm. To obtain the scores of each variable, we used a complete cartography analysed by ArcGIS. Recognising that setting the most appropriate location to place a dry port is a geographical multidisciplinary problem, with significant economic, social and environmental implications, we consider 41 variables (grouped into 17 factors) which respond to this need. As a case of study, the sustainability of all of the 10 existing dry ports in Spain has been evaluated. In this set of logistics platforms, we found that the most important variables for achieving sustainability are those related to environmental protection, so the sustainability of the locations requires a great respect for the natural environment and the urban environment in which they are framed.
Resumo:
El uso de aritmética de punto fijo es una opción de diseño muy extendida en sistemas con fuertes restricciones de área, consumo o rendimiento. Para producir implementaciones donde los costes se minimicen sin impactar negativamente en la precisión de los resultados debemos llevar a cabo una asignación cuidadosa de anchuras de palabra. Encontrar la combinación óptima de anchuras de palabra en coma fija para un sistema dado es un problema combinatorio NP-hard al que los diseñadores dedican entre el 25 y el 50 % del ciclo de diseño. Las plataformas hardware reconfigurables, como son las FPGAs, también se benefician de las ventajas que ofrece la aritmética de coma fija, ya que éstas compensan las frecuencias de reloj más bajas y el uso más ineficiente del hardware que hacen estas plataformas respecto a los ASICs. A medida que las FPGAs se popularizan para su uso en computación científica los diseños aumentan de tamaño y complejidad hasta llegar al punto en que no pueden ser manejados eficientemente por las técnicas actuales de modelado de señal y ruido de cuantificación y de optimización de anchura de palabra. En esta Tesis Doctoral exploramos distintos aspectos del problema de la cuantificación y presentamos nuevas metodologías para cada uno de ellos: Las técnicas basadas en extensiones de intervalos han permitido obtener modelos de propagación de señal y ruido de cuantificación muy precisos en sistemas con operaciones no lineales. Nosotros llevamos esta aproximación un paso más allá introduciendo elementos de Multi-Element Generalized Polynomial Chaos (ME-gPC) y combinándolos con una técnica moderna basada en Modified Affine Arithmetic (MAA) estadístico para así modelar sistemas que contienen estructuras de control de flujo. Nuestra metodología genera los distintos caminos de ejecución automáticamente, determina las regiones del dominio de entrada que ejercitarán cada uno de ellos y extrae los momentos estadísticos del sistema a partir de dichas soluciones parciales. Utilizamos esta técnica para estimar tanto el rango dinámico como el ruido de redondeo en sistemas con las ya mencionadas estructuras de control de flujo y mostramos la precisión de nuestra aproximación, que en determinados casos de uso con operadores no lineales llega a tener tan solo una desviación del 0.04% con respecto a los valores de referencia obtenidos mediante simulación. Un inconveniente conocido de las técnicas basadas en extensiones de intervalos es la explosión combinacional de términos a medida que el tamaño de los sistemas a estudiar crece, lo cual conlleva problemas de escalabilidad. Para afrontar este problema presen tamos una técnica de inyección de ruidos agrupados que hace grupos con las señales del sistema, introduce las fuentes de ruido para cada uno de los grupos por separado y finalmente combina los resultados de cada uno de ellos. De esta forma, el número de fuentes de ruido queda controlado en cada momento y, debido a ello, la explosión combinatoria se minimiza. También presentamos un algoritmo de particionado multi-vía destinado a minimizar la desviación de los resultados a causa de la pérdida de correlación entre términos de ruido con el objetivo de mantener los resultados tan precisos como sea posible. La presente Tesis Doctoral también aborda el desarrollo de metodologías de optimización de anchura de palabra basadas en simulaciones de Monte-Cario que se ejecuten en tiempos razonables. Para ello presentamos dos nuevas técnicas que exploran la reducción del tiempo de ejecución desde distintos ángulos: En primer lugar, el método interpolativo aplica un interpolador sencillo pero preciso para estimar la sensibilidad de cada señal, y que es usado después durante la etapa de optimización. En segundo lugar, el método incremental gira en torno al hecho de que, aunque es estrictamente necesario mantener un intervalo de confianza dado para los resultados finales de nuestra búsqueda, podemos emplear niveles de confianza más relajados, lo cual deriva en un menor número de pruebas por simulación, en las etapas iniciales de la búsqueda, cuando todavía estamos lejos de las soluciones optimizadas. Mediante estas dos aproximaciones demostramos que podemos acelerar el tiempo de ejecución de los algoritmos clásicos de búsqueda voraz en factores de hasta x240 para problemas de tamaño pequeño/mediano. Finalmente, este libro presenta HOPLITE, una infraestructura de cuantificación automatizada, flexible y modular que incluye la implementación de las técnicas anteriores y se proporciona de forma pública. Su objetivo es ofrecer a desabolladores e investigadores un entorno común para prototipar y verificar nuevas metodologías de cuantificación de forma sencilla. Describimos el flujo de trabajo, justificamos las decisiones de diseño tomadas, explicamos su API pública y hacemos una demostración paso a paso de su funcionamiento. Además mostramos, a través de un ejemplo sencillo, la forma en que conectar nuevas extensiones a la herramienta con las interfaces ya existentes para poder así expandir y mejorar las capacidades de HOPLITE. ABSTRACT Using fixed-point arithmetic is one of the most common design choices for systems where area, power or throughput are heavily constrained. In order to produce implementations where the cost is minimized without negatively impacting the accuracy of the results, a careful assignment of word-lengths is required. The problem of finding the optimal combination of fixed-point word-lengths for a given system is a combinatorial NP-hard problem to which developers devote between 25 and 50% of the design-cycle time. Reconfigurable hardware platforms such as FPGAs also benefit of the advantages of fixed-point arithmetic, as it compensates for the slower clock frequencies and less efficient area utilization of the hardware platform with respect to ASICs. As FPGAs become commonly used for scientific computation, designs constantly grow larger and more complex, up to the point where they cannot be handled efficiently by current signal and quantization noise modelling and word-length optimization methodologies. In this Ph.D. Thesis we explore different aspects of the quantization problem and we present new methodologies for each of them: The techniques based on extensions of intervals have allowed to obtain accurate models of the signal and quantization noise propagation in systems with non-linear operations. We take this approach a step further by introducing elements of MultiElement Generalized Polynomial Chaos (ME-gPC) and combining them with an stateof- the-art Statistical Modified Affine Arithmetic (MAA) based methodology in order to model systems that contain control-flow structures. Our methodology produces the different execution paths automatically, determines the regions of the input domain that will exercise them, and extracts the system statistical moments from the partial results. We use this technique to estimate both the dynamic range and the round-off noise in systems with the aforementioned control-flow structures. We show the good accuracy of our approach, which in some case studies with non-linear operators shows a 0.04 % deviation respect to the simulation-based reference values. A known drawback of the techniques based on extensions of intervals is the combinatorial explosion of terms as the size of the targeted systems grows, which leads to scalability problems. To address this issue we present a clustered noise injection technique that groups the signals in the system, introduces the noise terms in each group independently and then combines the results at the end. In this way, the number of noise sources in the system at a given time is controlled and, because of this, the combinato rial explosion is minimized. We also present a multi-way partitioning algorithm aimed at minimizing the deviation of the results due to the loss of correlation between noise terms, in order to keep the results as accurate as possible. This Ph.D. Thesis also covers the development of methodologies for word-length optimization based on Monte-Carlo simulations in reasonable times. We do so by presenting two novel techniques that explore the reduction of the execution times approaching the problem in two different ways: First, the interpolative method applies a simple but precise interpolator to estimate the sensitivity of each signal, which is later used to guide the optimization effort. Second, the incremental method revolves on the fact that, although we strictly need to guarantee a certain confidence level in the simulations for the final results of the optimization process, we can do it with more relaxed levels, which in turn implies using a considerably smaller amount of samples, in the initial stages of the process, when we are still far from the optimized solution. Through these two approaches we demonstrate that the execution time of classical greedy techniques can be accelerated by factors of up to ×240 for small/medium sized problems. Finally, this book introduces HOPLITE, an automated, flexible and modular framework for quantization that includes the implementation of the previous techniques and is provided for public access. The aim is to offer a common ground for developers and researches for prototyping and verifying new techniques for system modelling and word-length optimization easily. We describe its work flow, justifying the taken design decisions, explain its public API and we do a step-by-step demonstration of its execution. We also show, through an example, the way new extensions to the flow should be connected to the existing interfaces in order to expand and improve the capabilities of HOPLITE.
Resumo:
The inverter in a photovoltaic system assures two essential functions. The first is to track the maximum power point of the system IV curve throughout variable environmental conditions. The second is to convert DC power delivered by the PV panels into AC power. Nowadays, in order to qualify inverters, manufacturers and certifying organisms use mainly European and/or CEC efficiency standards. The question arises if these are still representative of CPV system behaviour. We propose to use a set of CPV – specific weighted average and a representative dynamic response to have a better determination of the static and dynamic MPPT efficiencies. Four string-sized commercial inverters used in real CPV plants have been tested.