7 resultados para Multi-grade classes
em Universidad Politécnica de Madrid
Resumo:
The multi-dimensional classification problem is a generalisation of the recently-popularised task of multi-label classification, where each data instance is associated with multiple class variables. There has been relatively little research carried out specific to multi-dimensional classification and, although one of the core goals is similar (modelling dependencies among classes), there are important differences; namely a higher number of possible classifications. In this paper we present method for multi-dimensional classification, drawing from the most relevant multi-label research, and combining it with important novel developments. Using a fast method to model the conditional dependence between class variables, we form super-class partitions and use them to build multi-dimensional learners, learning each super-class as an ordinary class, and thus explicitly modelling class dependencies. Additionally, we present a mechanism to deal with the many class values inherent to super-classes, and thus make learning efficient. To investigate the effectiveness of this approach we carry out an empirical evaluation on a range of multi-dimensional datasets, under different evaluation metrics, and in comparison with high-performing existing multi-dimensional approaches from the literature. Analysis of results shows that our approach offers important performance gains over competing methods, while also exhibiting tractable running time.
Resumo:
We establish an axiomatic model of multi-measures, capturing some classes of measures studied in the fuzzy sets literature, where they are applied to only one or two arguments.
Resumo:
Las aplicaciones de la teledetección al seguimiento de lo que ocurre en la superficie terrestre se han ido multiplicando y afinando con el lanzamiento de nuevos sensores por parte de las diferentes agencias espaciales. La necesidad de tener información actualizada cada poco tiempo y espacialmente homogénea, ha provocado el desarrollo de nuevos programas como el Earth Observing System (EOS) de la National Aeronautics and Space Administration (NASA). Uno de los sensores que incorpora el buque insignia de ese programa, el satélite TERRA, es el Multi-angle Imaging SpectroRadiometer (MISR), diseñado para capturar información multiangular de la superficie terrestre. Ya desde los años 1970, se conocía que la reflectancia de las diversas ocupaciones y usos del suelo variaba en función del ángulo de observación y de iluminación, es decir, que eran anisotrópicas. Tal variación estaba además relacionada con la estructura tridimensional de tales ocupaciones, por lo que se podía aprovechar tal relación para obtener información de esa estructura, más allá de la que pudiera proporcionar la información meramente espectral. El sensor MISR incorpora 9 cámaras a diferentes ángulos para capturar 9 imágenes casi simultáneas del mismo punto, lo que permite estimar con relativa fiabilidad la respuesta anisotrópica de la superficie terrestre. Varios trabajos han demostrado que se pueden estimar variables relacionadas con la estructura de la vegetación con la información que proporciona MISR. En esta Tesis se ha realizado una primera aplicación a la Península Ibérica, para comprobar su utilidad a la hora de estimar variables de interés forestal. En un primer paso se ha analizado la variabilidad temporal que se produce en los datos, debido a los cambios en la geometría de captación, es decir, debido a la posición relativa de sensores y fuente de iluminación, que en este caso es el Sol. Se ha comprobado cómo la anisotropía es mayor desde finales de otoño hasta principios de primavera debido a que la posición del Sol es más cercana al plano de los sensores. También se ha comprobado que los valores máximo y mínimo se van desplazando temporalmente entre el centro y el extremo angular. En la caracterización multiangular de ocupaciones del suelo de CORINE Land Cover que se ha realizado, se puede observar cómo la forma predominante en las imágenes con el Sol más alto es convexa con un máximo en la cámara más cercana a la fuente de iluminación. Sin embargo, cuando el Sol se encuentra mucho más bajo, ese máximo es muy externo. Por otra parte, los datos obtenidos en verano son mucho más variables para cada ocupación que los de noviembre, posiblemente debido al aumento proporcional de las zonas en sombra. Para comprobar si la información multiangular tiene algún efecto en la obtención de imágenes clasificadas según ocupación y usos del suelo, se han realizado una serie de clasificaciones variando la información utilizada, desde sólo multiespectral, a multiangular y multiespectral. Los resultados muestran que, mientras para las clasificaciones más genéricas la información multiangular proporciona los peores resultados, a medida que se amplían el número de clases a obtener tal información mejora a lo obtenido únicamente con información multiespectral. Por otra parte, se ha realizado una estimación de variables cuantitativas como la fracción de cabida cubierta (Fcc) y la altura de la vegetación a partir de información proporcionada por MISR a diferentes resoluciones. En el valle de Alcudia (Ciudad Real) se ha estimado la fracción de cabida cubierta del arbolado para un píxel de 275 m utilizando redes neuronales. Los resultados muestran que utilizar información multiespectral y multiangular puede mejorar casi un 20% las estimaciones realizadas sólo con datos multiespectrales. Además, las relaciones obtenidas llegan al 0,7 de R con errores inferiores a un 10% en Fcc, siendo éstos mucho mejores que los obtenidos con el producto elaborado a partir de datos multiespectrales del sensor Moderate Resolution Imaging Spectroradiometer (MODIS), también a bordo de Terra, para la misma variable. Por último, se ha estimado la fracción de cabida cubierta y la altura efectiva de la vegetación para 700.000 ha de la provincia de Murcia, con una resolución de 1.100 m. Los resultados muestran la relación existente entre los datos espectrales y los multiangulares, obteniéndose coeficientes de Spearman del orden de 0,8 en el caso de la fracción de cabida cubierta de la vegetación, y de 0,4 en el caso de la altura efectiva. Las estimaciones de ambas variables con redes neuronales y diversas combinaciones de datos, arrojan resultados con R superiores a 0,85 para el caso del grado de cubierta vegetal, y 0,6 para la altura efectiva. Los parámetros multiangulares proporcionados en los productos elaborados con MISR a 1.100 m, no obtienen buenos resultados por sí mismos pero producen cierta mejora al incorporarlos a la información espectral. Los errores cuadráticos medios obtenidos son inferiores a 0,016 para la Fcc de la vegetación en tanto por uno, y 0,7 m para la altura efectiva de la misma. Regresiones geográficamente ponderadas muestran además que localmente se pueden obtener mejores resultados aún mejores, especialmente cuando hay una mayor variabilidad espacial de las variables estimadas. En resumen, la utilización de los datos proporcionados por MISR ofrece una prometedora vía de mejora de resultados en la media-baja resolución, tanto para la clasificación de imágenes como para la obtención de variables cuantitativas de la estructura de la vegetación. ABSTRACT Applications of remote sensing for monitoring what is happening on the land surface have been multiplied and refined with the launch of new sensors by different Space Agencies. The need of having up to date and spatially homogeneous data, has led to the development of new programs such as the Earth Observing System (EOS) of the National Aeronautics and Space Administration (NASA). One of the sensors incorporating the flagship of that program, the TERRA satellite, is Multi-angle Imaging Spectroradiometer (MISR), designed to capture the multi-angle information of the Earth's surface. Since the 1970s, it was known that the reflectance of various land covers and land uses varied depending on the viewing and ilumination angles, so they are anisotropic. Such variation was also related to the three dimensional structure of such covers, so that one could take advantage of such a relationship to obtain information from that structure, beyond which spectral information could provide. The MISR sensor incorporates 9 cameras at different angles to capture 9 almost simultaneous images of the same point, allowing relatively reliable estimates of the anisotropic response of the Earth's surface. Several studies have shown that we can estimate variables related to the vegetation structure with the information provided by this sensor, so this thesis has made an initial application to the Iberian Peninsula, to check their usefulness in estimating forest variables of interest. In a first step we analyzed the temporal variability that occurs in the data, due to the changes in the acquisition geometry, i.e. the relative position of sensor and light source, which in this case is the Sun. It has been found that the anisotropy is greater from late fall through early spring due to the Sun's position closer to the plane of the sensors. It was also found that the maximum and minimum values are displaced temporarily between the center and the ends. In characterizing CORINE Land Covers that has been done, one could see how the predominant form in the images with the highest sun is convex with a maximum in the camera closer to the light source. However, when the sun is much lower, the maximum is external. Moreover, the data obtained for each land cover are much more variable in summer that in November, possibly due to the proportional increase in shadow areas. To check whether the information has any effect on multi-angle imaging classification of land cover and land use, a series of classifications have been produced changing the data used, from only multispectrally, to multi-angle and multispectral. The results show that while for the most generic classifications multi-angle information is the worst, as there are extended the number of classes to obtain such information it improves the results. On the other hand, an estimate was made of quantitative variables such as canopy cover and vegetation height using information provided by MISR at different resolutions. In the valley of Alcudia (Ciudad Real), we estimated the canopy cover of trees for a pixel of 275 m by using neural networks. The results showed that using multispectral and multiangle information can improve by almost 20% the estimates that only used multispectral data. Furthermore, the relationships obtained reached an R coefficient of 0.7 with errors below 10% in canopy cover, which is much better result than the one obtained using data from the Moderate Resolution Imaging Spectroradiometer (MODIS), also onboard Terra, for the same variable. Finally we estimated the canopy cover and the effective height of the vegetation for 700,000 hectares in the province of Murcia, with a spatial resolution of 1,100 m. The results show a relationship between the spectral and the multi-angle data, and provide estimates of the canopy cover with a Spearman’s coefficient of 0.8 in the case of the vegetation canopy cover, and 0.4 in the case of the effective height. The estimates of both variables using neural networks and various combinations of data, yield results with an R coefficient greater than 0.85 for the case of the canopy cover, and 0.6 for the effective height. Multi-angle parameters provided in the products made from MISR at 1,100 m pixel size, did not produce good results from themselves but improved the results when included to the spectral information. The mean square errors were less than 0.016 for the canopy cover, and 0.7 m for the effective height. Geographically weighted regressions also showed that locally we can have even better results, especially when there is high spatial variability of estimated variables. In summary, the use of the data provided by MISR offers a promising way of improving remote sensing performance in the low-medium spatial resolution, both for image classification and for the estimation of quantitative variables of the vegetation structure.
Resumo:
We present ARGoS, a novel open source multi-robot simulator. The main design focus of ARGoS is the real-time simulation of large heterogeneous swarms of robots. Existing robot simulators obtain scalability by imposing limitations on their extensibility and on the accuracy of the robot models. By contrast, in ARGoS we pursue a deeply modular approach that allows the user both to easily add custom features and to allocate computational resources where needed by the experiment. A unique feature of ARGoS is the possibility to use multiple physics engines of different types and to assign them to different parts of the environment. Robots can migrate from one engine to another transparently. This feature enables entirely novel classes of optimizations to improve scalability and paves the way for a new approach to parallelism in robotics simulation. Results show that ARGoS can simulate about 10,000 simple wheeled robots 40% faster than real-time.
Resumo:
Bayesian network classifiers are widely used in machine learning because they intuitively represent causal relations. Multi-label classification problems require each instance to be assigned a subset of a defined set of h labels. This problem is equivalent to finding a multi-valued decision function that predicts a vector of h binary classes. In this paper we obtain the decision boundaries of two widely used Bayesian network approaches for building multi-label classifiers: Multi-label Bayesian network classifiers built using the binary relevance method and Bayesian network chain classifiers. We extend our previous single-label results to multi-label chain classifiers, and we prove that, as expected, chain classifiers provide a more expressive model than the binary relevance method.
Resumo:
Multi-dimensional classification (MDC) is the supervised learning problem where an instance is associated with multiple classes, rather than with a single class, as in traditional classification problems. Since these classes are often strongly correlated, modeling the dependencies between them allows MDC methods to improve their performance – at the expense of an increased computational cost. In this paper we focus on the classifier chains (CC) approach for modeling dependencies, one of the most popular and highest-performing methods for multi-label classification (MLC), a particular case of MDC which involves only binary classes (i.e., labels). The original CC algorithm makes a greedy approximation, and is fast but tends to propagate errors along the chain. Here we present novel Monte Carlo schemes, both for finding a good chain sequence and performing efficient inference. Our algorithms remain tractable for high-dimensional data sets and obtain the best predictive performance across several real data sets.
Resumo:
La familia de algoritmos de Boosting son un tipo de técnicas de clasificación y regresión que han demostrado ser muy eficaces en problemas de Visión Computacional. Tal es el caso de los problemas de detección, de seguimiento o bien de reconocimiento de caras, personas, objetos deformables y acciones. El primer y más popular algoritmo de Boosting, AdaBoost, fue concebido para problemas binarios. Desde entonces, muchas han sido las propuestas que han aparecido con objeto de trasladarlo a otros dominios más generales: multiclase, multilabel, con costes, etc. Nuestro interés se centra en extender AdaBoost al terreno de la clasificación multiclase, considerándolo como un primer paso para posteriores ampliaciones. En la presente tesis proponemos dos algoritmos de Boosting para problemas multiclase basados en nuevas derivaciones del concepto margen. El primero de ellos, PIBoost, está concebido para abordar el problema descomponiéndolo en subproblemas binarios. Por un lado, usamos una codificación vectorial para representar etiquetas y, por otro, utilizamos la función de pérdida exponencial multiclase para evaluar las respuestas. Esta codificación produce un conjunto de valores margen que conllevan un rango de penalizaciones en caso de fallo y recompensas en caso de acierto. La optimización iterativa del modelo genera un proceso de Boosting asimétrico cuyos costes dependen del número de etiquetas separadas por cada clasificador débil. De este modo nuestro algoritmo de Boosting tiene en cuenta el desbalanceo debido a las clases a la hora de construir el clasificador. El resultado es un método bien fundamentado que extiende de manera canónica al AdaBoost original. El segundo algoritmo propuesto, BAdaCost, está concebido para problemas multiclase dotados de una matriz de costes. Motivados por los escasos trabajos dedicados a generalizar AdaBoost al terreno multiclase con costes, hemos propuesto un nuevo concepto de margen que, a su vez, permite derivar una función de pérdida adecuada para evaluar costes. Consideramos nuestro algoritmo como la extensión más canónica de AdaBoost para este tipo de problemas, ya que generaliza a los algoritmos SAMME, Cost-Sensitive AdaBoost y PIBoost. Por otro lado, sugerimos un simple procedimiento para calcular matrices de coste adecuadas para mejorar el rendimiento de Boosting a la hora de abordar problemas estándar y problemas con datos desbalanceados. Una serie de experimentos nos sirven para demostrar la efectividad de ambos métodos frente a otros conocidos algoritmos de Boosting multiclase en sus respectivas áreas. En dichos experimentos se usan bases de datos de referencia en el área de Machine Learning, en primer lugar para minimizar errores y en segundo lugar para minimizar costes. Además, hemos podido aplicar BAdaCost con éxito a un proceso de segmentación, un caso particular de problema con datos desbalanceados. Concluimos justificando el horizonte de futuro que encierra el marco de trabajo que presentamos, tanto por su aplicabilidad como por su flexibilidad teórica. Abstract The family of Boosting algorithms represents a type of classification and regression approach that has shown to be very effective in Computer Vision problems. Such is the case of detection, tracking and recognition of faces, people, deformable objects and actions. The first and most popular algorithm, AdaBoost, was introduced in the context of binary classification. Since then, many works have been proposed to extend it to the more general multi-class, multi-label, costsensitive, etc... domains. Our interest is centered in extending AdaBoost to two problems in the multi-class field, considering it a first step for upcoming generalizations. In this dissertation we propose two Boosting algorithms for multi-class classification based on new generalizations of the concept of margin. The first of them, PIBoost, is conceived to tackle the multi-class problem by solving many binary sub-problems. We use a vectorial codification to represent class labels and a multi-class exponential loss function to evaluate classifier responses. This representation produces a set of margin values that provide a range of penalties for failures and rewards for successes. The stagewise optimization of this model introduces an asymmetric Boosting procedure whose costs depend on the number of classes separated by each weak-learner. In this way the Boosting procedure takes into account class imbalances when building the ensemble. The resulting algorithm is a well grounded method that canonically extends the original AdaBoost. The second algorithm proposed, BAdaCost, is conceived for multi-class problems endowed with a cost matrix. Motivated by the few cost-sensitive extensions of AdaBoost to the multi-class field, we propose a new margin that, in turn, yields a new loss function appropriate for evaluating costs. Since BAdaCost generalizes SAMME, Cost-Sensitive AdaBoost and PIBoost algorithms, we consider our algorithm as a canonical extension of AdaBoost to this kind of problems. We additionally suggest a simple procedure to compute cost matrices that improve the performance of Boosting in standard and unbalanced problems. A set of experiments is carried out to demonstrate the effectiveness of both methods against other relevant Boosting algorithms in their respective areas. In the experiments we resort to benchmark data sets used in the Machine Learning community, firstly for minimizing classification errors and secondly for minimizing costs. In addition, we successfully applied BAdaCost to a segmentation task, a particular problem in presence of imbalanced data. We conclude the thesis justifying the horizon of future improvements encompassed in our framework, due to its applicability and theoretical flexibility.