12 resultados para VISIÓN ARTIFICIAL
em Universidad Politécnica de Madrid
Resumo:
El desarrollo de actividades de carga y descarga son parte de la esencia de la naturaleza funcional de un puerto, de las cuales derivan en gran medida los ingresos del mismo y la eficiencia de la cadena logística en su conjunto. Las oscilaciones en el interior de una dársena y en un línea de atraque disminuyen la calidad de la estancia de las embarcaciones en puerto, reducen el rendimiento de la estiba de los buques y solicitan y fatigan las estructuras y los cuerpos flotantes amarrados. Si los parámetros que definen la agitación local se aproximan a regiones de fallo 0 parada, el subsistema pierde rendimiento, fiabilidad y finalmente se paralizan las operaciones, produciéndose de este modo tiempos de inactividad. Estas paradas operativas conllevan pérdidas económicas para la terminal y, consecuentemente, para el puerto. Hoy día se dispone vastas redes de monitorización destinadas a la caracterización del medio físico en el entorno de los puertos. Paralelamente, las operaciones de manipulación de cargas en las terminales se están dirigiendo hacia modelos de automatización o semi automatización, que permiten no sólo la sistematización de procesos, sino también un profundo conocimiento del flujo de tareas. En este contexto hay un déficit de información sobre cómo afectan los diferentes forzadores del medio físico al rendimiento, la seguridad funcionalidad del proceso de manipulación de carga y descarga. Esto se debe en gran medida a la falta de registros dilatados en el tiempo que permitan correlacionar todos los aspectos mencionados de un modo particularizado para cada línea de atraque y amarre de un puerto. En esta tesis se desarrolla una metodología de vídeo monitorización no intrusiva y de bajo coste basada en la aplicación de técnicas "pixel tool' y la obtención de los parámetros extrínsecos de una observación monofocal. Con ello pretende poner en valor las infraestructuras de vídeo vigilancia de los puertos y de los laboratorios de experimentación a escala reducida, con el objeto de facilitar el estudio los umbrales operativos de las áreas de atraque y amarre. The development of loading and unloading activities is an essential part of he functional nature of a port, which derive largely from he same income and the efficiency of he supply chain as a whole. The oscillations inside a dock and a mooring line diminish he quality of the stay of vessels in port reducing the performance of the stowage of ship and asking and fatigued structures and moored floating bodies. If the parameters defining the local al agitation regions are close to areas of failure or shutdown, he subsystem looses performance, reliability and eventually paralyzes the operations, thereby producing downtime. These operational stops entail economic 1osses to the terminal and, consequently for the port. Today vast networks of monitoring, aimed at he characterization of the physical environment in the vicinity of he ports, are available. In parallel, the cargo handling operations at terminals are moving towards automation or semi-automation models that allow not only the systematization of processes, but also a deep understanding of he workflow. In this context, there is a lack of information about how the different forcing agents of the physical environment affect the performance and he functional safety of the loading and unloading process. This is due largely to the lack of spread-over-time records which would allow to correlate all aspects mentioned, specifically, for each berthing and mooring of a port. This thesis develops a methodology for non-intrusive and low cost monitoring video based on the application of "pixel tool" techniques and on obtaining the extrinsic parameters of a monofocal observation. It seeks an enhancement of the video monitoring infrastructure at ports and at experimental laboratories of reduced scale, in order to facilitate the study of operational thresholds berthing and mooring areas.
Resumo:
La detección de los bordes de líneas en la carretera es una parte muy importante en los sistemas inteligentes de transportación, así como la detección de objetos tal como vehículos, con la finalidad de informar o prevenir a través de una alerta al conductor o al sistema informático. De aquí nace el interés de analizar algunos métodos de visión artificial (VA) que es un subcampo de la inteligencia artificial, cuyo propósito es programar un computador y que este “entienda” una escena o imagen, algunos de los métodos más comunes en la detección de líneas y vehículos (considerados objetos en nuestra investigación) son la transformada de Hough, el método de Canny, clasificador Haar Cascade, filtros de Fourier, etc. Se desarrollará una aplicación de escritorio o PC (Personal Computer) para el reconocimiento de vehículos y las líneas de bordes, el lenguaje de programación utilizado será Python y la biblioteca OpenCV que contiene más de 500 funciones en el campo de visión por computador. La validación del reconocimiento de objetos se la realizará con una prueba de campo. Este resultado apoyará a la automoción (máquina que se desplaza por acción de un motor como el vehículo) con datos que luego pueden ser procesados.
Resumo:
En esta tesis se aborda la detección y el seguimiento automático de vehículos mediante técnicas de visión artificial con una cámara monocular embarcada. Este problema ha suscitado un gran interés por parte de la industria automovilística y de la comunidad científica ya que supone el primer paso en aras de la ayuda a la conducción, la prevención de accidentes y, en última instancia, la conducción automática. A pesar de que se le ha dedicado mucho esfuerzo en los últimos años, de momento no se ha encontrado ninguna solución completamente satisfactoria y por lo tanto continúa siendo un tema de investigación abierto. Los principales problemas que plantean la detección y seguimiento mediante visión artificial son la gran variabilidad entre vehículos, un fondo que cambia dinámicamente debido al movimiento de la cámara, y la necesidad de operar en tiempo real. En este contexto, esta tesis propone un marco unificado para la detección y seguimiento de vehículos que afronta los problemas descritos mediante un enfoque estadístico. El marco se compone de tres grandes bloques, i.e., generación de hipótesis, verificación de hipótesis, y seguimiento de vehículos, que se llevan a cabo de manera secuencial. No obstante, se potencia el intercambio de información entre los diferentes bloques con objeto de obtener el máximo grado posible de adaptación a cambios en el entorno y de reducir el coste computacional. Para abordar la primera tarea de generación de hipótesis, se proponen dos métodos complementarios basados respectivamente en el análisis de la apariencia y la geometría de la escena. Para ello resulta especialmente interesante el uso de un dominio transformado en el que se elimina la perspectiva de la imagen original, puesto que este dominio permite una búsqueda rápida dentro de la imagen y por tanto una generación eficiente de hipótesis de localización de los vehículos. Los candidatos finales se obtienen por medio de un marco colaborativo entre el dominio original y el dominio transformado. Para la verificación de hipótesis se adopta un método de aprendizaje supervisado. Así, se evalúan algunos de los métodos de extracción de características más populares y se proponen nuevos descriptores con arreglo al conocimiento de la apariencia de los vehículos. Para evaluar la efectividad en la tarea de clasificación de estos descriptores, y dado que no existen bases de datos públicas que se adapten al problema descrito, se ha generado una nueva base de datos sobre la que se han realizado pruebas masivas. Finalmente, se presenta una metodología para la fusión de los diferentes clasificadores y se plantea una discusión sobre las combinaciones que ofrecen los mejores resultados. El núcleo del marco propuesto está constituido por un método Bayesiano de seguimiento basado en filtros de partículas. Se plantean contribuciones en los tres elementos fundamentales de estos filtros: el algoritmo de inferencia, el modelo dinámico y el modelo de observación. En concreto, se propone el uso de un método de muestreo basado en MCMC que evita el elevado coste computacional de los filtros de partículas tradicionales y por consiguiente permite que el modelado conjunto de múltiples vehículos sea computacionalmente viable. Por otra parte, el dominio transformado mencionado anteriormente permite la definición de un modelo dinámico de velocidad constante ya que se preserva el movimiento suave de los vehículos en autopistas. Por último, se propone un modelo de observación que integra diferentes características. En particular, además de la apariencia de los vehículos, el modelo tiene en cuenta también toda la información recibida de los bloques de procesamiento previos. El método propuesto se ejecuta en tiempo real en un ordenador de propósito general y da unos resultados sobresalientes en comparación con los métodos tradicionales. ABSTRACT This thesis addresses on-road vehicle detection and tracking with a monocular vision system. This problem has attracted the attention of the automotive industry and the research community as it is the first step for driver assistance and collision avoidance systems and for eventual autonomous driving. Although many effort has been devoted to address it in recent years, no satisfactory solution has yet been devised and thus it is an active research issue. The main challenges for vision-based vehicle detection and tracking are the high variability among vehicles, the dynamically changing background due to camera motion and the real-time processing requirement. In this thesis, a unified approach using statistical methods is presented for vehicle detection and tracking that tackles these issues. The approach is divided into three primary tasks, i.e., vehicle hypothesis generation, hypothesis verification, and vehicle tracking, which are performed sequentially. Nevertheless, the exchange of information between processing blocks is fostered so that the maximum degree of adaptation to changes in the environment can be achieved and the computational cost is alleviated. Two complementary strategies are proposed to address the first task, i.e., hypothesis generation, based respectively on appearance and geometry analysis. To this end, the use of a rectified domain in which the perspective is removed from the original image is especially interesting, as it allows for fast image scanning and coarse hypothesis generation. The final vehicle candidates are produced using a collaborative framework between the original and the rectified domains. A supervised classification strategy is adopted for the verification of the hypothesized vehicle locations. In particular, state-of-the-art methods for feature extraction are evaluated and new descriptors are proposed by exploiting the knowledge on vehicle appearance. Due to the lack of appropriate public databases, a new database is generated and the classification performance of the descriptors is extensively tested on it. Finally, a methodology for the fusion of the different classifiers is presented and the best combinations are discussed. The core of the proposed approach is a Bayesian tracking framework using particle filters. Contributions are made on its three key elements: the inference algorithm, the dynamic model and the observation model. In particular, the use of a Markov chain Monte Carlo method is proposed for sampling, which circumvents the exponential complexity increase of traditional particle filters thus making joint multiple vehicle tracking affordable. On the other hand, the aforementioned rectified domain allows for the definition of a constant-velocity dynamic model since it preserves the smooth motion of vehicles in highways. Finally, a multiple-cue observation model is proposed that not only accounts for vehicle appearance but also integrates the available information from the analysis in the previous blocks. The proposed approach is proven to run near real-time in a general purpose PC and to deliver outstanding results compared to traditional methods.
Resumo:
El hecho de que el exceso de velocidad sea una de las principales causas de accidentes en carretera hace que la medición y control de la velocidad del tráfico rodado cobre cada día mayor importancia. El objetivo del presente trabajo es el desarrollo de un cinemómetro de tráfico que haga uso únicamente de técnicas de visión artificial, es decir, implementar un software que tome como entrada una secuencia de vídeo tomada de una cámara de tráfico y sea capaz de generar como salida la misma información que un cinemómetro basado en el efecto Doppler, es decir, la velocidad del vehículo que en ese momento circula dentro de su campo de acción.
Resumo:
Los alimentos son sistemas complejos, formados por diversas estructuras a diferentes escalas: macroscópica y microscópica. Muchas propiedades de los alimentos, que son importantes para su procesamiento, calidad y tratamiento postcosecha, están relacionados con su microestructura. La presente tesis doctoral propone una metodología completa para la determinación de la estructura de alimentos desde un punto de vista multi-escala, basándose en métodos de Resonancia Magnética Nuclear (NMR). Las técnicas de NMR son no invasivas y no destructivas y permiten el estudio tanto de macro- como de microestructura. Se han utilizado distintos procedimientos de NMR dependiendo del nivel que se desea estudiar. Para el nivel macroestructural, la Imagen de Resonancia Magnética (MRI) ha resultado ser muy útil para la caracterización de alimentos. Para el estudio microestructural, la MRI requiere altos tiempos de adquisición, lo que hace muy difícil la transferencia de esta técnica a aplicaciones en industria. Por tanto, la optimización de procedimientos de NMR basados en secuencias relaxometría 2D T1/T2 ha resultado ser una estrategia primordial en esta tesis. Estos protocolos de NMR se han implementado satisfactoriamente por primera vez en alto campo magnético. Se ha caracterizado la microestructura de productos alimentarios enteros por primera vez utilizando este tipo de protocolos. Como muestras, se han utilizado dos tipos de productos: modelos de alimentos y alimentos reales (manzanas). Además, como primer paso para su posterior implementación en la industria agroalimentaria, se ha mejorado una línea transportadora, especialmente diseñada para trabajar bajo condiciones de NMR en trabajos anteriores del grupo LPF-TAGRALIA. Se han estudiado y seleccionado las secuencias más rápidas y óptimas para la detección de dos tipos de desórdenes internos en manzanas: vitrescencia y roturas internas. La corrección de las imágenes en movimiento se realiza en tiempo real. Asimismo, se han utilizado protocolos de visión artificial para la clasificación automática de manzanas potencialmente afectadas por vitrescencia. El presente documento está dividido en diferentes capítulos: el Capítulo 2 explica los antecedentes de la presente tesis y el marco del proyecto en el que se ha desarrollado. El Capítulo 3 recoge el estado del arte. El Capítulo 4 establece los objetivos de esta tesis doctoral. Los resultados se dividen en cinco sub-secciones (dentro del Capítulo 5) que corresponden con los trabajos publicados bien en revistas revisadas por pares, bien en congresos internacionales o bien como capítulos de libros revisados por pares. La Sección 5.1. es un estudio del desarrollo de la vitrescencia en manzanas mediante MRI y lo relaciona con la posición de la fruta dentro de la copa del árbol. La Sección 5.2 presenta un trabajo sobre macro- y microestructura en modelos de alimentos. La Sección 5.3 es un artículo en revisión en una revista revisada por pares, en el que se hace un estudio microestrcutural no destructivo mediante relaxometría 2D T1/T2. la Sección 5.4, hace una comparación entre manzanas afectadas por vitrescencia mediante dos técnicas: tomografía de rayos X e MRI, en manzana. Por último, en la Sección 5.5 se muestra un trabajo en el que se hace un estudio de secuencias de MRI en línea para la evaluación de calidad interna en manzanas. Los siguientes capítulos ofrecen una discusión y conclusiones (Capítulo 6 y 7 respectivamente) de todos los capítulos de esta tesis doctoral. Finalmente, se han añadido tres apéndices: el primero con una introducción de los principios básicos de resonancia magnética nuclear (NMR) y en los otros dos, se presentan sendos estudios sobre el efecto de las fibras en la rehidratación de cereales de desayuno extrusionados, mediante diversas técnicas. Ambos trabajos se presentaron en un congreso internacional. Los resultados más relevantes de la presente tesis doctoral, se pueden dividir en tres grandes bloques: resultados sobre macroestructura, resultados sobre microestructura y resultados sobre MRI en línea. Resultados sobre macroestructura: - La imagen de resonancia magnética (MRI) se aplicó satisfactoriamente para la caracterización de macroestructura. En particular, la reconstrucción 3D de imágenes de resonancia magnética permitió identificar y caracterizar dos tipos distintos de vitrescencia en manzanas: central y radial, que se caracterizan por el porcentaje de daño y la conectividad (número de Euler). - La MRI proveía un mejor contraste para manzanas afectadas por vitrescencia que las imágenes de tomografía de rayos X (X-Ray CT), como se pudo verificar en muestras idénticas de manzana. Además, el tiempo de adquisición de la tomografía de rayos X fue alrededor de 12 veces mayor (25 minutos) que la adquisición de las imágenes de resonancia magnética (2 minutos 2 segundos). Resultados sobre microestructura: - Para el estudio de microestructura (nivel subcelular) se utilizaron con éxito secuencias de relaxometría 2D T1/T2. Estas secuencias se usaron por primera vez en alto campo y sobre piezas de alimento completo, convirtiéndose en una forma no destructiva de llevar a cabo estudios de microestructura. - El uso de MRI junto con relaxometría 2D T1/T2 permite realizar estudios multiescala en alimentos de forma no destructiva. Resultados sobre MRI en línea: - El uso de imagen de resonancia magnética en línea fue factible para la identificación de dos tipos de desórdenes internos en manzanas: vitrescencia y podredumbre interna. Las secuencias de imagen tipo FLASH resultaron adecuadas para la identificación en línea de vitrescencia en manzanas. Se realizó sin selección de corte, debido a que la vitrescencia puede desarrollarse en cualquier punto del volumen de la manzana. Se consiguió reducir el tiempo de adquisición, de modo que se llegaron a adquirir 1.3 frutos por segundos (758 ms por fruto). Las secuencias de imagen tipo UFLARE fueron adecuadas para la detección en línea de la podredumbre interna en manzanas. En este caso, se utilizó selección de corte, ya que se trata de un desorden que se suele localizar en la parte central del volumen de la manzana. Se consiguió reducir el tiempo de adquisicón hasta 0.67 frutos por segundo (1475 ms por fruto). En ambos casos (FLASH y UFLARE) fueron necesarios algoritmos para la corrección del movimiento de las imágenes en tiempo real. ABSTRACT Food is a complex system formed by several structures at different scales: macroscopic and microscopic. Many properties of foods that are relevant to process engineering or quality and postharvest treatments are related to their microstructure. This Ph.D Thesis proposes a complete methodology for food structure determination, in a multiscale way, based on the Nuclear Magnetic Resonance (NMR) phenomenon since NMR techniques are non-invasive and non-destructive, and allow both, macro- and micro-structure study. Different NMR procedures are used depending on the structure level under study. For the macrostructure level, Magnetic Resonance Imaging (MRI) revealed its usefulness for food characterization. For microstructure insight, MRI required high acquisition times, which is a hindrance for transference to industry applications. Therefore, optimization of NMR procedures based on T1/T2 relaxometry sequences was a key strategy in this Thesis. These NMR relaxometry protocols, are successfully implemented in high magnetic field. Microstructure of entire food products have been characterized for the first time using these protocols. Two different types of food products have been studied: food models and actual food (apples). Furthermore, as a first step for the food industry implementation, a grading line system, specially designed for working under NMR conditions in previous works of the LPF-TAGRALIA group, is improved. The study and selection of the most suitable rapid sequence to detect two different types of disorders in apples (watercore and internal breakdown) is performed and the real time image motion correction is applied. In addition, artificial vision protocols for the automatic classification of apples potentially affected by watercore are applied. This document is divided into seven different chapters: Chapter 2 explains the thesis background and the framework of the project in which it has been worked. Chapter 3 comprises the state of the art. Chapter 4 establishes de objectives of this Ph.D thesis. The results are divided into five different sections (in Chapter 5) that correspond to published peered reviewed works. Section 5.1 assesses the watercore development in apples with MRI and studies the effect of fruit location in the canopy. Section 5.2 is an MRI and 2D relaxometry study for macro- and microstructure assessment in food models. Section 5.3 is a non-destructive microstructural study using 2D T1/T2 relaxometry on watercore affected apples. Section 5.4 makes a comparison of X-ray CT and MRI on watercore disorder of different apple cultivars. Section 5.5, that is a study of online MRI sequences for the evaluation of apple internal quality. The subsequent chapters offer a general discussion and conclusions (Chapter 6 and Chapter 7 respectively) of all the works performed in the frame of this Ph.D thesis (two peer reviewed journals, one book chapter and one international congress).Finally, three appendices are included in which an introduction to NMR principles is offered and two published proceedings regarding the effect of fiber on the rehydration of extruded breakfast cereal are displayed. The most relevant results can be summarized into three sections: results on macrostructure, results on microstructure and results on on-line MRI. Results on macrostructure: - MRI was successfully used for macrostructure characterization. Indeed, 3D reconstruction of MRI in apples allows to identify two different types of watercore (radial and block), which are characterized by the percentage of damage and the connectivity (Euler number). - MRI provides better contrast for watercore than X-Ray CT as verified on identical samples. Furthermore, X-Ray CT images acquisition time was around 12 times higher (25 minutes) than MRI acquisition time (2 minutes 2 seconds). Results on microstructure: - 2D T1/T2 relaxometry were successfully applied for microstructure (subcellular level) characterization. 2D T1/T2 relaxometry sequences have been applied for the first time on high field for entire food pieces, being a non-destructive way to achieve microstructure study. - The use of MRI together with 2D T1/T2 relaxometry sequences allows a non-destructive multiscale study of food. Results on on-line MRI: - The use of on-line MRI was successful for the identification of two different internal disorders in apples: watercore and internal breakdown. FLASH imaging was a suitable technique for the on-line detection of watercore disorder in apples, with no slice selection, since watercore is a physiological disorder that may be developed anywhere in the apple volume. 1.3 fruits were imaged per second (768 ms per fruit). UFLARE imaging is a suitable sequence for the on-line detection of internal breakdown disorder in apples. Slice selection was used, as internal breakdown is usually located in the central slice of the apple volume. 0.67 fruits were imaged per second (1475 ms per fruit). In both cases (FLASH and UFLARE) motion correction was performed in real time, during the acquisition of the images.
Resumo:
El presente proyecto trata sobre uno de los campos más problemáticos de la inteligencia artificial, el reconocimiento facial. Algo tan sencillo para las personas como es reconocer una cara conocida se traduce en complejos algoritmos y miles de datos procesados en cuestión de segundos. El proyecto comienza con un estudio del estado del arte de las diversas técnicas de reconocimiento facial, desde las más utilizadas y probadas como el PCA y el LDA, hasta técnicas experimentales que utilizan imágenes térmicas en lugar de las clásicas con luz visible. A continuación, se ha implementado una aplicación en lenguaje C++ que sea capaz de reconocer a personas almacenadas en su base de datos leyendo directamente imágenes desde una webcam. Para realizar la aplicación, se ha utilizado una de las librerías más extendidas en cuanto a procesado de imágenes y visión artificial, OpenCV. Como IDE se ha escogido Visual Studio 2010, que cuenta con una versión gratuita para estudiantes. La técnica escogida para implementar la aplicación es la del PCA ya que es una técnica básica en el reconocimiento facial, y además sirve de base para soluciones mucho más complejas. Se han estudiado los fundamentos matemáticos de la técnica para entender cómo procesa la información y en qué se datos se basa para realizar el reconocimiento. Por último, se ha implementado un algoritmo de testeo para poder conocer la fiabilidad de la aplicación con varias bases de datos de imágenes faciales. De esta forma, se puede comprobar los puntos fuertes y débiles del PCA. ABSTRACT. This project deals with one of the most problematic areas of artificial intelligence, facial recognition. Something so simple for human as to recognize a familiar face becomes into complex algorithms and thousands of data processed in seconds. The project begins with a study of the state of the art of various face recognition techniques, from the most used and tested as PCA and LDA, to experimental techniques that use thermal images instead of the classic visible light images. Next, an application has been implemented in C + + language that is able to recognize people stored in a database reading images directly from a webcam. To make the application, it has used one of the most outstretched libraries in terms of image processing and computer vision, OpenCV. Visual Studio 2010 has been chosen as the IDE, which has a free student version. The technique chosen to implement the software is the PCA because it is a basic technique in face recognition, and also provides a basis for more complex solutions. The mathematical foundations of the technique have been studied to understand how it processes the information and which data are used to do the recognition. Finally, an algorithm for testing has been implemented to know the reliability of the application with multiple databases of facial images. In this way, the strengths and weaknesses of the PCA can be checked.
Resumo:
Esta tesis trata sobre métodos de corrección que compensan la variación de las condiciones de iluminación en aplicaciones de imagen y video a color. Estas variaciones hacen que a menudo fallen aquellos algoritmos de visión artificial que utilizan características de color para describir los objetos. Se formulan tres preguntas de investigación que definen el marco de trabajo de esta tesis. La primera cuestión aborda las similitudes que se dan entre las imágenes de superficies adyacentes en relación a su comportamiento fotométrico. En base al análisis del modelo de formación de imágenes en situaciones dinámicas, esta tesis propone un modelo capaz de predecir las variaciones de color de la región de una determinada imagen a partir de las variaciones de las regiones colindantes. Dicho modelo se denomina Quotient Relational Model of Regions. Este modelo es válido cuando: las fuentes de luz iluminan todas las superficies incluídas en él; estas superficies están próximas entre sí y tienen orientaciones similares; y cuando son en su mayoría lambertianas. Bajo ciertas circunstancias, la respuesta fotométrica de una región se puede relacionar con el resto mediante una combinación lineal. No se ha podido encontrar en la literatura científica ningún trabajo previo que proponga este tipo de modelo relacional. La segunda cuestión va un paso más allá y se pregunta si estas similitudes se pueden utilizar para corregir variaciones fotométricas desconocidas en una región también desconocida, a partir de regiones conocidas adyacentes. Para ello, se propone un método llamado Linear Correction Mapping capaz de dar una respuesta afirmativa a esta cuestión bajo las circunstancias caracterizadas previamente. Para calcular los parámetros del modelo se requiere una etapa de entrenamiento previo. El método, que inicialmente funciona para una sola cámara, se amplía para funcionar en arquitecturas con varias cámaras sin solape entre sus campos visuales. Para ello, tan solo se necesitan varias muestras de imágenes del mismo objeto capturadas por todas las cámaras. Además, este método tiene en cuenta tanto las variaciones de iluminación, como los cambios en los parámetros de exposición de las cámaras. Todos los métodos de corrección de imagen fallan cuando la imagen del objeto que tiene que ser corregido está sobreexpuesta o cuando su relación señal a ruido es muy baja. Así, la tercera cuestión se refiere a si se puede establecer un proceso de control de la adquisición que permita obtener una exposición óptima cuando las condiciones de iluminación no están controladas. De este modo, se propone un método denominado Camera Exposure Control capaz de mantener una exposición adecuada siempre y cuando las variaciones de iluminación puedan recogerse dentro del margen dinámico de la cámara. Los métodos propuestos se evaluaron individualmente. La metodología llevada a cabo en los experimentos consistió en, primero, seleccionar algunos escenarios que cubrieran situaciones representativas donde los métodos fueran válidos teóricamente. El Linear Correction Mapping fue validado en tres aplicaciones de re-identificación de objetos (vehículos, caras y personas) que utilizaban como caracterísiticas la distribución de color de éstos. Por otra parte, el Camera Exposure Control se probó en un parking al aire libre. Además de esto, se definieron varios indicadores que permitieron comparar objetivamente los resultados de los métodos propuestos con otros métodos relevantes de corrección y auto exposición referidos en el estado del arte. Los resultados de la evaluación demostraron que los métodos propuestos mejoran los métodos comparados en la mayoría de las situaciones. Basándose en los resultados obtenidos, se puede decir que las respuestas a las preguntas de investigación planteadas son afirmativas, aunque en circunstancias limitadas. Esto quiere decir que, las hipótesis planteadas respecto a la predicción, la corrección basada en ésta y la auto exposición, son factibles en aquellas situaciones identificadas a lo largo de la tesis pero que, sin embargo, no se puede garantizar que se cumplan de manera general. Por otra parte, se señalan como trabajo de investigación futuro algunas cuestiones nuevas y retos científicos que aparecen a partir del trabajo presentado en esta tesis. ABSTRACT This thesis discusses the correction methods used to compensate the variation of lighting conditions in colour image and video applications. These variations are such that Computer Vision algorithms that use colour features to describe objects mostly fail. Three research questions are formulated that define the framework of the thesis. The first question addresses the similarities of the photometric behaviour between images of dissimilar adjacent surfaces. Based on the analysis of the image formation model in dynamic situations, this thesis proposes a model that predicts the colour variations of the region of an image from the variations of the surrounded regions. This proposed model is called the Quotient Relational Model of Regions. This model is valid when the light sources illuminate all of the surfaces included in the model; these surfaces are placed close each other, have similar orientations, and are primarily Lambertian. Under certain circumstances, a linear combination is established between the photometric responses of the regions. Previous work that proposed such a relational model was not found in the scientific literature. The second question examines whether those similarities could be used to correct the unknown photometric variations in an unknown region from the known adjacent regions. A method is proposed, called Linear Correction Mapping, which is capable of providing an affirmative answer under the circumstances previously characterised. A training stage is required to determine the parameters of the model. The method for single camera scenarios is extended to cover non-overlapping multi-camera architectures. To this extent, only several image samples of the same object acquired by all of the cameras are required. Furthermore, both the light variations and the changes in the camera exposure settings are covered by correction mapping. Every image correction method is unsuccessful when the image of the object to be corrected is overexposed or the signal-to-noise ratio is very low. Thus, the third question refers to the control of the acquisition process to obtain an optimal exposure in uncontrolled light conditions. A Camera Exposure Control method is proposed that is capable of holding a suitable exposure provided that the light variations can be collected within the dynamic range of the camera. Each one of the proposed methods was evaluated individually. The methodology of the experiments consisted of first selecting some scenarios that cover the representative situations for which the methods are theoretically valid. Linear Correction Mapping was validated using three object re-identification applications (vehicles, faces and persons) based on the object colour distributions. Camera Exposure Control was proved in an outdoor parking scenario. In addition, several performance indicators were defined to objectively compare the results with other relevant state of the art correction and auto-exposure methods. The results of the evaluation demonstrated that the proposed methods outperform the compared ones in the most situations. Based on the obtained results, the answers to the above-described research questions are affirmative in limited circumstances, that is, the hypothesis of the forecasting, the correction based on it, and the auto exposure are feasible in the situations identified in the thesis, although they cannot be guaranteed in general. Furthermore, the presented work raises new questions and scientific challenges, which are highlighted as future research work.
Resumo:
En la actualidad, muchas son las iniciativas propuestas para mejorar la seguridad en el sector del transporte mediante el uso de Tecnologías de la Información. De manera particular, gracias al empleo de técnicas robustas basadas en Visión Artificial, es posible analizar de manera automática cualquier área de una infraestructura de transporte bajo videovigilancia que por su configuración requiera de mayor atención en las tareas de supervisión de los operadores en centros de control. Con esta motivación, dentro del proyecto HNPS (Redes Heterogéneas para la Seguridad Pública Europea) se ha desarrollado un sistema de vídeo analítico que permite identificar de manera individual cada persona que aparece en escena, registrar su trayectoria, así como llevar a cabo una clasificación de la misma en función de si porta o no determinados tipos de objetos. Además, para poder asociar un significado global al conjunto de eventos observados y definir la actividad llevada a cabo, se ha introducido una etapa más de procesamiento para detectar automáticamente eventos dinámicos en secuencias de vídeo, permitiendo al sistema comprender lo que está ocurriendo en la escena y lanzar una alarma si se detecta un comportamiento anómalo (acumulación de personas, riesgos de atraco o abandonos de objetos en zonas vulnerables). Igualmente interesante resulta la obtención de resultados en tiempo real, procesando directamente el flujo de vídeo de la cámara IP que da cobertura al área bajo videovigilancia. Además de la arquitectura del sistema y la funcionalidad completa ofrecida por el sistema, se demostrará la efectividad del mismo en la detección de los diferentes comportamientos definidos. Un entorno ideal para la experimentación de estos sistemas son los intercambiadores de Transporte que el Consorcio Regional de Transportes de Madrid ha puesto en servicio en estos últimos años. Así, respetando en todo momento la privacidad de los actores que son captados por las cámaras, resultados experimentales del sistema desarrollado sobre secuencias simuladas en el Intercambiador de Moncloa, demuestran la eficacia del sistema propuesto, permitiendo que la movilidad de los usuarios sea cada día más segura.
Resumo:
En el presente trabajo se aborda el problema del seguimiento de objetos, cuyo objetivo es encontrar la trayectoria de un objeto en una secuencia de video. Para ello, se ha desarrollado un método de seguimiento-por-detección que construye un modelo de apariencia en un dominio comprimido usando una nueva e innovadora técnica: “compressive sensing”. La única información necesaria es la situación del objeto a seguir en la primera imagen de la secuencia. El seguimiento de objetos es una aplicación típica del área de visión artificial con un desarrollo de bastantes años. Aun así, sigue siendo una tarea desafiante debido a varios factores: cambios de iluminación, oclusión parcial o total de los objetos y complejidad del fondo de la escena, los cuales deben ser considerados para conseguir un seguimiento robusto. Para lidiar lo más eficazmente posible con estos factores, hemos propuesto un algoritmo de tracking que entrena un clasificador Máquina Vector Soporte (“Support Vector Machine” o SVM en sus siglas en inglés) en modo online para separar los objetos del fondo de la escena. Con este fin, hemos generado nuestro modelo de apariencia por medio de un descriptor de características muy robusto que describe los objetos y el fondo devolviendo un vector de dimensiones muy altas. Por ello, se ha implementado seguidamente un paso para reducir la dimensionalidad de dichos vectores y así poder entrenar nuestro clasificador en un dominio mucho menor, al que denominamos domino comprimido. La reducción de la dimensionalidad de los vectores de características se basa en la teoría de “compressive sensing”, que dice que una señal con poca dispersión (pocos componentes distintos de cero) puede estar bien representada, e incluso puede ser reconstruida, a partir de un conjunto muy pequeño de muestras. La teoría de “compressive sensing” se ha aplicado satisfactoriamente en este trabajo y diferentes técnicas de medida y reconstrucción han sido probadas para evaluar nuestros vectores reducidos, de tal forma que se ha verificado que son capaces de preservar la información de los vectores originales. También incluimos una actualización del modelo de apariencia del objeto a seguir, mediante el reentrenamiento de nuestro clasificador en cada cuadro de la secuencia con muestras positivas y negativas, las cuales han sido obtenidas a partir de la posición predicha por el algoritmo de seguimiento en cada instante temporal. El algoritmo propuesto ha sido evaluado en distintas secuencias y comparado con otros algoritmos del estado del arte de seguimiento, para así demostrar el éxito de nuestro método.
Resumo:
La evolución de los teléfonos móviles inteligentes, dotados de cámaras digitales, está provocando una creciente demanda de aplicaciones cada vez más complejas que necesitan algoritmos de visión artificial en tiempo real; puesto que el tamaño de las señales de vídeo no hace sino aumentar y en cambio el rendimiento de los procesadores de un solo núcleo se ha estancado, los nuevos algoritmos que se diseñen para visión artificial han de ser paralelos para poder ejecutarse en múltiples procesadores y ser computacionalmente escalables. Una de las clases de procesadores más interesantes en la actualidad se encuentra en las tarjetas gráficas (GPU), que son dispositivos que ofrecen un alto grado de paralelismo, un excelente rendimiento numérico y una creciente versatilidad, lo que los hace interesantes para llevar a cabo computación científica. En esta tesis se exploran dos aplicaciones de visión artificial que revisten una gran complejidad computacional y no pueden ser ejecutadas en tiempo real empleando procesadores tradicionales. En cambio, como se demuestra en esta tesis, la paralelización de las distintas subtareas y su implementación sobre una GPU arrojan los resultados deseados de ejecución con tasas de refresco interactivas. Asimismo, se propone una técnica para la evaluación rápida de funciones de complejidad arbitraria especialmente indicada para su uso en una GPU. En primer lugar se estudia la aplicación de técnicas de síntesis de imágenes virtuales a partir de únicamente dos cámaras lejanas y no paralelas—en contraste con la configuración habitual en TV 3D de cámaras cercanas y paralelas—con información de color y profundidad. Empleando filtros de mediana modificados para la elaboración de un mapa de profundidad virtual y proyecciones inversas, se comprueba que estas técnicas son adecuadas para una libre elección del punto de vista. Además, se demuestra que la codificación de la información de profundidad con respecto a un sistema de referencia global es sumamente perjudicial y debería ser evitada. Por otro lado se propone un sistema de detección de objetos móviles basado en técnicas de estimación de densidad con funciones locales. Este tipo de técnicas es muy adecuada para el modelado de escenas complejas con fondos multimodales, pero ha recibido poco uso debido a su gran complejidad computacional. El sistema propuesto, implementado en tiempo real sobre una GPU, incluye propuestas para la estimación dinámica de los anchos de banda de las funciones locales, actualización selectiva del modelo de fondo, actualización de la posición de las muestras de referencia del modelo de primer plano empleando un filtro de partículas multirregión y selección automática de regiones de interés para reducir el coste computacional. Los resultados, evaluados sobre diversas bases de datos y comparados con otros algoritmos del estado del arte, demuestran la gran versatilidad y calidad de la propuesta. Finalmente se propone un método para la aproximación de funciones arbitrarias empleando funciones continuas lineales a tramos, especialmente indicada para su implementación en una GPU mediante el uso de las unidades de filtraje de texturas, normalmente no utilizadas para cómputo numérico. La propuesta incluye un riguroso análisis matemático del error cometido en la aproximación en función del número de muestras empleadas, así como un método para la obtención de una partición cuasióptima del dominio de la función para minimizar el error. ABSTRACT The evolution of smartphones, all equipped with digital cameras, is driving a growing demand for ever more complex applications that need to rely on real-time computer vision algorithms. However, video signals are only increasing in size, whereas the performance of single-core processors has somewhat stagnated in the past few years. Consequently, new computer vision algorithms will need to be parallel to run on multiple processors and be computationally scalable. One of the most promising classes of processors nowadays can be found in graphics processing units (GPU). These are devices offering a high parallelism degree, excellent numerical performance and increasing versatility, which makes them interesting to run scientific computations. In this thesis, we explore two computer vision applications with a high computational complexity that precludes them from running in real time on traditional uniprocessors. However, we show that by parallelizing subtasks and implementing them on a GPU, both applications attain their goals of running at interactive frame rates. In addition, we propose a technique for fast evaluation of arbitrarily complex functions, specially designed for GPU implementation. First, we explore the application of depth-image–based rendering techniques to the unusual configuration of two convergent, wide baseline cameras, in contrast to the usual configuration used in 3D TV, which are narrow baseline, parallel cameras. By using a backward mapping approach with a depth inpainting scheme based on median filters, we show that these techniques are adequate for free viewpoint video applications. In addition, we show that referring depth information to a global reference system is ill-advised and should be avoided. Then, we propose a background subtraction system based on kernel density estimation techniques. These techniques are very adequate for modelling complex scenes featuring multimodal backgrounds, but have not been so popular due to their huge computational and memory complexity. The proposed system, implemented in real time on a GPU, features novel proposals for dynamic kernel bandwidth estimation for the background model, selective update of the background model, update of the position of reference samples of the foreground model using a multi-region particle filter, and automatic selection of regions of interest to reduce computational cost. The results, evaluated on several databases and compared to other state-of-the-art algorithms, demonstrate the high quality and versatility of our proposal. Finally, we propose a general method for the approximation of arbitrarily complex functions using continuous piecewise linear functions, specially formulated for GPU implementation by leveraging their texture filtering units, normally unused for numerical computation. Our proposal features a rigorous mathematical analysis of the approximation error in function of the number of samples, as well as a method to obtain a suboptimal partition of the domain of the function to minimize approximation error.
Resumo:
La visión por computador es una parte de la inteligencia artificial que tiene una aplicación industrial muy amplia, desde la detección de piezas defectuosas al control de movimientos de los robots para la fabricación de piezas. En el ámbito aeronáutico, la visión por computador es una herramienta de ayuda a la navegación, pudiendo usarse como complemento al sistema de navegación inercial, como complemento a un sistema de posicionamiento como el GPS, o como sistema de navegación visual autónomo.Este proyecto establece una primera aproximación a los sistemas de visión articial y sus aplicaciones en aeronaves no tripuladas. La aplicación que se desarrollará será la de apoyo al sistema de navegación, mediante una herramienta que a través de las imágenes capturadas por una cámara embarcada, dé la orden al autopiloto para posicionar el aparato frente la pista en la maniobra de aterrizaje.Para poder realizar ese cometido, hay que estudiar las posibilidades y los desarrollos que el mercado ofrece en este campo, así como los esfuerzos investigadores de los diferentes centros de investigación, donde se publican multitud soluciones de visión por computador para la navegación de diferentes vehículos no tripulados, en diferentes entornos. Ese estudio llevará a cabo el proceso de la aplicación de un sistema de visión articial desde su inicio. Para ello, lo primero que se realizará será definir una solución viable dentro de las posibilidades que la literatura permita conocer. Además, se necesitará realizar un estudio de las necesidades del sistema, tanto de hardware como de software, y acudir al mercado para adquirir la opción más adecuada que satisfaga esas necesidades. El siguiente paso es el planteamiento y desarrollo de la aplicación, mediante la defnición de un algoritmo y un programa informático que aplique el algoritmo y analizar los resultados de los ensayos y las simulaciones de la solución. Además, se estudiará una propuesta de integración en una aeronave y la interfaz de la estación de tierra que debe controlar el proceso. Para finalizar, se exponen las conclusiones y los trabajos futuros para continuar la labor de desarrollo de este proyecto.
Resumo:
La Diabetes Mellitus se define como el trastorno del metabolismo de los carbohidratos, resultante de una producción insuficiente o nula de insulina en las células beta del páncreas, o la manifestación de una sensibilidad reducida a la insulina por parte del sistema metabólico. La diabetes tipo 1 se caracteriza por la nula producción de insulina por la destrucción de las células beta del páncreas. Si no hay insulina en el torrente sanguíneo, la glucosa no puede ser absorbida por las células, produciéndose un estado de hiperglucemia en el paciente, que a medio y largo plazo si no es tratado puede ocasionar severas enfermedades, conocidos como síndromes de la diabetes. La diabetes tipo 1 es una enfermedad incurable pero controlable. La terapia para esta enfermedad consiste en la aplicación exógena de insulina con el objetivo de mantener el nivel de glucosa en sangre dentro de los límites normales. Dentro de las múltiples formas de aplicación de la insulina, en este proyecto se usará una bomba de infusión, que unida a un sensor subcutáneo de glucosa permitirá crear un lazo de control autónomo que regule la cantidad optima de insulina aplicada en cada momento. Cuando el algoritmo de control se utiliza en un sistema digital, junto con el sensor subcutáneo y bomba de infusión subcutánea, se conoce como páncreas artificial endocrino (PAE) de uso ambulatorio, hoy día todavía en fase de investigación. Estos algoritmos de control metabólico deben de ser evaluados en simulación para asegurar la integridad física de los pacientes, por lo que es necesario diseñar un sistema de simulación mediante el cual asegure la fiabilidad del PAE. Este sistema de simulación conecta los algoritmos con modelos metabólicos matemáticos para obtener una visión previa de su funcionamiento. En este escenario se diseñó DIABSIM, una herramienta desarrollada en LabViewTM, que posteriormente se trasladó a MATLABTM, y basada en el modelo matemático compartimental propuesto por Hovorka, con la que poder simular y evaluar distintos tipos de terapias y reguladores en lazo cerrado. Para comprobar que estas terapias y reguladores funcionan, una vez simulados y evaluados, se tiene que pasar a la experimentación real a través de un protocolo de ensayo clínico real, como paso previo al PEA ambulatorio. Para poder gestionar este protocolo de ensayo clínico real para la verificación de los algoritmos de control, se creó una interfaz de usuario a través de una serie de funciones de simulación y evaluación de terapias con insulina realizadas con MATLABTM (GUI: Graphics User Interface), conocido como Entorno de Páncreas artificial con Interfaz Clínica (EPIC). EPIC ha sido ya utilizada en 10 ensayos clínicos de los que se han ido proponiendo posibles mejoras, ampliaciones y/o cambios. Este proyecto propone una versión mejorada de la interfaz de usuario EPIC propuesta en un proyecto anterior para gestionar un protocolo de ensayo clínico real para la verificación de algoritmos de control en un ambiente hospitalario muy controlado, además de estudiar la viabilidad de conectar el GUI con SimulinkTM (entorno gráfico de Matlab de simulación de sistemas) para su conexión con un nuevo simulador de pacientes aprobado por la JDRF (Juvenil Diabetes Research Foundation). SUMMARY The diabetes mellitus is a metabolic disorder of carbohydrates, as result of an insufficient or null production of insulin in the beta cellules of pancreas, or the manifestation of a reduced sensibility to the insulin from the metabolic system. The type 1 diabetes is characterized for a null production of insulin due to destruction of the beta cellules. Without insulin in the bloodstream, glucose can’t be absorbed by the cellules, producing a hyperglycemia state in the patient and if pass a medium or long time and is not treated can cause severe disease like diabetes syndrome. The type 1 diabetes is an incurable disease but controllable one. The therapy for this disease consists on the exogenous insulin administration with the objective to maintain the glucose level in blood within the normal limits. For the insulin administration, in this project is used an infusion pump, that permit with a subcutaneous glucose sensor, create an autonomous control loop that regulate the optimal insulin amount apply in each moment. When the control algorithm is used in a digital system, with the subcutaneous senor and infusion subcutaneous pump, is named as “Artificial Endocrine Pancreas” for ambulatory use, currently under investigate. These metabolic control algorithms should be evaluates in simulation for assure patients’ physical integrity, for this reason is necessary to design a simulation system that assure the reliability of PAE. This simulation system connects algorithms with metabolic mathematics models for get a previous vision of its performance. In this scenario was created DIABSIMTM, a tool developed in LabView, that later was converted to MATLABTM, and based in the compartmental mathematic model proposed by Hovorka that could simulate and evaluate several different types of therapy and regulators in closed loop. To check the performance of these therapies and regulators, when have been simulated and evaluated, will be necessary to pass to real experimentation through a protocol of real clinical test like previous step to ambulatory PEA. To manage this protocol was created an user interface through the simulation and evaluation functions od therapies with insulin realized with MATLABTM (GUI: Graphics User Interface), known as “Entorno de Páncreas artificial con Interfaz Clínica” (EPIC).EPIC have been used in 10 clinical tests which have been proposed improvements, adds and changes. This project proposes a best version of user interface EPIC proposed in another project for manage a real test clinical protocol for checking control algorithms in a controlled hospital environment and besides studying viability to connect the GUI with SimulinkTM (Matlab graphical environment in systems simulation) for its connection with a new patients simulator approved for the JDRF (Juvenil Diabetes Research Foundation).