901 resultados para Stereoscopic cameras.
Resumo:
Low cost RGB-D cameras such as the Microsoft’s Kinect or the Asus’s Xtion Pro are completely changing the computer vision world, as they are being successfully used in several applications and research areas. Depth data are particularly attractive and suitable for applications based on moving objects detection through foreground/background segmentation approaches; the RGB-D applications proposed in literature employ, in general, state of the art foreground/background segmentation techniques based on the depth information without taking into account the color information. The novel approach that we propose is based on a combination of classifiers that allows improving background subtraction accuracy with respect to state of the art algorithms by jointly considering color and depth data. In particular, the combination of classifiers is based on a weighted average that allows to adaptively modifying the support of each classifier in the ensemble by considering foreground detections in the previous frames and the depth and color edges. In this way, it is possible to reduce false detections due to critical issues that can not be tackled by the individual classifiers such as: shadows and illumination changes, color and depth camouflage, moved background objects and noisy depth measurements. Moreover, we propose, for the best of the author’s knowledge, the first publicly available RGB-D benchmark dataset with hand-labeled ground truth of several challenging scenarios to test background/foreground segmentation algorithms.
Resumo:
A novel and high-quality system for moving object detection in sequences recorded with moving cameras is proposed. This system is based on the collaboration between an automatic homography estimation module for image alignment, and a robust moving object detection using an efficient spatiotemporal nonparametric background modeling.
Resumo:
Our mission consists in 4 key objectives: Quantify the number of sunspots during the solar maximum, and also characterize their activity and magnetism. Demonstrate the reliability of a mission in LEO orbit, for an effective solar observation. Technology demonstrator: we will take on board an experiment: the PTF (Polymer Filter test in flight ), associated with visible cameras. Investigation of the potential for exploitation of ground space market through the sale of images taken in flight.
Resumo:
En robótica móvil existen diferentes dispositivos que permiten percibir la configuración del entorno. Pueden utilizarse alternativas de gran alcance como por ejemplo los ultrasonidos, pero que tienen la desventaja de consumir un tiempo elevado en la realización de las medidas. En corta distancia destacan los sensores basados en la emisión de luz infrarroja, que responden a muy alta velocidad pero tienen muy poco alcance. La obtención de fotografia, en incluso video, por medio de camaras, permite obtener mucha información del entorno, pero exige un procesado normalmente muy elaborado. Los “Laser Range Finder” son dispositivos basados en la emisión de un haz laser que responden a muy alta velocidad en el entorno de unos cuantos metros alrededor del robot móvil, lo que los hacen especialmente adecuados para un uso continuo que permita obtener de forma rapida un mapa de los obstaculos mas próximos. En el presente proyecto se va a realizar un ejercicio de medida con el laser range finder URG-04LX-UG01 para confirmar su utilidad en el ambito de la robótica móvil. ABSTRACT In mobile robotics there are different devices that allow sense the environment configuration. Powerful alternatives may be used as e.g. ultrasounds, but they have the disadvantage of consuming a large time to perform measurements. In short range highlights the infrared light based sensors, that responds at very high speed but have very low range. The photography obtaining, even video, by cameras, allow acquire many environmental information but normally require a very elaborate processing. The Laser Range Finder are devices based on laser beam broadcasting that respond a very high speed in the vicinity of a few meters around the mobile robot, which make them especially suitable for the continuous use, that allows fast obtain of the nearests obstacles map. In this project we are going to do an measurement exercise with laser range finder URG-04LX-UG01 to confirm its utility in mobile robotics scope.
Resumo:
Esta tesis presenta un estudio exhaustivo sobre la evaluación de la calidad de experiencia (QoE, del inglés Quality of Experience) percibida por los usuarios de sistemas de vídeo 3D, analizando el impacto de los efectos introducidos por todos los elementos de la cadena de procesamiento de vídeo 3D. Por lo tanto, se presentan varias pruebas de evaluación subjetiva específicamente diseñadas para evaluar los sistemas considerados, teniendo en cuenta todos los factores perceptuales relacionados con la experiencia visual tridimensional, tales como la percepción de profundidad y la molestia visual. Concretamente, se describe un test subjetivo basado en la evaluación de degradaciones típicas que pueden aparecer en el proceso de creación de contenidos de vídeo 3D, por ejemplo debidas a calibraciones incorrectas de las cámaras o a algoritmos de procesamiento de la señal de vídeo (p. ej., conversión de 2D a 3D). Además, se presenta el proceso de generación de una base de datos de vídeos estereoscópicos de alta calidad, disponible gratuitamente para la comunidad investigadora y que ha sido utilizada ampliamente en diferentes trabajos relacionados con vídeo 3D. Asimismo, se presenta otro estudio subjetivo, realizado entre varios laboratorios, con el que se analiza el impacto de degradaciones causadas por la codificación de vídeo, así como diversos formatos de representación de vídeo 3D. Igualmente, se describen tres pruebas subjetivas centradas en el estudio de posibles efectos causados por la transmisión de vídeo 3D a través de redes de televisión sobre IP (IPTV, del inglés Internet Protocol Television) y de sistemas de streaming adaptativo de vídeo. Para estos casos, se ha propuesto una innovadora metodología de evaluación subjetiva de calidad vídeo, denominada Content-Immersive Evaluation of Transmission Impairments (CIETI), diseñada específicamente para evaluar eventos de transmisión simulando condiciones realistas de visualización de vídeo en ámbitos domésticos, con el fin de obtener conclusiones más representativas sobre la experiencia visual de los usuarios finales. Finalmente, se exponen dos experimentos subjetivos comparando varias tecnologías actuales de televisores 3D disponibles en el mercado de consumo y evaluando factores perceptuales de sistemas Super Multiview Video (SMV), previstos a ser la tecnología futura de televisores 3D de consumo, gracias a una prometedora visualización de contenido 3D sin necesidad de gafas específicas. El trabajo presentado en esta tesis ha permitido entender los factores perceptuales y técnicos relacionados con el procesamiento y visualización de contenidos de vídeo 3D, que pueden ser de utilidad en el desarrollo de nuevas tecnologías y técnicas de evaluación de la QoE, tanto metodologías subjetivas como métricas objetivas. ABSTRACT This thesis presents a comprehensive study of the evaluation of the Quality of Experience (QoE) perceived by the users of 3D video systems, analyzing the impact of effects introduced by all the elements of the 3D video processing chain. Therefore, various subjective assessment tests are presented, particularly designed to evaluate the systems under consideration, and taking into account all the perceptual factors related to the 3D visual experience, such as depth perception and visual discomfort. In particular, a subjective test is presented, based on evaluating typical degradations that may appear during the content creation, for instance due to incorrect camera calibration or video processing algorithms (e.g., 2D to 3D conversion). Moreover, the process of generation of a high-quality dataset of 3D stereoscopic videos is described, which is freely available for the research community, and has been already widely used in different works related with 3D video. In addition, another inter-laboratory subjective study is presented analyzing the impact of coding impairments and representation formats of stereoscopic video. Also, three subjective tests are presented studying the effects of transmission events that take place in Internet Protocol Television (IPTV) networks and adaptive streaming scenarios for 3D video. For these cases, a novel subjective evaluation methodology, called Content-Immersive Evaluation of Transmission Impairments (CIETI), was proposed, which was especially designed to evaluate transmission events simulating realistic home-viewing conditions, to obtain more representative conclusions about the visual experience of the end users. Finally, two subjective experiments are exposed comparing various current 3D displays available in the consumer market, and evaluating perceptual factors of Super Multiview Video (SMV) systems, expected to be the future technology for consumer 3D displays thanks to a promising visualization of 3D content without specific glasses. The work presented in this thesis has allowed to understand perceptual and technical factors related to the processing and visualization of 3D video content, which may be useful in the development of new technologies and approaches for QoE evaluation, both subjective methodologies and objective metrics.
Resumo:
La marcha humana es el mecanismo de locomoción por el cual el cuerpo humano se traslada en línea recta gracias a una serie de movimientos coordinados de la pelvis y de las articulaciones del miembro inferior. Frecuentemente se encuentra influenciada por factores biomecánicos, anatómicos o patologías del sistema neuromusculoesquelético que modifican la forma de caminar de cada individuo. La lesión de médula espinal es una de las patologías que afectan el desarrollo normal de los patrones de la marcha por alteración de la movilidad, de la sensibilidad o del sistema nervioso autónomo. Aunque la lesión medular afecta otras funciones, además de la pérdida de función motora y sensorial, la recuperación de la capacidad de caminar es la mayor prioridad identificada por los pacientes durante la rehabilitación. Por ello, el desarrollo de dispositivos que faciliten la rehabilitación o compensación de la marcha es uno de los principales objetivos de diferentes grupos de investigación y empresas. En el contexto del proyecto Hybrid Technological Platform for Rehabilitation, Functional Compensation and Training of Gait in Spinal Cord Injury Patients se ha desarrollado un dispositivo que combina una órtesis activa (exoesqueleto) y un andador motorizado. Este sistema, como otros dispositivos, tiene el movimiento humano como estándar de referencia, no obstante no se evalúa de manera habitual, cómo es el patrón de la marcha reproducido y su similitud o diferencias con la marcha humana, o las modificaciones o adaptaciones en la interacción con el cuerpo del paciente. El presente estudio trata de examinar las características de la marcha normal en diversos grupos de población, y las diferencias con el patrón de marcha lenta. Finalmente, se pretende evaluar qué modificaciones y adaptaciones sufre el patrón de marcha lenta teórico al ser reproducido por el exoesqueleto. La presente investigación consiste en un estudio cuantitativo transversal desarrollado en dos etapas: estudio 1 y estudio 2. En el estudio 1 se analizó el patrón de la marcha a velocidad libremente seleccionada (normal) y el patrón de la marcha a velocidad lenta (0.25m/s) en 62 sujetos distribuidos en grupos considerando el sexo y los percentiles 25, 50 y 75 de estatura de la población española. Durante el estudio 2 se analizó el patrón de la marcha lenta reproducido por el dispositivo Hybrid a diferentes porcentajes de peso corporal (30%, 50% y 70%) en diez sujetos seleccionados aleatoriamente de la muestra del estudio 1. En ambos estudios se obtuvieron variables espacio-temporales y cinemáticas mediante un sistema de captura de movimiento con 6 cámaras distribuidas a lo largo de un pasillo de marcha. Se calcularon las medias, las desviaciones estándar y el 95% de intervalo de confianza, y el nivel alfa de significación se estableció en α=0.05 para todas las pruebas estadísticas. Las principales diferencias en el patrón normal de la marcha se encontraron en los parámetros cinemáticos de hombres y mujeres, aunque también se presentaron diferencias entre los grupos en función de la estatura. Las mujeres mostraron mayor flexión de cadera y rodilla, y mayor extensión de tobillo que los hombres durante el ciclo normal, aunque la basculación lateral de la pelvis, mayor en las mujeres, y el desplazamiento lateral del centro de gravedad, mayor en los hombres, fueron los parámetros identificados como principales discriminantes entre sexos. La disminución de la velocidad de la marcha mostró similares adaptaciones y modificaciones en hombres y en mujeres, presentándose un aumento de la fase de apoyo y una disminución de la fase de oscilación, un retraso de los máximos y mínimos de flexoextensión de cadera, rodilla y tobillo, y una disminución del rango articular en las tres articulaciones. Asimismo, la basculación lateral de la pelvis y el movimiento vertical del centro de gravedad disminuyeron, mientras que el movimiento lateral del centro de gravedad y el ancho de paso aumentaron. Durante la evaluación del patrón de la marcha reproducido por el exoesqueleto se observó que las tres articulaciones del miembro inferior disminuían el rango de movimiento por la falta de fuerza de los motores para contrarrestar el peso corporal, incluso con un 70% de descarga de peso. Además, la transferencia de peso se encontró limitada por la falta de movimiento de la pelvis en el plano frontal y se sustituyó por un aumento de la inclinación del tronco y, por tanto, del movimiento lateral del centro de gravedad. Este hecho, junto al aumento del desplazamiento vertical del centro de gravedad, hizo del patrón de la marcha reproducido por el exoesqueleto un movimiento poco eficiente. En conclusión, se establecen patrones de marcha normal diferenciados por sexos, siendo la basculación lateral de la pelvis y el movimiento lateral del centro de gravedad los parámetros discriminantes más característicos entre sexos. Comparando la marcha a velocidad libremente seleccionada y la velocidad lenta, se concluye que ambos sexos utilizan estrategias similares para adaptar el patrón de la marcha a una velocidad lenta y se mantienen las características diferenciadoras entre hombres y mujeres. En relación a la evaluación del dispositivo Hybrid, se deduce que la falta de movimiento lateral de la pelvis condiciona la transferencia de peso y el aumento del rango de movimiento del centro de gravedad y, en consecuencia, tiene como resultado un patrón de la marcha poco eficiente. Este patrón no resultaría indicado para los procesos de rehabilitación o recuperación de la marcha, aunque podría considerarse adecuado para la compensación funcional de la bipedestación y la locomoción. ABSTRACT The human walking is a means of moving body forward using a repetitious and coordinated sequence of pelvis and lower limb motions. It is frequently influenced by biomechanical and anatomical factors or by musculoskeletal pathologies which modify the way of walking. The spinal injury is one of those pathologies which affect the normal pattern of walking, due to the alteration of the mobility, the sensory or the autonomic nervous system. Although the spinal injury affects many other body functions, apart from the motor and sensory ones, the main priority for patients is to recover the ability of walking. Consequently, the main objective of many research groups and private companies is the development of rehabilitation and compensation devices for walking. In this context, the Hybrid Technological Platform for Rehabilitation, Functional Compensation and Training of Gait in Spinal Cord Injury Patients project has developed a device which integrates an exoskeleton and a motorized smart walker. This system, as other similar devices, has the human movement as standard reference. Nevertheless, these devices are not usually evaluated on the way they reproduce the normal human pattern or on the modifications and in the interactions with the patient’s body. The aim of the present study is to examine the normal walking characteristics, to analyze the differences between self-selected and low speed walking patterns, and to evaluate the modifications and adaptations of walking pattern when it is reproduced by the exoskeleton. The present research is a quantitative cross-sectional study carried out in two phases: study 1 and study 2. During the study 1, the self-selected and the low speed (0.25m/s) walking patterns were analyzed in sixty-two people distributed in groups, according to sex and 25th, 50th and 75th percentiles of height for Spanish population. The study 2 analyzed the low speed walking pattern reproduced by the Hybrid system in three conditions: 30%, 50% and 70% of body weight support. To do this, ten subjects were randomly selected and analyzed from the people of study 1. An optoelectronic system with six cameras was used to obtain spatial, temporal and kinematic parameters in both studies. Means, standard deviations and 95% confidence intervals of the study were calculated. The alpha level of significance was set at α=0.05 for all statistical tests. The main differences in normal gait pattern were found in kinematic parameters between men and women. The hip and the knee were more flexed and the ankle plantar flexion was higher in women than in men during normal gait cycle. Although the greater pelvic obliquity of women and the higher lateral movement of center of gravity of men were the most relevant discriminators between male and female gait patterns. Comparing self-selected and low speed walking patterns, both sexes showed similar adaptations and modifications. At low speed walking, men and women increased the stance phase ratio and decreased the swing phase ratio. The maximum and minimum peak flexion of hip, knee and ankle appeared after and the range of motion of them decreased during low speed walking. Furthermore, the pelvic obliquity and the vertical movement of the center of gravity decreased, whereas the lateral movement of center of gravity and step width increased. Evaluating the gait pattern reproduced by the exoskeleton, a decrease of lower limb range of motion was observed. This was probably due to the lack of strength of the engines, which were not able to control the body weight, even with the 70% supported. Moreover, the weight transfer from one limb to the contralateral side was restricted due to the lack of pelvis obliquity. This movement deficiency was replaced by the lateral torso sway and, consequently, the increase of lateral movement of the center of gravity. This fact, as well as the increase of the vertical displacement of the center of gravity, made inefficient the gait pattern reproduced by the exoskeleton. In conclusion, different gait patterns of both sexes have been determined, being pelvis obliquity and lateral movement of center of gravity the most relevant discriminators between male and female gait patterns. Comparing self-selected and low speed walking patterns, it was concluded that both sexes use similar strategies for adapting the gait pattern to a low speed, and therefore, the differentiating characteristics of normal gait are maintained. Regarding the Hybrid system evaluation, it was determined that the gait pattern reproduced by the exoskeleton is inefficient. This was due to the lack of pelvis obliquity and the increase of the center of gravity displacement. Consequently, whereas the walking pattern reproduced by the exoskeleton would not be appropriated for the rehabilitation process, it could be considered suitable for functional compensation of walking and standing.
Resumo:
In the context of 3D reconstruction, we present a static multi-texturing system yielding a seamless texture atlas calculated by combining the colour information from several photos from the same subject covering most of its surface. These pictures can be provided by shooting just one camera several times when reconstructing a static object, or a set of synchronized cameras, when dealing with a human or any other moving object. We suppress the colour seams due to image misalignments and irregular lighting conditions that multi-texturing approaches typically suffer from, while minimizing the blurring effect introduced by colour blending techniques. Our system is robust enough to compensate for the almost inevitable inaccuracies of 3D meshes obtained with visual hull–based techniques: errors in silhouette segmentation, inherently bad handling of concavities, etc.
Resumo:
The guinea pig may represent an animal model for research on ovarian infertility and improvement of the in vitro maturation (IVM) conditions is needed in this species. The aim of the present work was to immunolocalize the Epidermal Growth Factor (EGF)-Receptor in the guinea pig ovaries and to study the effect of EGF on meiotic and cytoplasmic maturation, and apoptotic rate in cumulus-oocyte-co mplexes (COCs). Immunohistochemistry was performed in paraffined ovaries using a rabbit polyclonal antibody EGF-R (1:100; Santa Cruz Biotechnology) and the ABC Vector Elite kit (Vector Laboratories). For the IVM, COCs were collected by aspiration of follicles >700μm under a stereoscopic microscope.
Resumo:
Nowadays, a lot of applications use digital images. For example in face recognition to detect and tag persons in photograph, for security control, and a lot of applications that can be found in smart cities, as speed control in roads or highways and cameras in traffic lights to detect drivers ignoring red light. Also in medicine digital images are used, such as x-ray, scanners, etc. These applications depend on the quality of the image obtained. A good camera is expensive, and the image obtained depends also on external factor as light. To make these applications work properly, image enhancement is as important as, for example, a good face detection algorithm. Image enhancement also can be used in normal photograph, for pictures done in bad light conditions, or just to improve the contrast of an image. There are some applications for smartphones that allow users apply filters or change the bright, colour or contrast on the pictures. This project compares four different techniques to use in image enhancement. After applying one of these techniques to an image, it will use better the whole available dynamic range. Some of the algorithms are designed for grey scale images and others for colour images. It is used Matlab software to develop and present the final results. These algorithms are Successive Means Quantization Transform (SMQT), Histogram Equalization, using Matlab function and own implemented function, and V transform. Finally, as conclusions, we can prove that Histogram equalization algorithm is the simplest of all, it has a wide variability of grey levels and it is not suitable for colour images. V transform algorithm is a good option for colour images. The algorithm is linear and requires low computational power. SMQT algorithm is non-linear, insensitive to gain and bias and it can extract structure of the data. RESUMEN. Hoy en día incontable número de aplicaciones usan imágenes digitales. Por ejemplo, para el control de la seguridad se usa el reconocimiento de rostros para detectar y etiquetar personas en fotografías o vídeos, para distintos usos de las ciudades inteligentes, como control de velocidad en carreteras o autopistas, cámaras en los semáforos para detectar a conductores haciendo caso omiso de un semáforo en rojo, etc. También en la medicina se utilizan imágenes digitales, como por ejemplo, rayos X, escáneres, etc. Todas estas aplicaciones dependen de la calidad de la imagen obtenida. Una buena cámara es cara, y la imagen obtenida depende también de factores externos como la luz. Para hacer que estas aplicaciones funciones correctamente, el tratamiento de imagen es tan importante como, por ejemplo, un buen algoritmo de detección de rostros. La mejora de la imagen también se puede utilizar en la fotografía no profesional o de consumo, para las fotos realizadas en malas condiciones de luz, o simplemente para mejorar el contraste de una imagen. Existen aplicaciones para teléfonos móviles que permiten a los usuarios aplicar filtros y cambiar el brillo, el color o el contraste en las imágenes. Este proyecto compara cuatro técnicas diferentes para utilizar el tratamiento de imagen. Se utiliza la herramienta de software matemático Matlab para desarrollar y presentar los resultados finales. Estos algoritmos son Successive Means Quantization Transform (SMQT), Ecualización del histograma, usando la propia función de Matlab y una nueva función que se desarrolla en este proyecto y, por último, una función de transformada V. Finalmente, como conclusión, podemos comprobar que el algoritmo de Ecualización del histograma es el más simple de todos, tiene una amplia variabilidad de niveles de gris y no es adecuado para imágenes en color. El algoritmo de transformada V es una buena opción para imágenes en color, es lineal y requiere baja potencia de cálculo. El algoritmo SMQT no es lineal, insensible a la ganancia y polarización y, gracias a él, se puede extraer la estructura de los datos.
Resumo:
The proliferation of video games and other applications of computer graphics in everyday life demands a much easier way to create animatable virtual human characters. Traditionally, this has been the job of highly skilled artists and animators that painstakingly model, rig and animate their avatars, and usually have to tune them for each application and transmission/rendering platform. The emergence of virtual/mixed reality environments also calls for practical and costeffective ways to produce custom models of actual people. The purpose of the present dissertation is bringing 3D human scanning closer to the average user. For this, two different techniques are presented, one passive and one active. The first one is a fully automatic system for generating statically multi-textured avatars of real people captured with several standard cameras. Our system uses a state-of-the-art shape from silhouette technique to retrieve the shape of subject. However, to deal with the lack of detail that is common in the facial region for these kind of techniques, which do not handle concavities correctly, our system proposes an approach to improve the quality of this region. This face enhancement technique uses a generic facial model which is transformed according to the specific facial features of the subject. Moreover, this system features a novel technique for generating view-independent texture atlases computed from the original images. This static multi-texturing system yields a seamless texture atlas calculated by combining the color information from several photos. We suppress the color seams due to image misalignments and irregular lighting conditions that multi-texturing approaches typically suffer from, while minimizing the blurring effect introduced by color blending techniques. The second technique features a system to retrieve a fully animatable 3D model of a human using a commercial depth sensor. Differently to other approaches in the current state of the art, our system does not require the user to be completely still through the scanning process, and neither the depth sensor is moved around the subject to cover all its surface. Instead, the depth sensor remains static and the skeleton tracking information is used to compensate the user’s movements during the scanning stage. RESUMEN La popularización de videojuegos y otras aplicaciones de los gráficos por ordenador en el día a día requiere una manera más sencilla de crear modelos virtuales humanos animables. Tradicionalmente, estos modelos han sido creados por artistas profesionales que cuidadosamente los modelan y animan, y que tienen que adaptar específicamente para cada aplicación y plataforma de transmisión o visualización. La aparición de los entornos de realidad virtual/mixta aumenta incluso más la demanda de técnicas prácticas y baratas para producir modelos 3D representando personas reales. El objetivo de esta tesis es acercar el escaneo de humanos en 3D al usuario medio. Para ello, se presentan dos técnicas diferentes, una pasiva y una activa. La primera es un sistema automático para generar avatares multi-texturizados de personas reales mediante una serie de cámaras comunes. Nuestro sistema usa técnicas del estado del arte basadas en shape from silhouette para extraer la forma del sujeto a escanear. Sin embargo, este tipo de técnicas no gestiona las concavidades correctamente, por lo que nuestro sistema propone una manera de incrementar la calidad en una región del modelo que se ve especialmente afectada: la cara. Esta técnica de mejora facial usa un modelo 3D genérico de una cara y lo modifica según los rasgos faciales específicos del sujeto. Además, el sistema incluye una novedosa técnica para generar un atlas de textura a partir de las imágenes capturadas. Este sistema de multi-texturización consigue un atlas de textura sin transiciones abruptas de color gracias a su manera de mezclar la información de color de varias imágenes sobre cada triángulo. Todas las costuras y discontinuidades de color debidas a las condiciones de iluminación irregulares son eliminadas, minimizando el efecto de desenfoque de la interpolación que normalmente introducen este tipo de métodos. La segunda técnica presenta un sistema para conseguir un modelo humano 3D completamente animable utilizando un sensor de profundidad. A diferencia de otros métodos del estado de arte, nuestro sistema no requiere que el usuario esté completamente quieto durante el proceso de escaneado, ni mover el sensor alrededor del sujeto para cubrir toda su superficie. Por el contrario, el sensor se mantiene estático y el esqueleto virtual de la persona, que se va siguiendo durante el proceso, se utiliza para compensar sus movimientos durante el escaneado.
Resumo:
La evolución de los teléfonos móviles inteligentes, dotados de cámaras digitales, está provocando una creciente demanda de aplicaciones cada vez más complejas que necesitan algoritmos de visión artificial en tiempo real; puesto que el tamaño de las señales de vídeo no hace sino aumentar y en cambio el rendimiento de los procesadores de un solo núcleo se ha estancado, los nuevos algoritmos que se diseñen para visión artificial han de ser paralelos para poder ejecutarse en múltiples procesadores y ser computacionalmente escalables. Una de las clases de procesadores más interesantes en la actualidad se encuentra en las tarjetas gráficas (GPU), que son dispositivos que ofrecen un alto grado de paralelismo, un excelente rendimiento numérico y una creciente versatilidad, lo que los hace interesantes para llevar a cabo computación científica. En esta tesis se exploran dos aplicaciones de visión artificial que revisten una gran complejidad computacional y no pueden ser ejecutadas en tiempo real empleando procesadores tradicionales. En cambio, como se demuestra en esta tesis, la paralelización de las distintas subtareas y su implementación sobre una GPU arrojan los resultados deseados de ejecución con tasas de refresco interactivas. Asimismo, se propone una técnica para la evaluación rápida de funciones de complejidad arbitraria especialmente indicada para su uso en una GPU. En primer lugar se estudia la aplicación de técnicas de síntesis de imágenes virtuales a partir de únicamente dos cámaras lejanas y no paralelas—en contraste con la configuración habitual en TV 3D de cámaras cercanas y paralelas—con información de color y profundidad. Empleando filtros de mediana modificados para la elaboración de un mapa de profundidad virtual y proyecciones inversas, se comprueba que estas técnicas son adecuadas para una libre elección del punto de vista. Además, se demuestra que la codificación de la información de profundidad con respecto a un sistema de referencia global es sumamente perjudicial y debería ser evitada. Por otro lado se propone un sistema de detección de objetos móviles basado en técnicas de estimación de densidad con funciones locales. Este tipo de técnicas es muy adecuada para el modelado de escenas complejas con fondos multimodales, pero ha recibido poco uso debido a su gran complejidad computacional. El sistema propuesto, implementado en tiempo real sobre una GPU, incluye propuestas para la estimación dinámica de los anchos de banda de las funciones locales, actualización selectiva del modelo de fondo, actualización de la posición de las muestras de referencia del modelo de primer plano empleando un filtro de partículas multirregión y selección automática de regiones de interés para reducir el coste computacional. Los resultados, evaluados sobre diversas bases de datos y comparados con otros algoritmos del estado del arte, demuestran la gran versatilidad y calidad de la propuesta. Finalmente se propone un método para la aproximación de funciones arbitrarias empleando funciones continuas lineales a tramos, especialmente indicada para su implementación en una GPU mediante el uso de las unidades de filtraje de texturas, normalmente no utilizadas para cómputo numérico. La propuesta incluye un riguroso análisis matemático del error cometido en la aproximación en función del número de muestras empleadas, así como un método para la obtención de una partición cuasióptima del dominio de la función para minimizar el error. ABSTRACT The evolution of smartphones, all equipped with digital cameras, is driving a growing demand for ever more complex applications that need to rely on real-time computer vision algorithms. However, video signals are only increasing in size, whereas the performance of single-core processors has somewhat stagnated in the past few years. Consequently, new computer vision algorithms will need to be parallel to run on multiple processors and be computationally scalable. One of the most promising classes of processors nowadays can be found in graphics processing units (GPU). These are devices offering a high parallelism degree, excellent numerical performance and increasing versatility, which makes them interesting to run scientific computations. In this thesis, we explore two computer vision applications with a high computational complexity that precludes them from running in real time on traditional uniprocessors. However, we show that by parallelizing subtasks and implementing them on a GPU, both applications attain their goals of running at interactive frame rates. In addition, we propose a technique for fast evaluation of arbitrarily complex functions, specially designed for GPU implementation. First, we explore the application of depth-image–based rendering techniques to the unusual configuration of two convergent, wide baseline cameras, in contrast to the usual configuration used in 3D TV, which are narrow baseline, parallel cameras. By using a backward mapping approach with a depth inpainting scheme based on median filters, we show that these techniques are adequate for free viewpoint video applications. In addition, we show that referring depth information to a global reference system is ill-advised and should be avoided. Then, we propose a background subtraction system based on kernel density estimation techniques. These techniques are very adequate for modelling complex scenes featuring multimodal backgrounds, but have not been so popular due to their huge computational and memory complexity. The proposed system, implemented in real time on a GPU, features novel proposals for dynamic kernel bandwidth estimation for the background model, selective update of the background model, update of the position of reference samples of the foreground model using a multi-region particle filter, and automatic selection of regions of interest to reduce computational cost. The results, evaluated on several databases and compared to other state-of-the-art algorithms, demonstrate the high quality and versatility of our proposal. Finally, we propose a general method for the approximation of arbitrarily complex functions using continuous piecewise linear functions, specially formulated for GPU implementation by leveraging their texture filtering units, normally unused for numerical computation. Our proposal features a rigorous mathematical analysis of the approximation error in function of the number of samples, as well as a method to obtain a suboptimal partition of the domain of the function to minimize approximation error.
Resumo:
This paper discusses the target localization problem in wireless visual sensor networks. Additive noises and measurement errors will affect the accuracy of target localization when the visual nodes are equipped with low-resolution cameras. In the goal of improving the accuracy of target localization without prior knowledge of the target, each node extracts multiple feature points from images to represent the target at the sensor node level. A statistical method is presented to match the most correlated feature point pair for merging the position information of different sensor nodes at the base station. Besides, in the case that more than one target exists in the field of interest, a scheme for locating multiple targets is provided. Simulation results show that, our proposed method has desirable performance in improving the accuracy of locating single target or multiple targets. Results also show that the proposed method has a better trade-off between camera node usage and localization accuracy.
Resumo:
Actualmente existen varios dispositivos que aceptan gestos sobre superficies táctiles, sean celulares, tabletas, computadores, etc. a los cuales las personas se acostumbran rápidamente a su uso y los aceptan como herramientas necesarias en su vida. Del mismo modo existen algunas aplicaciones que manejan entornos en 3D, y permiten captar gestos realizados con las manos, cuerpo, cabeza. Estas técnicas se han desarrollado mucho por separado pero se ha podido evidenciar en base a los artículos revisados que no existen muchos estudios que combinen las aplicaciones táctiles con las 3D manejadas por gestos en el aire. El presente trabajo muestra un prototipo que permite la comunicación y coordinación entre dos aplicaciones, una que muestra documentos representados por esferas en una aplicación con interacción táctil desarrollada en Unity que funciona sobre Android, y una segunda aplicación desarrollada también en Unity que maneja un entorno 3D con el que se interactúa mediante gestos realizados en el aire. Luego de algunos intentos la interacción entre ambas aplicaciones fue lograda implementando comunicación por sockets entre la aplicación en el dispositivo Android y la aplicación 3D que se encuentra alojada en un computador con Windows 7. La captura de gestos en el aire se realiza mediante el sistema Tracking Tools desarrollado por la compañía Optitrack que captura los movimientos con cámaras infrarrojas y marcadores en los dedos. Este sistema envía los datos de los gestos a nuestra aplicación 3D. Estos equipos son de propiedad del laboratorio Decoroso Crespo de la Universidad Politécnica de Madrid. Una vez lograda la implementación e interacción entre las aplicaciones se han realizado pruebas de usabilidad con nueve estudiantes del Máster Universitario en Software y Sistemas de la Universidad Politécnica de Madrid. Cada uno ha respondido una serie de encuestas para poder obtener resultados sobre cuán usable es el prototipo, la experiencia del usuario y qué mejoras se podrían realizar sobre éste. En la parte final de este documento se presentan los resultados de las encuestas y se muestran las conclusiones y trabajo futuro.---ABSTRACT---Currently there are several devices that accept gestures on touch surfaces like phones, tablets, computers, etc. to which people quickly become accustomed to their use and accept them as necessary tools in their life. Similarly there are some applications that handle 3D environments and like televisions, holograms and allow capture gestures made with hands, body, and head. These techniques have been developed on a separated way but based on some research we may say that the are not many studies that combine touch with 3D applications handled by gestures in the air. This paper presents a prototype of the interaction of two issues of a 2D showing documents represented by spheres on a touch application developed in Unity that works on Android and allows communicating with the second application also developed in Unity that handles a 3D environment interaction of gestures made in air. After some attempts interaction was achieved by implementing communication sockets between the application on the Android device and 3D application that is hosted on a computer with windows 7, and gestures capturing in the air is done by the system Tracking Tools developed by the Optitrack company it captures movements with infrared cameras and markers on the fingers, which sends data to this application gestures, these equipment are owned by the Decoroso Crespo laboratory of the Polytechnic University of Madrid. Once achieved the interaction of applications has been conducted performance tests with ten students of the university master of the Universidad Politécnica de Madrid, each has answered a series of surveys to get results on how usable is the prototype, the user experience and that improvements could be made on this.
Resumo:
Binocular disparity, the differential angular separation between pairs of image points in the two eyes, is the well-recognized basis for binocular distance perception. Without denying disparity's role in perceiving depth, we describe two perceptual phenomena, which indicate that a wider view of binocular vision is warranted. First, we show that disparity can play a critical role in two-dimensional perception by determining whether separate image fragments should be grouped as part of a single surface or segregated as parts of separate surfaces. Second, we show that stereoscopic vision is not limited to the registration and interpretation of binocular disparity but that it relies on half-occluded points, visible to one eye and not the other, to determine the layout and transparency of surfaces. Because these half-visible points are coded by neurons carrying eye-of-origin information, we suggest that the perception of these surface properties depends on neural activity available at visual cortical area V1.
Resumo:
Although attention plays a significant role in vision, its spatial deployment and spread in the third dimension is not well understood. In visual search experiments we show that we cannot easily focus attention across isodepth loci unless they are part of a well-formed surface with locally coplanar elements. Yet we can easily spread our attention selectively across well-formed surfaces that span an extreme range of stereoscopic depths. In cueing experiments, we show that this spread of attention is, in part, obligatory. Attentional selectivity is reduced when targets and distractors are coplanar with or rest on a common receding stereoscopic plane. We conclude that attention cannot be efficiently allocated to arbitrary depths and extents in space but is linked to and spreads automatically across perceived surfaces.