889 resultados para computer vision, facial expression recognition, swig, red5, actionscript, ruby on rails, html5
Resumo:
Objective
Pedestrian detection under video surveillance systems has always been a hot topic in computer vision research. These systems are widely used in train stations, airports, large commercial plazas, and other public places. However, pedestrian detection remains difficult because of complex backgrounds. Given its development in recent years, the visual attention mechanism has attracted increasing attention in object detection and tracking research, and previous studies have achieved substantial progress and breakthroughs. We propose a novel pedestrian detection method based on the semantic features under the visual attention mechanism.
Method
The proposed semantic feature-based visual attention model is a spatial-temporal model that consists of two parts: the static visual attention model and the motion visual attention model. The static visual attention model in the spatial domain is constructed by combining bottom-up with top-down attention guidance. Based on the characteristics of pedestrians, the bottom-up visual attention model of Itti is improved by intensifying the orientation vectors of elementary visual features to make the visual saliency map suitable for pedestrian detection. In terms of pedestrian attributes, skin color is selected as a semantic feature for pedestrian detection. The regional and Gaussian models are adopted to construct the skin color model. Skin feature-based visual attention guidance is then proposed to complete the top-down process. The bottom-up and top-down visual attentions are linearly combined using the proper weights obtained from experiments to construct the static visual attention model in the spatial domain. The spatial-temporal visual attention model is then constructed via the motion features in the temporal domain. Based on the static visual attention model in the spatial domain, the frame difference method is combined with optical flowing to detect motion vectors. Filtering is applied to process the field of motion vectors. The saliency of motion vectors can be evaluated via motion entropy to make the selected motion feature more suitable for the spatial-temporal visual attention model.
Result
Standard datasets and practical videos are selected for the experiments. The experiments are performed on a MATLAB R2012a platform. The experimental results show that our spatial-temporal visual attention model demonstrates favorable robustness under various scenes, including indoor train station surveillance videos and outdoor scenes with swaying leaves. Our proposed model outperforms the visual attention model of Itti, the graph-based visual saliency model, the phase spectrum of quaternion Fourier transform model, and the motion channel model of Liu in terms of pedestrian detection. The proposed model achieves a 93% accuracy rate on the test video.
Conclusion
This paper proposes a novel pedestrian method based on the visual attention mechanism. A spatial-temporal visual attention model that uses low-level and semantic features is proposed to calculate the saliency map. Based on this model, the pedestrian targets can be detected through focus of attention shifts. The experimental results verify the effectiveness of the proposed attention model for detecting pedestrians.
Resumo:
Ageing and deterioration of infrastructure is a challenge facing transport authorities. In
particular, there is a need for increased bridge monitoring in order to provide adequate
maintenance and to guarantee acceptable levels of transport safety. The Intelligent
Infrastructure group at Queens University Belfast (QUB) are working on a number of aspects
of infrastructure monitoring and this paper presents summarised results from three distinct
monitoring projects carried out by this group. Firstly the findings from a project on next
generation Bridge Weight in Motion (B-WIM) are reported, this includes full scale field testing
using fibre optic strain sensors. Secondly, results from early phase testing of a computer
vision system for bridge deflection monitoring are reported on. This research seeks to exploit
recent advances in image processing technology with a view to developing contactless
bridge monitoring approaches. Considering the logistical difficulty of installing sensors on a
‘live’ bridge, contactless monitoring has some inherent advantages over conventional
contact based sensing systems. Finally the last section of the paper presents some recent
findings on drive by bridge monitoring. In practice a drive-by monitoring system will likely
require GPS to allow the response of a given bridge to be identified; this study looks at the
feasibility of using low-cost GPS sensors for this purpose, via field trials. The three topics
outlined above cover a spectrum of SHM approaches namely, wired monitoring, contactless
monitoring and drive by monitoring
Resumo:
AIRES, Kelson R. T. ; ARAÚJO, Hélder J. ; MEDEIROS, Adelardo A. D. . Plane Detection from Monocular Image Sequences. In: VISUALIZATION, IMAGING AND IMAGE PROCESSING, 2008, Palma de Mallorca, Spain. Proceedings..., Palma de Mallorca: VIIP, 2008
Resumo:
The 2015 FRVT gender classification (GC) report evidences the problems that current approaches tackle in situations with large variations in pose, illumination, background and facial expression. The report suggests that both commercial and research solutions are hardly able to reach an accuracy over 90% for The Images of Groups dataset, a proven scenario exhibiting unrestricted or in the wild conditions. In this paper, we focus on this challenging dataset, stepping forward in GC performance by observing: 1) recent literature results combining multiple local descriptors, and 2) the psychophysics evidences of the greater importance of the ocular and mouth areas to solve this task...
Resumo:
La reconnaissance d’un antigène présenté par les cellules présentatrices d’antigène induit la prolifération et la différenciation des lymphocytes T naïfs en lymphocytes T effecteurs et mémoires. Cette reconnaissance se fait par l’interaction du récepteur des cellules T (TCR) des lymphocytes T et le complexe CMH-peptide présent à la surface des DC. Cependant, des signaux additionnels sont requis, une meilleure activation des lymphocytes T implique des corécepteurs présents à la surface de ces deux types cellulaires. Après l’élimination de l’antigène, la plupart des lymphocytes T effecteurs vont mourir. Une petite population de lymphocytes T va persister pour se différencier en lymphocytes T mémoires capables de protéger l’organisme contre une réinfection. Les signaux qui contrôlent le maintien des lymphocytes T mémoires sont encore mal compris. Pour comprendre le rôle de la molécule de costimulation 4-1BB dans le maintien des lymphocytes T CD8 mémoires, nous avons émis l’hypothèse que l’état de phosphorylation de la protéine adaptatrice TRAF1, qui se lie à 4-1BB, module le maintien des lymphocytes T CD8 mémoires. Ainsi, nous avons montré par des expériences de spectrométrie de masse que TRAF1 s’associe préférentiellement à TBK1 lorsqu’elle n’est pas phosphorylée. Nous avons aussi montré que la présence de TRAF1 est requise pour stabiliser TBK1 au récepteur 4-1BB après stimulation des lymphocytes T. Par ailleurs, les lymphocytes T CD8 OT-I TRAF1-/- reconstituées avec un mutant phospho-déficient de TRAF1 (S139A) et ensuite différenciées en lymphocytes T mémoires in vitro induisent une activation de la voie de signalisation NF-ĸB contrairement à ceux exprimant la forme phospho-mimétique de TRAF1 (S139D). Ces premières études démontrent l’importance de l’état de phosphorylation de TRAF1 en aval de 4-1BB dans les cellules T. Dans la seconde partie, nous avons évalué le rôle d’un autre corécepteur; la neuropiline 1, dans la maturation des DC. A cet effet, nous avons émis l’hypothèse que l’interaction de la neuropiline 1 et ses ligands contribuerait à la fonction des DC. Nous avons démontré que l’absence de la neuropiline 1 n’a pas d’effet sur la maturation au LPS des DC. Cependant, la présence du VEGF (un ligand de Nrp-1) inhibe la maturation des DC dérivées de la moelle osseuse. Notre étude a démontré que VEGF inhibe l’expression des molécules de costimulation, la sécrétion des cytokines pro inflammatoires et la signalisation TLR4 principalement les voies MAP Kinase et NF-ĸB. Contrairement aux résultats avec les cellules WT, VEGF n’est pas capable d’affecter la maturation, la sécrétion des cytokines et la signalisation TLR4 des DC Nrp1-Lyz où la neuropiline 1 est délétée. Ainsi, nos résultats ont démontré que VEGF inhibe la maturation des DC de façon Nrp1-dépendante. Enfin, l’analyse des molécules partenaires de la neuropiline 1 montre que Nrp1, VEGF et TLR4 se retrouvent dans le même complexe. Nos résultats démontrent que VEGF, en présence de la neuropiline 1 est capable d’interagir avec TLR4 pour inhiber la maturation des DC. Toutefois, en absence de la neuropiline1, VEGF n’est pas capable de recruter TLR4 pour réduire l’expression des molécules de costimulation. Ces études sur les corécepteurs pourraient être importantes dans l’élaboration de nouvelles approches vaccinales.
Resumo:
Les parents à travers le monde chantent et parlent à leurs bébés. Ces deux types de vocalisations aux enfants préverbaux partagent plusieurs similarités de même que des différences, mais leurs conséquences sur les bébés demeurent méconnues. L’objectif de cette thèse était de documenter l’efficacité relative du chant et de la parole à capter l’attention des bébés sur de courtes périodes de temps (Étude 1) ainsi qu’à réguler l’affect des bébés en maintenant un état de satisfaction sur une période de temps prolongée (Étude 2). La première étude a exploré les réactions attentionnelles des bébés exposés à des enregistrements audio non familiers de chant et de parole. Lors de l’expérience 1, des bébés de 4 à 13 mois ont été exposés à de la parole joyeuse s’adressant au bébé (séquences de syllabes) et des berceuses fredonnées par la même femme. Ils ont écouté significativement plus longtemps la parole, qui contenait beaucoup plus de variabilité acoustique et d’expressivité que les berceuses. Dans l’expérience 2, des bébés d’âges comparables n’ont montré aucune écoute différentielle face à une version parlée ou chantée d’une chanson pour enfant turque, les deux versions étant exprimées de façon joyeuse / heureuse. Les bébés de l’expérience 3, ayant entendu la version chantée de la chanson turque ainsi qu’une version parlée de façon affectivement neutre ou s’adressant à l’adulte, ont écouté significativement plus longtemps la version chantée. Dans l’ensemble, la caractéristique vocale joyeuse plutôt que le mode vocal (chanté versus parlé) était le principal déterminant de l’attention du bébé, indépendamment de son âge. Dans la seconde étude, la régulation affective des bébés a été explorée selon l’exposition à des enregistrements audio non familiers de chant ou de parole. Les bébés ont été exposés à du chant ou de la parole jusqu’à ce qu’ils rencontrent un critère d’insatisfaction exprimée dans le visage. Lors de l’expérience 1, des bébés de 7 à 10 mois ont écouté des enregistrements de paroles s’adressant au bébé, de paroles s’adressant à l’adulte ou du chant dans une langue non familière (turque). Les bébés ont écouté le chant près de deux fois plus longtemps que les paroles avant de manifester de l’insatisfaction. Lors de l’expérience 2, des bébés ont été exposés à des enregistrements de paroles ou de chants issus d’interactions naturelles entre la mère et son bébé, dans une langue familière. Comme dans l’expérience 1, le chant s’adressant au bébé était considérablement plus efficace que les paroles pour retarder l’apparition du mécontentement. La construction temporelle du chant, avec notamment son rythme régulier, son tempo stable et ses répétitions, pourrait jouer un rôle important dans la régulation affective, afin de soutenir l’attention, rehausser la familiarité ou promouvoir l’écoute prédictive et l’entraînement. En somme, les études présentées dans cette thèse révèlent, pour la première fois, que le chant est un outil parental puissant, tout aussi efficace que la parole pour capter l’attention et plus efficace que la parole pour maintenir les bébés dans un état paisible. Ces découvertes soulignent l’utilité du chant dans la vie quotidienne et l’utilité potentielle du chant dans des contextes thérapeutiques variés impliquant des bébés.
Resumo:
Au cours des dernières décennies, l’effort sur les applications de capteurs infrarouges a largement progressé dans le monde. Mais, une certaine difficulté demeure, en ce qui concerne le fait que les objets ne sont pas assez clairs ou ne peuvent pas toujours être distingués facilement dans l’image obtenue pour la scène observée. L’amélioration de l’image infrarouge a joué un rôle important dans le développement de technologies de la vision infrarouge de l’ordinateur, le traitement de l’image et les essais non destructifs, etc. Cette thèse traite de la question des techniques d’amélioration de l’image infrarouge en deux aspects, y compris le traitement d’une seule image infrarouge dans le domaine hybride espacefréquence, et la fusion d’images infrarouges et visibles employant la technique du nonsubsampled Contourlet transformer (NSCT). La fusion d’images peut être considérée comme étant la poursuite de l’exploration du modèle d’amélioration de l’image unique infrarouge, alors qu’il combine les images infrarouges et visibles en une seule image pour représenter et améliorer toutes les informations utiles et les caractéristiques des images sources, car une seule image ne pouvait contenir tous les renseignements pertinents ou disponibles en raison de restrictions découlant de tout capteur unique de l’imagerie. Nous examinons et faisons une enquête concernant le développement de techniques d’amélioration d’images infrarouges, et ensuite nous nous consacrons à l’amélioration de l’image unique infrarouge, et nous proposons un schéma d’amélioration de domaine hybride avec une méthode d’évaluation floue de seuil amélioré, qui permet d’obtenir une qualité d’image supérieure et améliore la perception visuelle humaine. Les techniques de fusion d’images infrarouges et visibles sont établies à l’aide de la mise en oeuvre d’une mise en registre précise des images sources acquises par différents capteurs. L’algorithme SURF-RANSAC est appliqué pour la mise en registre tout au long des travaux de recherche, ce qui conduit à des images mises en registre de façon très précise et des bénéfices accrus pour le traitement de fusion. Pour les questions de fusion d’images infrarouges et visibles, une série d’approches avancées et efficaces sont proposés. Une méthode standard de fusion à base de NSCT multi-canal est présente comme référence pour les approches de fusion proposées suivantes. Une approche conjointe de fusion, impliquant l’Adaptive-Gaussian NSCT et la transformée en ondelettes (Wavelet Transform, WT) est propose, ce qui conduit à des résultats de fusion qui sont meilleurs que ceux obtenus avec les méthodes non-adaptatives générales. Une approche de fusion basée sur le NSCT employant la détection comprime (CS, compressed sensing) et de la variation totale (TV) à des coefficients d’échantillons clairsemés et effectuant la reconstruction de coefficients fusionnés de façon précise est proposée, qui obtient de bien meilleurs résultats de fusion par le biais d’une pré-amélioration de l’image infrarouge et en diminuant les informations redondantes des coefficients de fusion. Une procédure de fusion basée sur le NSCT utilisant une technique de détection rapide de rétrécissement itératif comprimé (fast iterative-shrinking compressed sensing, FISCS) est proposée pour compresser les coefficients décomposés et reconstruire les coefficients fusionnés dans le processus de fusion, qui conduit à de meilleurs résultats plus rapidement et d’une manière efficace.
Resumo:
Ricavare informazioni dalla realtà circostante è un obiettivo molto importante dell'informatica moderna, in modo da poter progettare robot, veicoli a guida autonoma, sistemi di riconoscimento e tanto altro. La computer vision è la parte dell'informatica che se ne occupa e sta sempre più prendendo piede. Per raggiungere tale obiettivo si utilizza una pipeline di visione stereo i cui passi di rettificazione e generazione di mappa di disparità sono oggetto di questa tesi. In particolare visto che questi passi sono spesso affidati a dispositivi hardware dedicati (come le FPGA) allora si ha la necessità di utilizzare algoritmi che siano portabili su questo tipo di tecnologia, dove le risorse sono molto minori. Questa tesi mostra come sia possibile utilizzare tecniche di approssimazione di questi algoritmi in modo da risparmiare risorse ma che che garantiscano comunque ottimi risultati.
Resumo:
[ES]El Instituto Universitario de Sistemas Inteligentes y Aplicaciones Numéricas en Ingeniería y en especial la División de Robótica y Oceanografía Computacional está desarrollando un velero autónomo de superficie que requiere de un sistema para la detección y evasión de obstáculos. Dicho sistema se ha desarrollado sobre una Raspberry Pi con un servicio para la captura de imágenes, así como un servidor web que permita la modificación de la configuración de la cámara. Una vez completada dicha infraestructura se tomaron las fotografías que conformarán el conjunto de entrenamiento para el sistema de visión por computador y se desarrollará este último. Los resultados se han integrado con el sistema del control modificando el rumbo cuando se detecte un obstáculo.
Resumo:
Meeting, socializing and conversing online with a group of people using teleconferencing systems is still quite different from the experience of meeting face to face. We are abruptly aware that we are online and that the people we are engaging with are not in close proximity. Analogous to how talking on the telephone does not replicate the experience of talking in person. Several causes for these differences have been identified and we propose inspiring and innovative solutions to these hurdles in attempt to provide a more realistic, believable and engaging online conversational experience. We present the distributed and scalable framework REVERIE that provides a balanced mix of these solutions. Applications build on top of the REVERIE framework will be able to provide interactive, immersive, photo-realistic experiences to a multitude of users that for them will feel much more similar to having face to face meetings than the experience offered by conventional teleconferencing systems.
Resumo:
In computer vision, training a model that performs classification effectively is highly dependent on the extracted features, and the number of training instances. Conventionally, feature detection and extraction are performed by a domain-expert who, in many cases, is expensive to employ and hard to find. Therefore, image descriptors have emerged to automate these tasks. However, designing an image descriptor still requires domain-expert intervention. Moreover, the majority of machine learning algorithms require a large number of training examples to perform well. However, labelled data is not always available or easy to acquire, and dealing with a large dataset can dramatically slow down the training process. In this paper, we propose a novel Genetic Programming based method that automatically synthesises a descriptor using only two training instances per class. The proposed method combines arithmetic operators to evolve a model that takes an image and generates a feature vector. The performance of the proposed method is assessed using six datasets for texture classification with different degrees of rotation, and is compared with seven domain-expert designed descriptors. The results show that the proposed method is robust to rotation, and has significantly outperformed, or achieved a comparable performance to, the baseline methods.
Resumo:
Thesis (Ph.D.)--University of Washington, 2016-08