851 resultados para computer vision face recognition detection voice recognition sistemi biometrici iOS
Resumo:
Collecting and analysing data is an important element in any field of human activity and research. Even in sports, collecting and analyzing statistical data is attracting a growing interest. Some exemplar use cases are: improvement of technical/tactical aspects for team coaches, definition of game strategies based on the opposite team play or evaluation of the performance of players. Other advantages are related to taking more precise and impartial judgment in referee decisions: a wrong decision can change the outcomes of important matches. Finally, it can be useful to provide better representations and graphic effects that make the game more engaging for the audience during the match. Nowadays it is possible to delegate this type of task to automatic software systems that can use cameras or even hardware sensors to collect images or data and process them. One of the most efficient methods to collect data is to process the video images of the sporting event through mixed techniques concerning machine learning applied to computer vision. As in other domains in which computer vision can be applied, the main tasks in sports are related to object detection, player tracking, and to the pose estimation of athletes. The goal of the present thesis is to apply different models of CNNs to analyze volleyball matches. Starting from video frames of a volleyball match, we reproduce a bird's eye view of the playing court where all the players are projected, reporting also for each player the type of action she/he is performing.
Resumo:
Deep Neural Networks (DNNs) have revolutionized a wide range of applications beyond traditional machine learning and artificial intelligence fields, e.g., computer vision, healthcare, natural language processing and others. At the same time, edge devices have become central in our society, generating an unprecedented amount of data which could be used to train data-hungry models such as DNNs. However, the potentially sensitive or confidential nature of gathered data poses privacy concerns when storing and processing them in centralized locations. To this purpose, decentralized learning decouples model training from the need of directly accessing raw data, by alternating on-device training and periodic communications. The ability of distilling knowledge from decentralized data, however, comes at the cost of facing more challenging learning settings, such as coping with heterogeneous hardware and network connectivity, statistical diversity of data, and ensuring verifiable privacy guarantees. This Thesis proposes an extensive overview of decentralized learning literature, including a novel taxonomy and a detailed description of the most relevant system-level contributions in the related literature for privacy, communication efficiency, data and system heterogeneity, and poisoning defense. Next, this Thesis presents the design of an original solution to tackle communication efficiency and system heterogeneity, and empirically evaluates it on federated settings. For communication efficiency, an original method, specifically designed for Convolutional Neural Networks, is also described and evaluated against the state-of-the-art. Furthermore, this Thesis provides an in-depth review of recently proposed methods to tackle the performance degradation introduced by data heterogeneity, followed by empirical evaluations on challenging data distributions, highlighting strengths and possible weaknesses of the considered solutions. Finally, this Thesis presents a novel perspective on the usage of Knowledge Distillation as a mean for optimizing decentralized learning systems in settings characterized by data heterogeneity or system heterogeneity. Our vision on relevant future research directions close the manuscript.
Resumo:
Il seguente elaborato affronta l'implementazione di un algoritmo che affronta un problema di controllo di processo in ambito industriale utilizzando algoritmi di object detection. Infatti, il progetto concordato con il professore Di Stefano si è svolto in collaborazione con l’azienda Pirelli, nell’ambito della produzione di pneumatici. Lo scopo dell'algoritmo implementato è di verificare il preciso orientamento di elementi grafici della copertura, utilizzati dalle case automobilistiche per equipaggiare correttamente le vetture. In particolare, si devono individuare delle scritte sul battistrada della copertura e identificarne la posizione rispetto ad altri elementi fissati su di essa. La tesi affronta questo task in due parti distinte: la prima consiste nel training di algoritmi di deep learning per il riconoscimento degli elementi grafici e del battistrada, la seconda è un decisore che opera a valle del primo sistema utilizzando gli output delle reti allenate.
Resumo:
Nel TCR - Termina container Ravenna, è importante che nel momento di scarico del container sul camion non siano presenti persone nell’area. In questo elaborato si descrive la realizzazione e il funzionamento di un sistema di allarme automatico, in grado di rilevare persone ed eventualmente interrompere la procedura di scarico del container. Tale sistema si basa sulla tecnica della object segmentation tramite rimozione dello sfondo, a cui viene affiancata una classificazione e rimozione delle eventuali ombre con un metodo cromatico. Inoltre viene identificata la possibile testa di una persona e avendo a disposizione due telecamere, si mette in atto una visione binoculare per calcolarne l’altezza. Infine, viene presa in considerazione anche la dinamica del sistema, per cui la classificazione di una persona si può basare sulla grandezza, altezza e velocità dell’oggetto individuato.
Resumo:
Extracting human postural information from video sequences has proved a difficult research question. The most successful approaches to date have been based on particle filtering, whereby the underlying probability distribution is approximated by a set of particles. The shape of the underlying observational probability distribution plays a significant role in determining the success, both accuracy and efficiency, of any visual tracker. In this paper we compare approaches used by other authors and present a cost path approach which is commonly used in image segmentation problems, however is currently not widely used in tracking applications.
Resumo:
The reconstruction of a complex scene from multiple images is a fundamental problem in the field of computer vision. Volumetric methods have proven to be a strong alternative to traditional correspondence-based methods due to their flexible visibility models. In this paper we analyse existing methods for volumetric reconstruction and identify three key properties of voxel colouring algorithms: a water-tight surface model, a monotonic carving order, and causality. We present a new Voxel Colouring algorithm which embeds all reconstructions of a scene into a single output. While modelling exact visibility for arbitrary camera locations, Embedded Voxel Colouring removes the need for a priori threshold selection present in previous work. An efficient implementation is given along with results demonstrating the advantages of posteriori threshold selection.
Resumo:
The compound eyes of mantis shrimps (stomatopod crustaceans) include an unparalleled diversity of visual pigments and spectral receptor classes in retinas of each species. We compared the visual pigment and spectral receptor classes of 12 species of gonodactyloid stomatopods from a variety of photo environments, from intertidal to deep water ( > 50 m), to learn how spectral tuning in the different photoreceptor types is modified within different photic environments. Results show that receptors of the peripheral photoreceptors, those outside the midband which are responsible for standard visual tasks such as spatial vision and motion detection, reveal the well-known pattern of decreasing lambda(max) with increasing depth. Receptors of midband rows 5 and 6, which are specialized for polarization vision, are similar in all species, having visual lambda(max)-values near 500 nm, independent of depth. Finally the spectral receptors of midband rows 1 to 4 are tuned for maximum coverage of the spectrum of irradiance available in the habitat of each species. The quality of the visual worlds experienced by each species we studied must vary considerably, but all appear to exploit the full capabilities offered by their complex visual systems.
Resumo:
This work discusses the use of optical flow to generate the sensorial information a mobile robot needs to react to the presence of obstacles when navigating in a non-structured environment. A sensing system based on optical flow and time-to-collision calculation is here proposed and experimented, which accomplishes two important paradigms. The first one is that all computations are performed onboard the robot, in spite of the limited computational capability available. The second one is that the algorithms for optical flow and time-to-collision calculations are fast enough to give the mobile robot the capability of reacting to any environmental change in real-time. Results of real experiments in which the sensing system here proposed is used as the only source of sensorial data to guide a mobile robot to avoid obstacles while wandering around are presented, and the analysis of such results allows validating the proposed sensing system.
Resumo:
The mechanisms of speech production are complex and have been raising attention from researchers of both medical and computer vision fields. In the speech production mechanism, the articulator’s study is a complex issue, since they have a high level of freedom along this process, namely the tongue, which instigates a problem in its control and observation. In this work it is automatically characterized the tongues shape during the articulation of the oral vowels of Portuguese European by using statistical modeling on MR-images. A point distribution model is built from a set of images collected during artificially sustained articulations of Portuguese European sounds, which can extract the main characteristics of the motion of the tongue. The model built in this work allows under standing more clearly the dynamic speech events involved during sustained articulations. The tongue shape model built can also be useful for speech rehabilitation purposes, specifically to recognize the compensatory movements of the articulators during speech production.
Resumo:
Dissertação para obtenção do grau de Mestre em Engenharia Electrotécnica Ramo de Automação e Electrónica Industrial
Resumo:
Computer Vision Syndrome (CSV): 1) Conjunto de complicações desencadeadas com o acto de fixação para perto, que são experimentadas durante ou após o uso do computador; 2) Distúrbio caracterizado pelo esforço repetitivo de perto traduzindo-se em sintomas oculares e não oculares. Pertinência do estudo: os trabalhadores de telecomunicações desempenham actividades prolongadas de fixação para perto, o que pode originar queixas de fadiga visual devido ao stress exercido sob a convergência acomodativa. Objectivos do estudo: 1) Identificar quais os parâmetros da visão binocular que são mais influenciados pelo uso prolongado do computador; 2) Comparar a visão binocular em dois grupos de indivíduos com e sem sintomatologia ocular.
Resumo:
Drilling of composites plates normally uses traditional techniques but damage risk is high. NDT use is important. Damage in a carbon/epoxy plate is evaluated by enhanced X-rays. Four different drills are used. The images are analysed using Computational Vision techniques. Surface roughness is compared. Results suggest strategies for delamination reduction.
Resumo:
Este trabalho visa contribuir para o desenvolvimento de um sistema de visão multi-câmara para determinação da localização, atitude e seguimento de múltiplos objectos, para ser utilizado na unidade de robótica do INESCTEC, e resulta da necessidade de ter informação externa exacta que sirva de referência no estudo, caracterização e desenvolvimento de algoritmos de localização, navegação e controlo de vários sistemas autónomos. Com base na caracterização dos veículos autónomos existentes na unidade de robótica do INESCTEC e na análise dos seus cenários de operação, foi efectuado o levantamento de requisitos para o sistema a desenvolver. Foram estudados os fundamentos teóricos, necessários ao desenvolvimento do sistema, em temas relacionados com visão computacional, métodos de estimação e associação de dados para problemas de seguimento de múltiplos objectos . Foi proposta uma arquitectura para o sistema global que endereça os vários requisitos identi cados, permitindo a utilização de múltiplas câmaras e suportando o seguimento de múltiplos objectos, com ou sem marcadores. Foram implementados e validados componentes da arquitectura proposta e integrados num sistema para validação, focando na localização e seguimento de múltiplos objectos com marcadores luminosos à base de Light-Emitting Diodes (LEDs). Nomeadamente, os módulos para a identi cação dos pontos de interesse na imagem, técnicas para agrupar os vários pontos de interesse de cada objecto e efectuar a correspondência das medidas obtidas pelas várias câmaras, método para a determinação da posição e atitude dos objectos, ltro para seguimento de múltiplos objectos. Foram realizados testes para validação e a nação do sistema implementado que demonstram que a solução encontrada vai de encontro aos requisitos, e foram identi cadas as linhas de trabalho para a continuação do desenvolvimento do sistema global.
Resumo:
A exploração do meio subaquático utilizando visão computacional é ainda um processo complexo. Geralmente são utilizados sistemas de visão baseados em visão stereo, no entanto, esta abordagem apresenta limitações, é pouco precisa e é exigente em termos computacionais quando o meio de operação é o subaquático. Estas limitações surgem principalmente em dois cenários de aplicação: quando existe escassez de iluminação e em operações junto a infraestruturas subaquáticas. Consequentemente, a solução reside na utilização de fontes de informação sensorial alternativas ou complementares ao sistema de visão computacional. Neste trabalho propõe-se o desenvolvimento de um sistema de percepção subaquático que combina uma câmara e um projetor laser de um feixe em linha, onde o projetor de luz estruturada _e utilizado como fonte de informação. Em qualquer sistema de visão computacional, e ainda mais relevante em sistemas baseados em triangulação, a sua correta calibração toma um papel fulcral para a qualidade das medidas obtidas com o sistema. A calibração do sistema de visão laser foi dividida em duas etapas. A primeira etapa diz respeito à calibração da câmara, onde são definidos os parâmetros intrínsecos e os parâmetros extrínsecos relativos a este sensor. A segunda etapa define a relação entre a câmara e o laser, sendo esta etapa necessária para a obtenção de imagens tridimensionais. Assim, um dos principais desafios desta dissertação passou por resolver o problema da calibração inerente a este sistema. Desse modo, foi desenvolvida uma ferramenta que requer, pelo menos duas fotos do padrão de xadrez, com perspectivas diferentes. O método proposto foi caracterizado e validado em ambientes secos e subaquáticos. Os resultados obtidos mostram que o sistema _e preciso e os valores de profundidade obtidos apresentam um erro significativamente baixo (inferiores a 1 mm), mesmo com uma base-line (distância entre a centro óptico da câmara e o plano de incidência do laser) reduzida.
Resumo:
Proceedings of the International Conference on Computer Vision Theory and Applications, 361-365, 2013, Barcelona, Spain