878 resultados para Depth Estimation,Deep Learning,Disparity Estimation,Computer Vision,Stereo Vision
Resumo:
L’applicazione degli algoritmi di Intelligenza Artificiale (AI) al settore dell’imaging medico potrebbe apportare numerosi miglioramenti alla qualità delle cure erogate ai pazienti. Tuttavia, per poterla mettere a frutto si devono ancora superare alcuni limiti legati alla necessità di grandi quantità di immagini acquisite su pazienti reali, utili nell’addestramento degli stessi algoritmi. Il principale limite è costituito dalle norme che tutelano la privacy di dati sensibili, tra cui sono incluse le immagini mediche. La generazione di grandi dataset di immagini sintetiche, ottenute con algoritmi di Deep Learning (DL), sembra essere la soluzione a questi problemi.
Resumo:
The amplitude of motor evoked potentials (MEPs) elicited by transcranial magnetic stimulation (TMS) of the primary motor cortex (M1) shows a large variability from trial to trial, although MEPs are evoked by the same repeated stimulus. A multitude of factors is believed to influence MEP amplitudes, such as cortical, spinal and motor excitability state. The goal of this work is to explore to which degree the variation in MEP amplitudes can be explained by the cortical state right before the stimulation. Specifically, we analyzed a dataset acquired on eleven healthy subjects comprising, for each subject, 840 single TMS pulses applied to the left M1 during acquisition of electroencephalography (EEG) and electromyography (EMG). An interpretable convolutional neural network, named SincEEGNet, was utilized to discriminate between low- and high-corticospinal excitability trials, defined according to the MEP amplitude, using in input the pre-TMS EEG. This data-driven approach enabled considering multiple brain locations and frequency bands without any a priori selection. Post-hoc interpretation techniques were adopted to enhance interpretation by identifying the more relevant EEG features for the classification. Results show that individualized classifiers successfully discriminated between low and high M1 excitability states in all participants. Outcomes of the interpretation methods suggest the importance of the electrodes situated over the TMS stimulation site, as well as the relevance of the temporal samples of the input EEG closer to the stimulation time. This novel decoding method allows causal investigation of the cortical excitability state, which may be relevant for personalizing and increasing the efficacy of therapeutic brain-state dependent brain stimulation (for example in patients affected by Parkinson’s disease).
Resumo:
This dissertation describes a deepening study about Visual Odometry problem tackled with transformer architectures. The existing VO algorithms are based on heavily hand-crafted features and are not able to generalize well to new environments. To train them, we need carefully fine-tune the hyper-parameters and the network architecture. We propose to tackle the VO problem with transformer because it is a general-purpose architecture and because it was designed to transformer sequences of data from a domain to another one, which is the case of the VO problem. Our first goal is to create synthetic dataset using BlenderProc2 framework to mitigate the problem of the dataset scarcity. The second goal is to tackle the VO problem by using different versions of the transformer architecture, which will be pre-trained on the synthetic dataset and fine-tuned on the real dataset, KITTI dataset. Our approach is defined as follows: we use a feature-extractor to extract features embeddings from a sequence of images, then we feed this sequence of embeddings to the transformer architecture, finally, an MLP is used to predict the sequence of camera poses.
Resumo:
Obiettivo di questo lavoro di tesi consiste nell’analizzare la domanda che il matematico e logico inglese Alan Turing propose di considerare: “Can machines think?”. Il quesito, esaminato attraverso la formulazione del gioco dell’imitazione e ormai ricordato come Test di Turing, è talmente interessante da essere divenuto uno degli argomenti più discussi nell’ambito delle scienze cognitive, della filosofia della mente e dell’informatica. In particolare è stata fondata una disciplina, chiamata intelligenza artificiale o IA, che intende studiare e comprendere se e come un sistema informatico possa essere capace di simulare una mente umana e un suo tipico comportamento. Questa tesi presenta una disamina sull’intelligenza artificiale e sul Test di Turing. Dell’IA si prenderanno in esame alcune definizioni formali della disciplina, le teorie di intelligenza artificiale debole e forte, e in particolare l’esperimento mentale della Stanza Cinese, il machine learning, il deep learning e le reti neurali, alcuni loro esempi di implementazione in diversi ambiti e infine alcune questioni etiche relative all’IA. Successivamente verranno esaminati la descrizione del gioco dell’imitazione, le più importanti critiche ed obiezioni al test di Turing, una variante del test, chiamata Test di Turing Totale, il premio Loebner, le previsioni fatte dal matematico e alcuni tentativi di superamento del test, tra cui l’implementazione dei chatterbot ELIZA, ALICE ed Eugene Goostman. Saranno infine proposte delle conclusioni in merito al lavoro svolto.
Resumo:
I recenti sviluppi nel campo dell’intelligenza artificiale hanno permesso una più adeguata classificazione del segnale EEG. Negli ultimi anni è stato dimostrato come sia possibile ottenere ottime performance di classificazione impiegando tecniche di Machine Learning (ML) e di Deep Learning (DL), facendo uso, per quest’ultime, di reti neurali convoluzionali (Convolutional Neural Networks, CNN). In particolare, il Deep Learning richiede molti dati di training mentre spesso i dataset per EEG sono limitati ed è difficile quindi raggiungere prestazioni elevate. I metodi di Data Augmentation possono alleviare questo problema. Partendo da dati reali, questa tecnica permette, la creazione di dati artificiali fondamentali per aumentare le dimensioni del dataset di partenza. L’applicazione più comune è quella di utilizzare i Data Augmentation per aumentare le dimensioni del training set, in modo da addestrare il modello/rete neurale su un numero di campioni più esteso, riducendo gli errori di classificazione. Partendo da questa idea, i Data Augmentation sono stati applicati in molteplici campi e in particolare per la classificazione del segnale EEG. In questo elaborato di tesi, inizialmente, vengono descritti metodi di Data Augmentation implementati nel corso degli anni, utilizzabili anche nell’ambito di applicazioni EEG. Successivamente, si presentano alcuni studi specifici che applicano metodi di Data Augmentation per migliorare le presentazioni di classificatori basati su EEG per l’identificazione dello stato sonno/veglia, per il riconoscimento delle emozioni, e per la classificazione di immaginazione motoria.
Resumo:
Nel TCR - Termina container Ravenna, è importante che nel momento di scarico del container sul camion non siano presenti persone nell’area. In questo elaborato si descrive la realizzazione e il funzionamento di un sistema di allarme automatico, in grado di rilevare persone ed eventualmente interrompere la procedura di scarico del container. Tale sistema si basa sulla tecnica della object segmentation tramite rimozione dello sfondo, a cui viene affiancata una classificazione e rimozione delle eventuali ombre con un metodo cromatico. Inoltre viene identificata la possibile testa di una persona e avendo a disposizione due telecamere, si mette in atto una visione binoculare per calcolarne l’altezza. Infine, viene presa in considerazione anche la dinamica del sistema, per cui la classificazione di una persona si può basare sulla grandezza, altezza e velocità dell’oggetto individuato.
Resumo:
La classificazione di dati geometrici 3D come point cloud è un tema emergente nell'ambito della visione artificiale in quanto trova applicazione in molteplici contesti di guida autonoma, robotica e realtà aumentata. Sebbene nel mercato siano presenti una grande quantità di sensori in grado di ottenere scansioni reali, la loro annotazione costituisce un collo di bottiglia per la generazione di dataset. Per sopperire al problema si ricorre spesso alla domain adaptation sfruttando dati sintetici annotati. Questo elaborato si pone come obiettivo l'analisi e l'implementazione di metodi di domain adaptation per classificazione di point cloud mediante pseudo-labels. In particolare, sono stati condotti esperimenti all'interno del framework RefRec valutando la possibilità di sostituire nuove architetture di deep learning al modello preesistente. Tra queste, Transformer con mascheramento dell'input ha raggiunto risultati superiori allo stato dell'arte nell'adattamento da dati sintetici a reali (ModelNet->ScanNet) esaminato in questa tesi.
Resumo:
Description of the development of a product able to deliver an autonomous page construction from a predefined plan. The processes involve Machine Learning techniques for text fitting on shapes, Beam Search for associations and Deep Learning for autonomous cropping of images.
Resumo:
Driven by recent deep learning breakthroughs, natural language generation (NLG) models have been at the center of steady progress in the last few years. However, since our ability to generate human-indistinguishable artificial text lags behind our capacity to assess it, it is paramount to develop and apply even better automatic evaluation metrics. To facilitate researchers to judge the effectiveness of their models broadly, we suggest NLG-Metricverse—an end-to-end open-source library for NLG evaluation based on Python. This framework provides a living collection of NLG metrics in a unified and easy- to-use environment, supplying tools to efficiently apply, analyze, compare, and visualize them. This includes (i) the extensive support of heterogeneous automatic metrics with n-arity management, (ii) the meta-evaluation upon individual performance, metric-metric and metric-human correlations, (iii) graphical interpretations for helping humans better gain score intuitions, (iv) formal categorization and convenient documentation to accelerate metrics understanding. NLG-Metricverse aims to increase the comparability and replicability of NLG research, hopefully stimulating new contributions in the area.
Resumo:
During the last semester of the Master’s Degree in Artificial Intelligence, I carried out my internship working for TXT e-Solution on the ADMITTED project. This paper describes the work done in those months. The thesis will be divided into two parts representing the two different tasks I was assigned during the course of my experience. The First part will be about the introduction of the project and the work done on the admittedly library, maintaining the code base and writing the test suits. The work carried out is more connected to the Software engineer role, developing features, fixing bugs and testing. The second part will describe the experiments done on the Anomaly detection task using a Deep Learning technique called Autoencoder, this task is on the other hand more connected to the data science role. The two tasks were not done simultaneously but were dealt with one after the other, which is why I preferred to divide them into two separate parts of this paper.
Resumo:
Il fine di questo elaborato riguarda lo studio di soluzioni per il contrasto di giocatori baranti controllati da algoritmi presenti nel videogioco online Team Fortress 2. Dopo una breve introduzione alla storia degli sparatutto online, si descriverà il funzionamento di tutti i componenti che sviluppano l'ambiente di gioco, oltre a definire termini e sistemi vitali per la comprensione dell'elaborato ed una breve introduzione a Team Fortress 2. Si procederà alla discussione del cheat e dei software e/o environment sfruttati dagli attacanti in partita, andando a cercare di spiegare il meccanismo e l'origine di questi elementi, nonché introdurre il concetto dei bot baranti implementati usando il programma open source cathook. Una volta spiegata la minaccia si andrà a spiegare la difesa da parte del gioco e degli sviluppatori attraverso il software di anticheat Valve Anti-Cheat (VAC) presente sul gioco, definendo le terminologie e alcune caratteristiche comuni rispetto agli altri, per poi introdurre le nuove tecnologie di contrasto sviluppati per Counter Strike: Global Offensive, ovvero Overwatch, Trust Factor e l'anticheat con deep learning VACNET. Infine, dopo aver definito più approfonditamente il funzionamento degli algoritmi baranti, verranno suggerite delle possibili soluzioni implementabili e del motivo per cui non riescono a risolvere completamente il problema. Concluderemo spiegando cosa stanno facendo i sviluppatori, per poi descrivere come effettivamente il problema possiede come l'unica soluzione di evitare di giocare nei server ufficiali di gioco, mantenendo comunque gli algoritmi liberi nei server ufficiali.
Resumo:
Nellâ analisi del segnale EEG, sono di particolare interesse i potenziali evento correlato (ERP), che descrivono la risposta cerebrale in seguito alla presentazione di stimoli o eventi esterni o interni. Questi potenziali non sono immediatamente visibili sul tracciato EEG grezzo, ed è necessario, oltre ad unâ��accurata fase di preprocessing, mediare (averaging) i segnali di molti trial ripetuti per visualizzare tali risposte nel tempo. Questo studio ha posto l' attenzione sugli ERP visuomotori generati in un compito di center-out reaching, che prevede il raggiungimento di uno tra cinque target, ognuno associato ad un LED, mediante il braccio dominante, con una tempistica scandita dalla presentazione di due stimoli visivi: lo stimolo preparatorio ¸ (che indica il target) e lo stimolo imperativo (che dà il via libera al movimento). I segnali ERP, ottenuti mediante la tecnica dellâ averaging, sono stati analizzati sia a livello di scalpo, considerando i segnali di elettrodo, sia a livello di corteccia, dopo risoluzione del problema inverso, e considerando rappresentazioni prima a livello di singoli dipoli corticali e quindi di intere regioni corticali (ROI). Inoltre, è stata applicato un metodo di deep learning (rete neurale convoluzionale) per decodificare il segnale EEG a livello di singolo trial, ovvero classificare il target coinvolto nello specifico trial. La decodifica è stata applicata sia ai segnali di scalpo sia ai segnali delle ROI corticali. Complessivamente i risultati mostrano ERP ben visibili a livello di scalpo e legati sia a processing visivo che motorio. Gli ERP a livello di ROI corticali sono più rumorosi e sembrano cogliere meno processing motorio rispetto al visivo, presumibilmente anche in conseguenza di alcune scelte metodologiche nella ricostruzione di segnali di ROI. In linea con questo, le performance di decodifica sono migliori a livello di scalpo che di ROI corticali.
Resumo:
City streets carry a lot of information that can be exploited to improve the quality of the services the citizens receive. For example, autonomous vehicles need to act accordingly to all the element that are nearby the vehicle itself, like pedestrians, traffic signs and other vehicles. It is also possible to use such information for smart city applications, for example to predict and analyze the traffic or pedestrian flows. Among all the objects that it is possible to find in a street, traffic signs are very important because of the information they carry. This information can in fact be exploited both for autonomous driving and for smart city applications. Deep learning and, more generally, machine learning models however need huge quantities to learn. Even though modern models are very good at gener- alizing, the more samples the model has, the better it can generalize between different samples. Creating these datasets organically, namely with real pictures, is a very tedious task because of the wide variety of signs available in the whole world and especially because of all the possible light, orientation conditions and con- ditions in general in which they can appear. In addition to that, it may not be easy to collect enough samples for all the possible traffic signs available, cause some of them may be very rare to find. Instead of collecting pictures manually, it is possible to exploit data aug- mentation techniques to create synthetic datasets containing the signs that are needed. Creating this data synthetically allows to control the distribution and the conditions of the signs in the datasets, improving the quality and quantity of training data that is going to be used. This thesis work is about using copy-paste data augmentation to create synthetic data for the traffic sign recognition task.
Resumo:
Robotic Grasping is an important research topic in robotics since for robots to attain more general-purpose utility, grasping is a necessary skill, but very challenging to master. In general the robots may use their perception abilities like an image from a camera to identify grasps for a given object usually unknown. A grasp describes how a robotic end-effector need to be positioned to securely grab an object and successfully lift it without lost it, at the moment state of the arts solutions are still far behind humans. In the last 5–10 years, deep learning methods take the scene to overcome classical problem like the arduous and time-consuming approach to form a task-specific algorithm analytically. In this thesis are present the progress and the approaches in the robotic grasping field and the potential of the deep learning methods in robotic grasping. Based on that, an implementation of a Convolutional Neural Network (CNN) as a starting point for generation of a grasp pose from camera view has been implemented inside a ROS environment. The developed technologies have been integrated into a pick-and-place application for a Panda robot from Franka Emika. The application includes various features related to object detection and selection. Additionally, the features have been kept as generic as possible to allow for easy replacement or removal if needed, without losing time for improvement or new testing.
Resumo:
Technological advancement has undergone exponential growth in recent years, and this has brought significant improvements in the computational capabilities of computers, which can now perform an enormous amount of calculations per second. Taking advantage of these improvements has made it possible to devise algorithms that are very demanding in terms of the computational resources needed to develop architectures capable of solving the most complex problems: currently the most powerful of these are neural networks and in this thesis I will combine these tecniques with classical computer vision algorithms to improve the speed and accuracy of maintenance in photovoltaic facilities.