907 resultados para Visual Odometry,Transformer,Deep learning
Photoplethysmography (PPG) sensors allow for noninvasive and comfortable heart-rate (HR) monitoring, suitable for compact wearable devices. However, PPG signals collected from such devices often suffer from corruption caused by motion artifacts. This is typically addressed by combining the PPG signal with acceleration measurements from an inertial sensor. Recently, different energy-efficient deep learning approaches for heart rate estimation have been proposed. To test these new solutions, in this work, we developed a highly wearable platform (42mm x 48 mm x 1.2mm) for PPG signal acquisition and processing, based on GAP9, a parallel ultra low power system-on-chip featuring nine cores RISC-V compute cluster with neural network accelerator and 1 core RISC-V controller. The hardware platform also integrates a commercial complete Optical Biosensing Module and an ARM-Cortex M4 microcontroller unit (MCU) with Bluetooth low-energy connectivity. To demonstrate the capabilities of the system, a deep learning-based approach for PPG-based HR estimation has been deployed. Thanks to the reduced power consumption of the digital computational platform, the total power budget is just 2.67 mW providing up to 5 days of operation (105 mAh battery).
L’applicazione degli algoritmi di Intelligenza Artificiale (AI) al settore dell’imaging medico potrebbe apportare numerosi miglioramenti alla qualità delle cure erogate ai pazienti. Tuttavia, per poterla mettere a frutto si devono ancora superare alcuni limiti legati alla necessità di grandi quantità di immagini acquisite su pazienti reali, utili nell’addestramento degli stessi algoritmi. Il principale limite è costituito dalle norme che tutelano la privacy di dati sensibili, tra cui sono incluse le immagini mediche. La generazione di grandi dataset di immagini sintetiche, ottenute con algoritmi di Deep Learning (DL), sembra essere la soluzione a questi problemi.
The amplitude of motor evoked potentials (MEPs) elicited by transcranial magnetic stimulation (TMS) of the primary motor cortex (M1) shows a large variability from trial to trial, although MEPs are evoked by the same repeated stimulus. A multitude of factors is believed to influence MEP amplitudes, such as cortical, spinal and motor excitability state. The goal of this work is to explore to which degree the variation in MEP amplitudes can be explained by the cortical state right before the stimulation. Specifically, we analyzed a dataset acquired on eleven healthy subjects comprising, for each subject, 840 single TMS pulses applied to the left M1 during acquisition of electroencephalography (EEG) and electromyography (EMG). An interpretable convolutional neural network, named SincEEGNet, was utilized to discriminate between low- and high-corticospinal excitability trials, defined according to the MEP amplitude, using in input the pre-TMS EEG. This data-driven approach enabled considering multiple brain locations and frequency bands without any a priori selection. Post-hoc interpretation techniques were adopted to enhance interpretation by identifying the more relevant EEG features for the classification. Results show that individualized classifiers successfully discriminated between low and high M1 excitability states in all participants. Outcomes of the interpretation methods suggest the importance of the electrodes situated over the TMS stimulation site, as well as the relevance of the temporal samples of the input EEG closer to the stimulation time. This novel decoding method allows causal investigation of the cortical excitability state, which may be relevant for personalizing and increasing the efficacy of therapeutic brain-state dependent brain stimulation (for example in patients affected by Parkinson’s disease).
Il cancro è un processo autosufficiente e adattivo che interagisce dinamicamente con il suo microambiente, la cui diagnosi, complessa e dispendiosa in termini di tempo e numero di specialisti impiegati, viene solitamente effettuata valutando l’imaging radiografico oppure effettuando un esame istologico. L'interpretazione di tali immagini risulta generalmente molto complessa, a questo scopo sarebbe molto utile poter addestrare un computer a comprendere tali immagini potendo di fatto affiancarsi allo specialista, senza sostituirlo, al momento della diagnosi. A questo scopo è possibile affidarsi alle tecniche di apprendimento automatico, sistema alla base dell’intelligenza artificiale (AI), le quali permettono di fatto di apprendere automaticamente la rappresentazione delle caratteristiche da immagini campione. Tali tecniche di intelligenza artificiale, hanno però bisogno, per essere addestrate, di grandi quantità di dati in cui il segnale di uscita desiderato è noto, comportando di fatto un aumento delle tempistiche di addestramento. Inoltre, in ambito sanitario, i dati sono distribuiti su più archivi, dislocati sul territorio nazionale, rendendo impossibile l’utilizzo di soluzioni centralizzate. L’obbiettivo di questa trattazione sarà cercare di trovare una soluzione a queste due problematiche, ricorrendo all’utilizzo delle tecniche di parallelizzazione. A seguito dell'introduzione dello scenario biologico e delle tecniche di diagnostica ad esso associato è presentato il percorso di creazione della rete neurale. A seguito del suo addestramento sulla GPU di una singola macchina, ottenendo un'accuratezza dell'83.94% in 5 ore 48 minuti e 43 secondi, è stata introdotto la parallelizzazione ed una sua implementazione. In conclusione, sfruttando il sistema implementato, è stata distribuita la fase di addestramento prima su due macchine e poi su tre, ottenendo una diminuzione del tempo di addestramento rispettivamente del 31.4% e del 50%.
Gaze estimation has gained interest in recent years for being an important cue to obtain information about the internal cognitive state of humans. Regardless of whether it is the 3D gaze vector or the point of gaze (PoG), gaze estimation has been applied in various fields, such as: human robot interaction, augmented reality, medicine, aviation and automotive. In the latter field, as part of Advanced Driver-Assistance Systems (ADAS), it allows the development of cutting-edge systems capable of mitigating road accidents by monitoring driver distraction. Gaze estimation can be also used to enhance the driving experience, for instance, autonomous driving. It also can improve comfort with augmented reality components capable of being commanded by the driver's eyes. Although, several high-performance real-time inference works already exist, just a few are capable of working with only a RGB camera on computationally constrained devices, such as a microcontroller. This work aims to develop a low-cost, efficient and high-performance embedded system capable of estimating the driver's gaze using deep learning and a RGB camera. The proposed system has achieved near-SOTA performances with about 90% less memory footprint. The capabilities to generalize in unseen environments have been evaluated through a live demonstration, where high performance and near real-time inference were obtained using a webcam and a Raspberry Pi4.
The Neural Networks customized and tested in this thesis (WaldoNet, FlowNet and PatchNet) are a first exploration and approach to the Template Matching task. The possibilities of extension are therefore many and some are proposed below. During my thesis, I have analyzed the functioning of the classical algorithms and adapted with deep learning algorithms. The features extracted from both the template and the query images resemble the keypoints of the SIFT algorithm. Then, instead of similarity function or keypoints matching, WaldoNet and PatchNet use the convolutional layer to compare the features, while FlowNet uses the correlational layer. In addition, I have identified the major challenges of the Template Matching task (affine/non-affine transformations, intensity changes...) and solved them with a careful design of the dataset.
Depth estimation from images has long been regarded as a preferable alternative compared to expensive and intrusive active sensors, such as LiDAR and ToF. The topic has attracted the attention of an increasingly wide audience thanks to the great amount of application domains, such as autonomous driving, robotic navigation and 3D reconstruction. Among the various techniques employed for depth estimation, stereo matching is one of the most widespread, owing to its robustness, speed and simplicity in setup. Recent developments has been aided by the abundance of annotated stereo images, which granted to deep learning the opportunity to thrive in a research area where deep networks can reach state-of-the-art sub-pixel precision in most cases. Despite the recent findings, stereo matching still begets many open challenges, two among them being finding pixel correspondences in presence of objects that exhibits a non-Lambertian behaviour and processing high-resolution images. Recently, a novel dataset named Booster, which contains high-resolution stereo pairs featuring a large collection of labeled non-Lambertian objects, has been released. The work shown that training state-of-the-art deep neural network on such data improves the generalization capabilities of these networks also in presence of non-Lambertian surfaces. Regardless being a further step to tackle the aforementioned challenge, Booster includes a rather small number of annotated images, and thus cannot satisfy the intensive training requirements of deep learning. This thesis work aims to investigate novel view synthesis techniques to augment the Booster dataset, with ultimate goal of improving stereo matching reliability in presence of high-resolution images that displays non-Lambertian surfaces.
Obiettivo di questo lavoro di tesi consiste nell’analizzare la domanda che il matematico e logico inglese Alan Turing propose di considerare: “Can machines think?”. Il quesito, esaminato attraverso la formulazione del gioco dell’imitazione e ormai ricordato come Test di Turing, è talmente interessante da essere divenuto uno degli argomenti più discussi nell’ambito delle scienze cognitive, della filosofia della mente e dell’informatica. In particolare è stata fondata una disciplina, chiamata intelligenza artificiale o IA, che intende studiare e comprendere se e come un sistema informatico possa essere capace di simulare una mente umana e un suo tipico comportamento. Questa tesi presenta una disamina sull’intelligenza artificiale e sul Test di Turing. Dell’IA si prenderanno in esame alcune definizioni formali della disciplina, le teorie di intelligenza artificiale debole e forte, e in particolare l’esperimento mentale della Stanza Cinese, il machine learning, il deep learning e le reti neurali, alcuni loro esempi di implementazione in diversi ambiti e infine alcune questioni etiche relative all’IA. Successivamente verranno esaminati la descrizione del gioco dell’imitazione, le più importanti critiche ed obiezioni al test di Turing, una variante del test, chiamata Test di Turing Totale, il premio Loebner, le previsioni fatte dal matematico e alcuni tentativi di superamento del test, tra cui l’implementazione dei chatterbot ELIZA, ALICE ed Eugene Goostman. Saranno infine proposte delle conclusioni in merito al lavoro svolto.
Artificial Intelligence is reshaping the field of fashion industry in different ways. E-commerce retailers exploit their data through AI to enhance their search engines, make outfit suggestions and forecast the success of a specific fashion product. However, it is a challenging endeavour as the data they possess is huge, complex and multi-modal. The most common way to search for fashion products online is by matching keywords with phrases in the product's description which are often cluttered, inadequate and differ across collections and sellers. A customer may also browse an online store's taxonomy, although this is time-consuming and doesn't guarantee relevant items. With the advent of Deep Learning architectures, particularly Vision-Language models, ad-hoc solutions have been proposed to model both the product image and description to solve this problems. However, the suggested solutions do not exploit effectively the semantic or syntactic information of these modalities, and the unique qualities and relations of clothing items. In this work of thesis, a novel approach is proposed to address this issues, which aims to model and process images and text descriptions as graphs in order to exploit the relations inside and between each modality and employs specific techniques to extract syntactic and semantic information. The results obtained show promising performances on different tasks when compared to the present state-of-the-art deep learning architectures.
I recenti sviluppi nel campo dell’intelligenza artificiale hanno permesso una più adeguata classificazione del segnale EEG. Negli ultimi anni è stato dimostrato come sia possibile ottenere ottime performance di classificazione impiegando tecniche di Machine Learning (ML) e di Deep Learning (DL), facendo uso, per quest’ultime, di reti neurali convoluzionali (Convolutional Neural Networks, CNN). In particolare, il Deep Learning richiede molti dati di training mentre spesso i dataset per EEG sono limitati ed è difficile quindi raggiungere prestazioni elevate. I metodi di Data Augmentation possono alleviare questo problema. Partendo da dati reali, questa tecnica permette, la creazione di dati artificiali fondamentali per aumentare le dimensioni del dataset di partenza. L’applicazione più comune è quella di utilizzare i Data Augmentation per aumentare le dimensioni del training set, in modo da addestrare il modello/rete neurale su un numero di campioni più esteso, riducendo gli errori di classificazione. Partendo da questa idea, i Data Augmentation sono stati applicati in molteplici campi e in particolare per la classificazione del segnale EEG. In questo elaborato di tesi, inizialmente, vengono descritti metodi di Data Augmentation implementati nel corso degli anni, utilizzabili anche nell’ambito di applicazioni EEG. Successivamente, si presentano alcuni studi specifici che applicano metodi di Data Augmentation per migliorare le presentazioni di classificatori basati su EEG per l’identificazione dello stato sonno/veglia, per il riconoscimento delle emozioni, e per la classificazione di immaginazione motoria.
Neural scene representation and neural rendering are new computer vision techniques that enable the reconstruction and implicit representation of real 3D scenes from a set of 2D captured images, by fitting a deep neural network. The trained network can then be used to render novel views of the scene. A recent work in this field, Neural Radiance Fields (NeRF), presented a state-of-the-art approach, which uses a simple Multilayer Perceptron (MLP) to generate photo-realistic RGB images of a scene from arbitrary viewpoints. However, NeRF does not model any light interaction with the fitted scene; therefore, despite producing compelling results for the view synthesis task, it does not provide a solution for relighting. In this work, we propose a new architecture to enable relighting capabilities in NeRF-based representations and we introduce a new real-world dataset to train and evaluate such a model. Our method demonstrates the ability to perform realistic rendering of novel views under arbitrary lighting conditions.
Description of the development of a product able to deliver an autonomous page construction from a predefined plan. The processes involve Machine Learning techniques for text fitting on shapes, Beam Search for associations and Deep Learning for autonomous cropping of images.
Driven by recent deep learning breakthroughs, natural language generation (NLG) models have been at the center of steady progress in the last few years. However, since our ability to generate human-indistinguishable artificial text lags behind our capacity to assess it, it is paramount to develop and apply even better automatic evaluation metrics. To facilitate researchers to judge the effectiveness of their models broadly, we suggest NLG-Metricverse—an end-to-end open-source library for NLG evaluation based on Python. This framework provides a living collection of NLG metrics in a unified and easy- to-use environment, supplying tools to efficiently apply, analyze, compare, and visualize them. This includes (i) the extensive support of heterogeneous automatic metrics with n-arity management, (ii) the meta-evaluation upon individual performance, metric-metric and metric-human correlations, (iii) graphical interpretations for helping humans better gain score intuitions, (iv) formal categorization and convenient documentation to accelerate metrics understanding. NLG-Metricverse aims to increase the comparability and replicability of NLG research, hopefully stimulating new contributions in the area.
During the last semester of the Master’s Degree in Artificial Intelligence, I carried out my internship working for TXT e-Solution on the ADMITTED project. This paper describes the work done in those months. The thesis will be divided into two parts representing the two different tasks I was assigned during the course of my experience. The First part will be about the introduction of the project and the work done on the admittedly library, maintaining the code base and writing the test suits. The work carried out is more connected to the Software engineer role, developing features, fixing bugs and testing. The second part will describe the experiments done on the Anomaly detection task using a Deep Learning technique called Autoencoder, this task is on the other hand more connected to the data science role. The two tasks were not done simultaneously but were dealt with one after the other, which is why I preferred to divide them into two separate parts of this paper.
Il fine di questo elaborato riguarda lo studio di soluzioni per il contrasto di giocatori baranti controllati da algoritmi presenti nel videogioco online Team Fortress 2. Dopo una breve introduzione alla storia degli sparatutto online, si descriverà il funzionamento di tutti i componenti che sviluppano l'ambiente di gioco, oltre a definire termini e sistemi vitali per la comprensione dell'elaborato ed una breve introduzione a Team Fortress 2. Si procederà alla discussione del cheat e dei software e/o environment sfruttati dagli attacanti in partita, andando a cercare di spiegare il meccanismo e l'origine di questi elementi, nonché introdurre il concetto dei bot baranti implementati usando il programma open source cathook. Una volta spiegata la minaccia si andrà a spiegare la difesa da parte del gioco e degli sviluppatori attraverso il software di anticheat Valve Anti-Cheat (VAC) presente sul gioco, definendo le terminologie e alcune caratteristiche comuni rispetto agli altri, per poi introdurre le nuove tecnologie di contrasto sviluppati per Counter Strike: Global Offensive, ovvero Overwatch, Trust Factor e l'anticheat con deep learning VACNET. Infine, dopo aver definito più approfonditamente il funzionamento degli algoritmi baranti, verranno suggerite delle possibili soluzioni implementabili e del motivo per cui non riescono a risolvere completamente il problema. Concluderemo spiegando cosa stanno facendo i sviluppatori, per poi descrivere come effettivamente il problema possiede come l'unica soluzione di evitare di giocare nei server ufficiali di gioco, mantenendo comunque gli algoritmi liberi nei server ufficiali.