76 resultados para Deep learning


Relevância:

60.00% 60.00%

Publicador:

Resumo:

Neural scene representation and neural rendering are new computer vision techniques that enable the reconstruction and implicit representation of real 3D scenes from a set of 2D captured images, by fitting a deep neural network. The trained network can then be used to render novel views of the scene. A recent work in this field, Neural Radiance Fields (NeRF), presented a state-of-the-art approach, which uses a simple Multilayer Perceptron (MLP) to generate photo-realistic RGB images of a scene from arbitrary viewpoints. However, NeRF does not model any light interaction with the fitted scene; therefore, despite producing compelling results for the view synthesis task, it does not provide a solution for relighting. In this work, we propose a new architecture to enable relighting capabilities in NeRF-based representations and we introduce a new real-world dataset to train and evaluate such a model. Our method demonstrates the ability to perform realistic rendering of novel views under arbitrary lighting conditions.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Description of the development of a product able to deliver an autonomous page construction from a predefined plan. The processes involve Machine Learning techniques for text fitting on shapes, Beam Search for associations and Deep Learning for autonomous cropping of images.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Driven by recent deep learning breakthroughs, natural language generation (NLG) models have been at the center of steady progress in the last few years. However, since our ability to generate human-indistinguishable artificial text lags behind our capacity to assess it, it is paramount to develop and apply even better automatic evaluation metrics. To facilitate researchers to judge the effectiveness of their models broadly, we suggest NLG-Metricverse—an end-to-end open-source library for NLG evaluation based on Python. This framework provides a living collection of NLG metrics in a unified and easy- to-use environment, supplying tools to efficiently apply, analyze, compare, and visualize them. This includes (i) the extensive support of heterogeneous automatic metrics with n-arity management, (ii) the meta-evaluation upon individual performance, metric-metric and metric-human correlations, (iii) graphical interpretations for helping humans better gain score intuitions, (iv) formal categorization and convenient documentation to accelerate metrics understanding. NLG-Metricverse aims to increase the comparability and replicability of NLG research, hopefully stimulating new contributions in the area.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

During the last semester of the Master’s Degree in Artificial Intelligence, I carried out my internship working for TXT e-Solution on the ADMITTED project. This paper describes the work done in those months. The thesis will be divided into two parts representing the two different tasks I was assigned during the course of my experience. The First part will be about the introduction of the project and the work done on the admittedly library, maintaining the code base and writing the test suits. The work carried out is more connected to the Software engineer role, developing features, fixing bugs and testing. The second part will describe the experiments done on the Anomaly detection task using a Deep Learning technique called Autoencoder, this task is on the other hand more connected to the data science role. The two tasks were not done simultaneously but were dealt with one after the other, which is why I preferred to divide them into two separate parts of this paper.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Il fine di questo elaborato riguarda lo studio di soluzioni per il contrasto di giocatori baranti controllati da algoritmi presenti nel videogioco online Team Fortress 2. Dopo una breve introduzione alla storia degli sparatutto online, si descriverà il funzionamento di tutti i componenti che sviluppano l'ambiente di gioco, oltre a definire termini e sistemi vitali per la comprensione dell'elaborato ed una breve introduzione a Team Fortress 2. Si procederà alla discussione del cheat e dei software e/o environment sfruttati dagli attacanti in partita, andando a cercare di spiegare il meccanismo e l'origine di questi elementi, nonché introdurre il concetto dei bot baranti implementati usando il programma open source cathook. Una volta spiegata la minaccia si andrà a spiegare la difesa da parte del gioco e degli sviluppatori attraverso il software di anticheat Valve Anti-Cheat (VAC) presente sul gioco, definendo le terminologie e alcune caratteristiche comuni rispetto agli altri, per poi introdurre le nuove tecnologie di contrasto sviluppati per Counter Strike: Global Offensive, ovvero Overwatch, Trust Factor e l'anticheat con deep learning VACNET. Infine, dopo aver definito più approfonditamente il funzionamento degli algoritmi baranti, verranno suggerite delle possibili soluzioni implementabili e del motivo per cui non riescono a risolvere completamente il problema. Concluderemo spiegando cosa stanno facendo i sviluppatori, per poi descrivere come effettivamente il problema possiede come l'unica soluzione di evitare di giocare nei server ufficiali di gioco, mantenendo comunque gli algoritmi liberi nei server ufficiali.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Nellâ analisi del segnale EEG, sono di particolare interesse i potenziali evento correlato (ERP), che descrivono la risposta cerebrale in seguito alla presentazione di stimoli o eventi esterni o interni. Questi potenziali non sono immediatamente visibili sul tracciato EEG grezzo, ed è necessario, oltre ad unâ��accurata fase di preprocessing, mediare (averaging) i segnali di molti trial ripetuti per visualizzare tali risposte nel tempo. Questo studio ha posto l' attenzione sugli ERP visuomotori generati in un compito di center-out reaching, che prevede il raggiungimento di uno tra cinque target, ognuno associato ad un LED, mediante il braccio dominante, con una tempistica scandita dalla presentazione di due stimoli visivi: lo stimolo preparatorio ¸ (che indica il target) e lo stimolo imperativo (che dà il via libera al movimento). I segnali ERP, ottenuti mediante la tecnica dellâ averaging, sono stati analizzati sia a livello di scalpo, considerando i segnali di elettrodo, sia a livello di corteccia, dopo risoluzione del problema inverso, e considerando rappresentazioni prima a livello di singoli dipoli corticali e quindi di intere regioni corticali (ROI). Inoltre, è stata applicato un metodo di deep learning (rete neurale convoluzionale) per decodificare il segnale EEG a livello di singolo trial, ovvero classificare il target coinvolto nello specifico trial. La decodifica è stata applicata sia ai segnali di scalpo sia ai segnali delle ROI corticali. Complessivamente i risultati mostrano ERP ben visibili a livello di scalpo e legati sia a processing visivo che motorio. Gli ERP a livello di ROI corticali sono più rumorosi e sembrano cogliere meno processing motorio rispetto al visivo, presumibilmente anche in conseguenza di alcune scelte metodologiche nella ricostruzione di segnali di ROI. In linea con questo, le performance di decodifica sono migliori a livello di scalpo che di ROI corticali.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Lo scopo di questo studio è l’implementazione di un sistema di navigazione autonomo in grado di calcolare la traiettoria di un mezzo aereo, noti che siano a priori dei punti di posizione detti waypoint. A partire da questa traiettoria, è possibile ottenere la sua rappresentazione in un codice che mette a disposizione immagini satellitari e ricavare le viste del terreno sorvolato in una serie di punti calcolati, in modo da garantire in ogni sequenza la presenza di elementi comuni rispetto a quella precedente. Lo scopo della realizzazione di questa banca dati è rendere possibili futuri sviluppi di algoritmi di navigazione basati su deep learning e reti neurali. Le immagini virtuali ottenute del terreno saranno in futuro applicate alla navigazione autonoma per agricoltura di precisione mediante droni. Per lo studio condotto è stato simulato un generico velivolo, con o senza pilota, dotato di una videocamera fissata su una sospensione cardanica a tre assi (gimbal). La tesi, dunque, introduce ai più comuni metodi di determinazione della posizione dei velivoli e alle più recenti soluzioni basate su algoritmi di Deep Learning e sistemi vision-based con reti neurali e segue in un approfondimento sul metodo di conversione degli angoli e sulla teoria matematica che ne sta alla base. Successivamente, analizza nel dettaglio il processo di simulazione della navigazione autonoma e della determinazione della traiettoria in ambiente software Matlab e Simulink, procedendo nell’analisi di alcuni casi di studio in ambienti realistici. L’elaborato si conclude con un breve riepilogo di quanto svolto e con alcune considerazioni sugli sviluppi futuri.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

City streets carry a lot of information that can be exploited to improve the quality of the services the citizens receive. For example, autonomous vehicles need to act accordingly to all the element that are nearby the vehicle itself, like pedestrians, traffic signs and other vehicles. It is also possible to use such information for smart city applications, for example to predict and analyze the traffic or pedestrian flows. Among all the objects that it is possible to find in a street, traffic signs are very important because of the information they carry. This information can in fact be exploited both for autonomous driving and for smart city applications. Deep learning and, more generally, machine learning models however need huge quantities to learn. Even though modern models are very good at gener- alizing, the more samples the model has, the better it can generalize between different samples. Creating these datasets organically, namely with real pictures, is a very tedious task because of the wide variety of signs available in the whole world and especially because of all the possible light, orientation conditions and con- ditions in general in which they can appear. In addition to that, it may not be easy to collect enough samples for all the possible traffic signs available, cause some of them may be very rare to find. Instead of collecting pictures manually, it is possible to exploit data aug- mentation techniques to create synthetic datasets containing the signs that are needed. Creating this data synthetically allows to control the distribution and the conditions of the signs in the datasets, improving the quality and quantity of training data that is going to be used. This thesis work is about using copy-paste data augmentation to create synthetic data for the traffic sign recognition task.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Robotic Grasping is an important research topic in robotics since for robots to attain more general-purpose utility, grasping is a necessary skill, but very challenging to master. In general the robots may use their perception abilities like an image from a camera to identify grasps for a given object usually unknown. A grasp describes how a robotic end-effector need to be positioned to securely grab an object and successfully lift it without lost it, at the moment state of the arts solutions are still far behind humans. In the last 5–10 years, deep learning methods take the scene to overcome classical problem like the arduous and time-consuming approach to form a task-specific algorithm analytically. In this thesis are present the progress and the approaches in the robotic grasping field and the potential of the deep learning methods in robotic grasping. Based on that, an implementation of a Convolutional Neural Network (CNN) as a starting point for generation of a grasp pose from camera view has been implemented inside a ROS environment. The developed technologies have been integrated into a pick-and-place application for a Panda robot from Franka Emika. The application includes various features related to object detection and selection. Additionally, the features have been kept as generic as possible to allow for easy replacement or removal if needed, without losing time for improvement or new testing.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

Most of the existing open-source search engines, utilize keyword or tf-idf based techniques to find relevant documents and web pages relative to an input query. Although these methods, with the help of a page rank or knowledge graphs, proved to be effective in some cases, they often fail to retrieve relevant instances for more complicated queries that would require a semantic understanding to be exploited. In this Thesis, a self-supervised information retrieval system based on transformers is employed to build a semantic search engine over the library of Gruppo Maggioli company. Semantic search or search with meaning can refer to an understanding of the query, instead of simply finding words matches and, in general, it represents knowledge in a way suitable for retrieval. We chose to investigate a new self-supervised strategy to handle the training of unlabeled data based on the creation of pairs of ’artificial’ queries and the respective positive passages. We claim that by removing the reliance on labeled data, we may use the large volume of unlabeled material on the web without being limited to languages or domains where labeled data is abundant.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

L'image captioning è un task di machine learning che consiste nella generazione di una didascalia, o caption, che descriva le caratteristiche di un'immagine data in input. Questo può essere applicato, ad esempio, per descrivere in dettaglio i prodotti in vendita su un sito di e-commerce, migliorando l'accessibilità del sito web e permettendo un acquisto più consapevole ai clienti con difficoltà visive. La generazione di descrizioni accurate per gli articoli di moda online è importante non solo per migliorare le esperienze di acquisto dei clienti, ma anche per aumentare le vendite online. Oltre alla necessità di presentare correttamente gli attributi degli articoli, infatti, descrivere i propri prodotti con il giusto linguaggio può contribuire a catturare l'attenzione dei clienti. In questa tesi, ci poniamo l'obiettivo di sviluppare un sistema in grado di generare una caption che descriva in modo dettagliato l'immagine di un prodotto dell'industria della moda dato in input, sia esso un capo di vestiario o un qualche tipo di accessorio. A questo proposito, negli ultimi anni molti studi hanno proposto soluzioni basate su reti convoluzionali e LSTM. In questo progetto proponiamo invece un'architettura encoder-decoder, che utilizza il modello Vision Transformer per la codifica delle immagini e GPT-2 per la generazione dei testi. Studiamo inoltre come tecniche di deep metric learning applicate in end-to-end durante l'addestramento influenzino le metriche e la qualità delle caption generate dal nostro modello.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

La tesi ha lo scopo di ricercare, esaminare ed implementare un sistema di Machine Learning, un Recommendation Systems per precisione, che permetta la racommandazione di documenti di natura giuridica, i quali sono già stati analizzati e categorizzati appropriatamente, in maniera ottimale, il cui scopo sarebbe quello di accompagnare un sistema già implementato di Information Retrieval, istanziato sopra una web application, che permette di ricercare i documenti giuridici appena menzionati.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

This thesis presents a study of the Grid data access patterns in distributed analysis in the CMS experiment at the LHC accelerator. This study ranges from the deep analysis of the historical patterns of access to the most relevant data types in CMS, to the exploitation of a supervised Machine Learning classification system to set-up a machinery able to eventually predict future data access patterns - i.e. the so-called dataset “popularity” of the CMS datasets on the Grid - with focus on specific data types. All the CMS workflows run on the Worldwide LHC Computing Grid (WCG) computing centers (Tiers), and in particular the distributed analysis systems sustains hundreds of users and applications submitted every day. These applications (or “jobs”) access different data types hosted on disk storage systems at a large set of WLCG Tiers. The detailed study of how this data is accessed, in terms of data types, hosting Tiers, and different time periods, allows to gain precious insight on storage occupancy over time and different access patterns, and ultimately to extract suggested actions based on this information (e.g. targetted disk clean-up and/or data replication). In this sense, the application of Machine Learning techniques allows to learn from past data and to gain predictability potential for the future CMS data access patterns. Chapter 1 provides an introduction to High Energy Physics at the LHC. Chapter 2 describes the CMS Computing Model, with special focus on the data management sector, also discussing the concept of dataset popularity. Chapter 3 describes the study of CMS data access patterns with different depth levels. Chapter 4 offers a brief introduction to basic machine learning concepts and gives an introduction to its application in CMS and discuss the results obtained by using this approach in the context of this thesis.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Nella prima parte del mio lavoro viene presentato uno studio di una prima soluzione "from scratch" sviluppata da Andrew Karpathy. Seguono due miei miglioramenti: il primo modificando direttamente il codice della precedente soluzione e introducendo, come obbiettivo aggiuntivo per la rete nelle prime fasi di gioco, l'intercettazione della pallina da parte della racchetta, migliorando l'addestramento iniziale; il secondo é una mia personale implementazione utilizzando algoritmi più complessi, che sono allo stato dell'arte su giochi dell'Atari, e che portano un addestramento molto più veloce della rete.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Dopo lo sviluppo dei primi casi di Covid-19 in Cina nell’autunno del 2019, ad inizio 2020 l’intero pianeta è precipitato in una pandemia globale che ha stravolto le nostre vite con conseguenze che non si vivevano dall’influenza spagnola. La grandissima quantità di paper scientifici in continua pubblicazione sul coronavirus e virus ad esso affini ha portato alla creazione di un unico dataset dinamico chiamato CORD19 e distribuito gratuitamente. Poter reperire informazioni utili in questa mole di dati ha ulteriormente acceso i riflettori sugli information retrieval systems, capaci di recuperare in maniera rapida ed efficace informazioni preziose rispetto a una domanda dell'utente detta query. Di particolare rilievo è stata la TREC-COVID Challenge, competizione per lo sviluppo di un sistema di IR addestrato e testato sul dataset CORD19. Il problema principale è dato dal fatto che la grande mole di documenti è totalmente non etichettata e risulta dunque impossibile addestrare modelli di reti neurali direttamente su di essi. Per aggirare il problema abbiamo messo a punto nuove soluzioni self-supervised, a cui abbiamo applicato lo stato dell'arte del deep metric learning e dell'NLP. Il deep metric learning, che sta avendo un enorme successo soprattuto nella computer vision, addestra il modello ad "avvicinare" tra loro immagini simili e "allontanare" immagini differenti. Dato che sia le immagini che il testo vengono rappresentati attraverso vettori di numeri reali (embeddings) si possano utilizzare le stesse tecniche per "avvicinare" tra loro elementi testuali pertinenti (e.g. una query e un paragrafo) e "allontanare" elementi non pertinenti. Abbiamo dunque addestrato un modello SciBERT con varie loss, che ad oggi rappresentano lo stato dell'arte del deep metric learning, in maniera completamente self-supervised direttamente e unicamente sul dataset CORD19, valutandolo poi sul set formale TREC-COVID attraverso un sistema di IR e ottenendo risultati interessanti.