6 resultados para stereo matching problem
em AMS Tesi di Laurea - Alm@DL - Università di Bologna
Resumo:
Depth estimation from images has long been regarded as a preferable alternative compared to expensive and intrusive active sensors, such as LiDAR and ToF. The topic has attracted the attention of an increasingly wide audience thanks to the great amount of application domains, such as autonomous driving, robotic navigation and 3D reconstruction. Among the various techniques employed for depth estimation, stereo matching is one of the most widespread, owing to its robustness, speed and simplicity in setup. Recent developments has been aided by the abundance of annotated stereo images, which granted to deep learning the opportunity to thrive in a research area where deep networks can reach state-of-the-art sub-pixel precision in most cases. Despite the recent findings, stereo matching still begets many open challenges, two among them being finding pixel correspondences in presence of objects that exhibits a non-Lambertian behaviour and processing high-resolution images. Recently, a novel dataset named Booster, which contains high-resolution stereo pairs featuring a large collection of labeled non-Lambertian objects, has been released. The work shown that training state-of-the-art deep neural network on such data improves the generalization capabilities of these networks also in presence of non-Lambertian surfaces. Regardless being a further step to tackle the aforementioned challenge, Booster includes a rather small number of annotated images, and thus cannot satisfy the intensive training requirements of deep learning. This thesis work aims to investigate novel view synthesis techniques to augment the Booster dataset, with ultimate goal of improving stereo matching reliability in presence of high-resolution images that displays non-Lambertian surfaces.
Resumo:
La Stereo Vision è un popolare argomento di ricerca nel campo della Visione Artificiale; esso consiste nell’usare due immagini di una stessa scena,prodotte da due fotocamere diverse, per estrarre informazioni in 3D. L’idea di base della Stereo Vision è la simulazione della visione binoculare umana:le due fotocamere sono disposte in orizzontale per fungere da “occhi” che guardano la scena in 3D. Confrontando le due immagini ottenute, si possono ottenere informazioni riguardo alle posizioni degli oggetti della scena.In questa relazione presenteremo un algoritmo di Stereo Vision: si tratta di un algoritmo parallelo che ha come obiettivo di tracciare le linee di livello di un area geografica. L’algoritmo in origine era stato implementato per la Connection Machine CM-2, un supercomputer sviluppato negli anni 80, ed era espresso in *Lisp, un linguaggio derivato dal Lisp e ideato per la macchina stessa. Questa relazione tratta anche la traduzione e l’implementazione dell’algoritmo in CUDA, ovvero un’architettura hardware per l’elaborazione pa- rallela sviluppata da NVIDIA, che consente di eseguire codice parallelo su GPU. Si darà inoltre uno sguardo alle difficoltà che sono state riscontrate nella traduzione da *Lisp a CUDA.
Resumo:
Lo scopo della tesi è creare un’architettura in FPGA in grado di ricavare informazioni 3D da una coppia di sensori stereo. La pipeline è stata realizzata utilizzando il System-on-Chip Zynq, che permette una stretta interazione tra la parte hardware realizzata in FPGA e la CPU. Dopo uno studio preliminare degli strumenti hardware e software, è stata realizzata l’architettura base per la scrittura e la lettura di immagini nella memoria DDR dello Zynq. In seguito l’attenzione si è spostata sull’implementazione di algoritmi stereo (rettificazione e stereo matching) su FPGA e nella realizzazione di una pipeline in grado di ricavare accurate mappe di disparità in tempo reale acquisendo le immagini da una camera stereo.
Resumo:
Il framework in oggetto, è un ambiente ideato con lo scopo di applicare tecniche di Machine Learning (in particolare le Random Forest) alle funzionalità dell'algoritmo di stereo matching SGM (Semi Global Matching), al fine di incrementarne l'accuratezza in versione standard. Scopo della presente tesi è quello di modificare alcune impostazioni di tale framework rendendolo un ambiente che meglio si adatti alla direzionalità delle scanline (introducendo finestre di supporto rettangolari e ortogonali e il training di foreste separate in base alla singola scanline) e ampliarne le funzionalità tramite l'aggiunta di alcune nuove feature, quali la distanza dal più vicino edge direzionale e la distintività calcolate sulle immagini Left della stereo pair e gli edge direzionali sulle mappe di disparità. Il fine ultimo sarà quello di eseguire svariati test sui dataset Middlebury 2014 e KITTI e raccogliere dati che descrivano l'andamento in positivo o negativo delle modifiche effettuate.
Resumo:
In this thesis I describe eight new stereo matching algorithms that perform the cost-aggregation step using a guided filter with a confidence map as guidance image, and share the structure of a linear stereo matching algorithm. The results of the execution of the proposed algorithms on four pictures from the Middlebury dataset are shown as well. Finally, based on these results, a ranking of the proposed algorithms is presented.
Resumo:
L’utilizzo di informazioni di profondità è oggi di fondamentale utilità per molteplici settori applicativi come la robotica, la guida autonoma o assistita, la realtà aumentata e il monitoraggio ambientale. I sensori di profondità disponibili possono essere divisi in attivi e passivi, dove i sensori passivi ricavano le informazioni di profondità dall'ambiente senza emettere segnali, bensì utilizzando i segnali provenienti dall'ambiente (e.g., luce solare). Nei sensori depth passivi stereo è richiesto un algoritmo per elaborare le immagini delle due camere: la tecnica di stereo matching viene utilizzata appunto per stimare la profondità di una scena. Di recente la ricerca si è occupata anche della sinergia con sensori attivi al fine di migliorare la stima della depth ottenuta da un sensore stereo: si utilizzano i punti affidabili generati dal sensore attivo per guidare l'algoritmo di stereo matching verso la soluzione corretta. In questa tesi si è deciso di affrontare questa tematica da un punto di vista nuovo, utilizzando un sistema di proiezione virtuale di punti corrispondenti in immagini stereo: i pixel delle immagini vengono alterati per guidare l'algoritmo ottimizzando i costi. Un altro vantaggio della strategia proposta è la possibilità di iterare il processo, andando a cambiare il pattern in ogni passo: aggregando i passi in un unico risultato, è possibile migliorare il risultato finale. I punti affidabili sono ottenuti mediante sensori attivi (e.g. LiDAR, ToF), oppure direttamente dalle immagini, stimando la confidenza delle mappe prodotte dal medesimo sistema stereo: la confidenza permette di classificare la bontà di un punto fornito dall'algoritmo di matching. Nel corso della tesi sono stati utilizzati sensori attivi per verificare l'efficacia della proiezione virtuale, ma sono state anche effettuate analisi sulle misure di confidenza: lo scopo è verificare se le misure di confidenza possono rimpiazzare o assistere i sensori attivi.