53 resultados para SIFT,Computer Vision,Python,Object Recognition,Feature Detection,Descriptor Computation
Resumo:
Negli ultimi anni la ricerca nella cura dei tumori si è interessata allo sviluppo di farmaci che contrastano la formazione di nuovi vasi sanguigni (angiogenesi) per l’apporto di ossigeno e nutrienti ai tessuti tumorali, necessari per l’accrescimento e la sopravvivenza del tumore. Per valutare l’efficacia di questi farmaci antiangiogenesi esistono tecniche invasive: viene prelevato tramite biopsia un campione di tessuto tumorale, e tramite analisi microscopica si quantifica la densità microvascolare (numero di vasi per mm^2) del campione. Stanno però prendendo piede tecniche di imaging in grado di valutare l’effetto di tali terapie in maniera meno invasiva. Grazie allo sviluppo tecnologico raggiunto negli ultimi anni, la tomografia computerizzata è tra le tecniche di imaging più utilizzate per questo scopo, essendo in grado di offrire un’alta risoluzione sia spaziale che temporale. Viene utilizzata la tomografia computerizzata per quantificare la perfusione di un mezzo di contrasto all’interno delle lesioni tumorali, acquisendo scansioni ripetute con breve intervallo di tempo sul volume della lesione, a seguito dell’iniezione del mezzo di contrasto. Dalle immagini ottenute vengono calcolati i parametri perfusionali tramite l’utilizzo di differenti modelli matematici proposti in letteratura, implementati in software commerciali o sviluppati da gruppi di ricerca. Al momento manca un standard per il protocollo di acquisizione e per l’elaborazione delle immagini. Ciò ha portato ad una scarsa riproducibilità dei risultati intra ed interpaziente. Manca inoltre in letteratura uno studio sull’affidabilità dei parametri perfusionali calcolati. Il Computer Vision Group dell’Università di Bologna ha sviluppato un’interfaccia grafica che, oltre al calcolo dei parametri perfusionali, permette anche di ottenere degli indici sulla qualità dei parametri stessi. Questa tesi, tramite l’analisi delle curve tempo concentrazione, si propone di studiare tali indici, di valutare come differenti valori di questi indicatori si riflettano in particolari pattern delle curve tempo concentrazione, in modo da identificare la presenza o meno di artefatti nelle immagini tomografiche che portano ad un’errata stima dei parametri perfusionali. Inoltre, tramite l’analisi delle mappe colorimetriche dei diversi indici di errore si vogliono identificare le regioni delle lesioni dove il calcolo della perfusione risulta più o meno accurato. Successivamente si passa all’analisi delle elaborazioni effettuate con tale interfaccia su diversi studi perfusionali, tra cui uno studio di follow-up, e al confronto con le informazioni che si ottengono dalla PET in modo da mettere in luce l’utilità che ha in ambito clinico l’analisi perfusionale. L’intero lavoro è stato svolto su esami di tomografia computerizzata perfusionale di tumori ai polmoni, eseguiti presso l’Unità Operativa di Diagnostica per Immagini dell’IRST (Istituto Scientifico Romagnolo per lo Studio e la Cura dei Tumori) di Meldola (FC). Grazie alla collaborazione in atto tra il Computer Vision Group e l’IRST, è stato possibile sottoporre i risultati ottenuti al primario dell’U. O. di Diagnostica per Immagini, in modo da poterli confrontare con le considerazioni di natura clinica.
Resumo:
In questa tesi viene studiata la libreria zbar.h il cui compito è decodificare i barcode presenti in immagini. Per acquisire le immagini si utilizzano funzioni contenute nella libreria OpenCV. Successivamente viene creata un'interfaccia tra OpenCV e ZBar. Vengono effettuati alcuni test per verificare l'efficienza sia di ZBar e sia dell'interfaccia. Concludendo, si crea una nuova libreria in cui sono inglobate le funzioni di ZBar e l'interfaccia OpenCV-ZBar
Resumo:
Nel contesto della tesi è stata sviluppata un'applicazione di Realtà Aumentata per tablet Android nell'ambito dell'interior design. Dopo aver acquisito un'istantanea con la fotocamera del dispositivo di un ambiente interno, è possibile selezionare attraverso un "tocco" sul display il rivestimento (pavimento o parete) di cui si vuole simulare il cambiamento di colore o texture. Una volta individuata ed evidenziata l'area di interesse, in tempo reale è possibile cambiare interattivamente l'aspetto del rivestimento precedentemente selezionato. La tesi si focalizza sulla ricerca di un metodo che consenta di avere una segmentazione accurata della superficie di interesse. L'algoritmo di segmentazione studiato, utilizzato nell'applicazione di Realtà Aumentata, è sviluppato nel contesto della collaborazione tra il Computer Vision Group (CVG), coordinato dal Prof. Alessandro Bevilacqua e Maticad S.r.l., un'azienda che opera nel settore dell'Information Technology, Distributed Applications, Internet e Computer Grafica, presso la quale ho effettuato un periodo di tirocinio. Maticad, oltre a software per pc desktop, sviluppa applicazioni per iOS e in questo contesto, durante il tirocinio, ho sviluppata un'applicazione demo per iOS 7 volta a studiare le prestazioni dei sensori (ottico, inerziali, magnetici), in vista di un futuro porting dell'applicazione su quel sistema operativo.
Resumo:
Le tematiche presentate in questa tesi fanno parte di una disciplina in ampio sviluppo nella ricerca scientifica moderna denominata “Dronistica”. I droni possiedono caratteristiche fisiche differenti in base alle esigenze dettate dall'ambito di utilizzo. La dronistica è infatti una disciplina molto varia e completa grazie alla versatilità dei dispositivi utilizzati, principalmente però tratta aeromobili a pilotaggio remoto e la loro applicazione nella computer vision. Nonostante il ricco hardware ed i molteplici software attualmente a disposizione dei ricercatori, questo settore è attualmente nelle prime fasi di vita; le prospettive di miglioramento e di sviluppo infatti sono ampie ed in mano a chi si occuperà di effettuare operazioni di ricerca e sperimentazione in tale campo. Nel seguente lavoro viene presentata la dronistica sotto ogni suo aspetto fondamentale, ponendo particolare attenzione ai dettagli tecnici ed alle applicazioni presenti e future. Il lavoro svolto inizia descrivendo la storia dei droni, presentando una panoramica sui modelli, le normative attualmente in vigore ed una classificazione delle applicazioni. La parte centrale della tesi tratta invece gli aspetti tecnici della dronistica, descrivendo le tecnologie hardware e le tecnologie software attualmente disponibili sul mercato. L'ultima parte descrive invece il legame tra i droni e la computer vision, il loro interfacciamento, le applicazioni ed i vantaggi di tale combinazione, mostrando inoltre casi di studio di diverse facoltà tra cui quella di Ingegneria e Scienze Informatiche di Cesena. Infine termina con una conclusione riguardante il lavoro svolto ed una prospettiva sugli sviluppi futuri.
Resumo:
Viene proposto un metodo completo di autocalibrazione degli intrinseci della telecamera utilizzando una singola vista, sfruttando i punti di fuga riconosciuti nell'immagine. La metodologia è suddivisa in quattro fasi fondamentali: estrazione dei segmenti dall’immagine, clusterizzazione dei segmenti, stima di un punto di fuga da ogni cluster e determinazione dei punti di fuga ortogonali. Viene fornita un nuova metodologia per la determinazione dei punti di fuga, dai cluster di segmenti identificati. Inoltre vengono proposti degli approcci euristici che favoriscono la selezione della terna corretta di punti di fuga ortogonali. L’approccio proposto è completamente modulare e sufficientemente flessibile per poter essere adattato a esigenze diverse. Le prestazioni dell’approccio vengono valutate confrontando altre due proposte alternative, a cui viene sottoposto il medesimo set di immagini, ognuna dotata di diverse caratteristiche. I risultati di questi esperimenti evidenziano la bontà dell’approccio proposto.
Resumo:
L’elaborato di tesi, che rientra nell’ambito di un progetto di collaborazione tra l’equipe del laboratorio ICM “Silvio Cavalcanti”, coordinato dal professor Giordano, e il CVG (Computer Vision Group) coordinato dal professor Bevilacqua, mira alla messa a punto di un sistema di misura quantitativa di segnali fluorescenti, tramite l’elaborazione di immagini acquisite in microscopia ottica.
Resumo:
La tesi, svolta per il completamento della Laurea Magistrale in Ingegneria Informatica, tratta la realizzazione di un progetto prototipo di Computer Vision (CV) e Realtà Aumentata (RA) per la manutenzione tecnica di macchinari industriali attraverso l'utilizzo di dispositivi mobili See-Through. Lo scopo è stato, oltre lo studio dello stato dell'arte in materia, provare con mano e rendere maggiormente visibili al pubblico questi nuovi rami dell'informatica. Il prototipo creato è stato inserito in un contesto aziendale, con misurazioni e prove sul campo. Partendo da una breve introduzione sulla realtà aumentata, nel primo capitolo viene descritto il progetto sviluppato, diviso in due sottoprogetti. Il primo, svolto solamente in una fase iniziale e presentato nel secondo capitolo, espone la realizzazione di un'applicazione mobile per lo streaming video con l'aggiunta di contenuti grafici aumentati. Il secondo, progettato e sviluppato in totale autonomia, rappresenta un prototipo demo di utilizzo della RA. La realizzazione viene illustrata nei capitoli successivi. Nel terzo capitolo si introducono gli strumenti che sono stati utilizzati per lo sviluppo dell'applicazione, in particolare Unity (per il development multi-piattaforma), Vuforia (per gli algoritmi di CV) e Blender (per la realizzazione di procedure di manutenzione). Il quarto capitolo, la parte più rilevante della trattazione, descrive, passo dopo passo, la creazione dei vari componenti, riassumendo in modo conciso e attraverso l'uso di figure i punti cardine. Infine, il quinto capitolo conclude il percorso realizzato presentando i risultati raggiunti e lasciando spunto per possibili miglioramenti ed aggiunte.
Resumo:
Lo scopo della tesi è creare un’architettura in FPGA in grado di ricavare informazioni 3D da una coppia di sensori stereo. La pipeline è stata realizzata utilizzando il System-on-Chip Zynq, che permette una stretta interazione tra la parte hardware realizzata in FPGA e la CPU. Dopo uno studio preliminare degli strumenti hardware e software, è stata realizzata l’architettura base per la scrittura e la lettura di immagini nella memoria DDR dello Zynq. In seguito l’attenzione si è spostata sull’implementazione di algoritmi stereo (rettificazione e stereo matching) su FPGA e nella realizzazione di una pipeline in grado di ricavare accurate mappe di disparità in tempo reale acquisendo le immagini da una camera stereo.
Resumo:
Ricavare informazioni dalla realtà circostante è un obiettivo molto importante dell'informatica moderna, in modo da poter progettare robot, veicoli a guida autonoma, sistemi di riconoscimento e tanto altro. La computer vision è la parte dell'informatica che se ne occupa e sta sempre più prendendo piede. Per raggiungere tale obiettivo si utilizza una pipeline di visione stereo i cui passi di rettificazione e generazione di mappa di disparità sono oggetto di questa tesi. In particolare visto che questi passi sono spesso affidati a dispositivi hardware dedicati (come le FPGA) allora si ha la necessità di utilizzare algoritmi che siano portabili su questo tipo di tecnologia, dove le risorse sono molto minori. Questa tesi mostra come sia possibile utilizzare tecniche di approssimazione di questi algoritmi in modo da risparmiare risorse ma che che garantiscano comunque ottimi risultati.
Resumo:
Il seguente elaborato di tesi tratta il problema della pianificazione di voli fotogrammetrici a bassa quota mediante l’uso di SAPR, in particolare è presentata una disamina delle principali applicazioni che permettono di programmare una copertura fotogrammetrica trasversale e longitudinale di un certo poligono con un drone commerciale. Il tema principale sviluppato è la gestione di un volo fotogrammetrico UAV mediante l’uso di applicativi software che permettono all’utente di inserire i parametri di volo in base alla tipologia di rilievo che vuole effettuare. L’obbiettivo finale è quello di ottenere una corretta presa fotogrammetrica da utilizzare per la creazione di un modello digitale del terreno o di un oggetto attraverso elaborazione dati in post-processing. La perfetta configurazione del volo non può prescindere dalle conoscenze base di fotogrammetria e delle meccaniche di un veicolo UAV. I capitoli introduttivi tratteranno infatti i principi della fotogrammetria analogica e digitale soffermandosi su temi utili alla comprensione delle problematiche relative al progetto di rilievo fotogrammetrico aereo. Una particolare attenzione è stata posta sulle nozioni di fotogrammetria digitale che, insieme agli algoritmi di Imagine Matching derivanti dalla Computer Vision, permette di definire il ramo della Fotogrammetria Moderna. Nei capitoli centrali verranno esaminate e confrontate una serie di applicazioni commerciali per smartphone e tablet, disponibili per sistemi Apple e Android, per trarne un breve resoconto conclusivo che le compari in termini di accessibilità, potenzialità e destinazione d’uso. Per una maggiore comprensione si determinano univocamente gli acronimi con cui i droni vengono chiamati nei diversi contesti: UAV (Unmanned Aerial Vehicle), SAPR (Sistemi Aeromobili a Pilotaggio Remoto), RPAS (Remotely Piloted Aicraft System), ARP (Aeromobili a Pilotaggio Remoto).
Resumo:
The job of a historian is to understand what happened in the past, resorting in many cases to written documents as a firsthand source of information. Text, however, does not amount to the only source of knowledge. Pictorial representations, in fact, have also accompanied the main events of the historical timeline. In particular, the opportunity of visually representing circumstances has bloomed since the invention of photography, with the possibility of capturing in real-time the occurrence of a specific events. Thanks to the widespread use of digital technologies (e.g. smartphones and digital cameras), networking capabilities and consequent availability of multimedia content, the academic and industrial research communities have developed artificial intelligence (AI) paradigms with the aim of inferring, transferring and creating new layers of information from images, videos, etc. Now, while AI communities are devoting much of their attention to analyze digital images, from an historical research standpoint more interesting results may be obtained analyzing analog images representing the pre-digital era. Within the aforementioned scenario, the aim of this work is to analyze a collection of analog documentary photographs, building upon state-of-the-art deep learning techniques. In particular, the analysis carried out in this thesis aims at producing two following results: (a) produce the date of an image, and, (b) recognizing its background socio-cultural context,as defined by a group of historical-sociological researchers. Given these premises, the contribution of this work amounts to: (i) the introduction of an historical dataset including images of “Family Album” among all the twentieth century, (ii) the introduction of a new classification task regarding the identification of the socio-cultural context of an image, (iii) the exploitation of different deep learning architectures to perform the image dating and the image socio-cultural context classification.
Resumo:
Dopo lo sviluppo dei primi casi di Covid-19 in Cina nell’autunno del 2019, ad inizio 2020 l’intero pianeta è precipitato in una pandemia globale che ha stravolto le nostre vite con conseguenze che non si vivevano dall’influenza spagnola. La grandissima quantità di paper scientifici in continua pubblicazione sul coronavirus e virus ad esso affini ha portato alla creazione di un unico dataset dinamico chiamato CORD19 e distribuito gratuitamente. Poter reperire informazioni utili in questa mole di dati ha ulteriormente acceso i riflettori sugli information retrieval systems, capaci di recuperare in maniera rapida ed efficace informazioni preziose rispetto a una domanda dell'utente detta query. Di particolare rilievo è stata la TREC-COVID Challenge, competizione per lo sviluppo di un sistema di IR addestrato e testato sul dataset CORD19. Il problema principale è dato dal fatto che la grande mole di documenti è totalmente non etichettata e risulta dunque impossibile addestrare modelli di reti neurali direttamente su di essi. Per aggirare il problema abbiamo messo a punto nuove soluzioni self-supervised, a cui abbiamo applicato lo stato dell'arte del deep metric learning e dell'NLP. Il deep metric learning, che sta avendo un enorme successo soprattuto nella computer vision, addestra il modello ad "avvicinare" tra loro immagini simili e "allontanare" immagini differenti. Dato che sia le immagini che il testo vengono rappresentati attraverso vettori di numeri reali (embeddings) si possano utilizzare le stesse tecniche per "avvicinare" tra loro elementi testuali pertinenti (e.g. una query e un paragrafo) e "allontanare" elementi non pertinenti. Abbiamo dunque addestrato un modello SciBERT con varie loss, che ad oggi rappresentano lo stato dell'arte del deep metric learning, in maniera completamente self-supervised direttamente e unicamente sul dataset CORD19, valutandolo poi sul set formale TREC-COVID attraverso un sistema di IR e ottenendo risultati interessanti.
Resumo:
Il Deep Learning ha radicalmente trasformato il mondo del Machine Learning migliorando lo stato dell'arte in diversi campi che spaziano dalla computer vision al natural language processing. Non fermandosi a problemi di classificazione, negli ultimi anni, applicazioni di tipo generativo hanno portato alla creazione di immagini realistiche e documenti letterali. Il mondo della musica non è esente da una moltitudine di esperimenti nello stesso campo, con risultati ancora acerbi ma comunque potenzialmente interessanti. In questa tesi verrà discussa l'applicazione di un di modello appartenente alla famiglia del Deep Learning per la generazione di musica simbolica.
Resumo:
Nell’ambito della Stereo Vision, settore della Computer Vision, partendo da coppie di immagini RGB, si cerca di ricostruire la profondità della scena. La maggior parte degli algoritmi utilizzati per questo compito ipotizzano che tutte le superfici presenti nella scena siano lambertiane. Quando sono presenti superfici non lambertiane (riflettenti o trasparenti), gli algoritmi stereo esistenti sbagliano la predizione della profondità. Per risolvere questo problema, durante l’esperienza di tirocinio, si è realizzato un dataset contenente oggetti trasparenti e riflettenti che sono la base per l’allenamento della rete. Agli oggetti presenti nelle scene sono associate annotazioni 3D usate per allenare la rete. Invece, nel seguente lavoro di tesi, utilizzando l’algoritmo RAFT-Stereo [1], rete allo stato dell’arte per la stereo vision, si analizza come la rete modifica le sue prestazioni (predizione della disparità) se al suo interno viene inserito un modulo per la segmentazione semantica degli oggetti. Si introduce questo layer aggiuntivo perché, trovare la corrispondenza tra due punti appartenenti a superfici lambertiane, risulta essere molto complesso per una normale rete. Si vuole utilizzare l’informazione semantica per riconoscere questi tipi di superfici e così migliorarne la disparità. È stata scelta questa architettura neurale in quanto, durante l’esperienza di tirocinio riguardante la creazione del dataset Booster [2], è risultata la migliore su questo dataset. L’obiettivo ultimo di questo lavoro è vedere se il riconoscimento di superfici non lambertiane, da parte del modulo semantico, influenza la predizione della disparità migliorandola. Nell’ambito della stereo vision, gli elementi riflettenti e trasparenti risultano estremamente complessi da analizzare, ma restano tuttora oggetto di studio dati gli svariati settori di applicazione come la guida autonoma e la robotica.
Resumo:
Gaze estimation has gained interest in recent years for being an important cue to obtain information about the internal cognitive state of humans. Regardless of whether it is the 3D gaze vector or the point of gaze (PoG), gaze estimation has been applied in various fields, such as: human robot interaction, augmented reality, medicine, aviation and automotive. In the latter field, as part of Advanced Driver-Assistance Systems (ADAS), it allows the development of cutting-edge systems capable of mitigating road accidents by monitoring driver distraction. Gaze estimation can be also used to enhance the driving experience, for instance, autonomous driving. It also can improve comfort with augmented reality components capable of being commanded by the driver's eyes. Although, several high-performance real-time inference works already exist, just a few are capable of working with only a RGB camera on computationally constrained devices, such as a microcontroller. This work aims to develop a low-cost, efficient and high-performance embedded system capable of estimating the driver's gaze using deep learning and a RGB camera. The proposed system has achieved near-SOTA performances with about 90% less memory footprint. The capabilities to generalize in unseen environments have been evaluated through a live demonstration, where high performance and near real-time inference were obtained using a webcam and a Raspberry Pi4.