53 resultados para SIFT,Computer Vision,Python,Object Recognition,Feature Detection,Descriptor Computation


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Il seguente elaborato affronta l'implementazione di un algoritmo che affronta un problema di controllo di processo in ambito industriale utilizzando algoritmi di object detection. Infatti, il progetto concordato con il professore Di Stefano si è svolto in collaborazione con l’azienda Pirelli, nell’ambito della produzione di pneumatici. Lo scopo dell'algoritmo implementato è di verificare il preciso orientamento di elementi grafici della copertura, utilizzati dalle case automobilistiche per equipaggiare correttamente le vetture. In particolare, si devono individuare delle scritte sul battistrada della copertura e identificarne la posizione rispetto ad altri elementi fissati su di essa. La tesi affronta questo task in due parti distinte: la prima consiste nel training di algoritmi di deep learning per il riconoscimento degli elementi grafici e del battistrada, la seconda è un decisore che opera a valle del primo sistema utilizzando gli output delle reti allenate.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Nel TCR - Termina container Ravenna, è importante che nel momento di scarico del container sul camion non siano presenti persone nell’area. In questo elaborato si descrive la realizzazione e il funzionamento di un sistema di allarme automatico, in grado di rilevare persone ed eventualmente interrompere la procedura di scarico del container. Tale sistema si basa sulla tecnica della object segmentation tramite rimozione dello sfondo, a cui viene affiancata una classificazione e rimozione delle eventuali ombre con un metodo cromatico. Inoltre viene identificata la possibile testa di una persona e avendo a disposizione due telecamere, si mette in atto una visione binoculare per calcolarne l’altezza. Infine, viene presa in considerazione anche la dinamica del sistema, per cui la classificazione di una persona si può basare sulla grandezza, altezza e velocità dell’oggetto individuato.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The usage of Optical Character Recognition’s (OCR, systems is a widely spread technology into the world of Computer Vision and Machine Learning. It is a topic that interest many field, for example the automotive, where becomes a specialized task known as License Plate Recognition, useful for many application from the automation of toll road to intelligent payments. However, OCR systems need to be very accurate and generalizable in order to be able to extract the text of license plates under high variable conditions, from the type of camera used for acquisition to light changes. Such variables compromise the quality of digitalized real scenes causing the presence of noise and degradation of various type, which can be minimized with the application of modern approaches for image iper resolution and noise reduction. Oneclass of them is known as Generative Neural Networks, which are very strong ally for the solution of this popular problem.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Technological advancement has undergone exponential growth in recent years, and this has brought significant improvements in the computational capabilities of computers, which can now perform an enormous amount of calculations per second. Taking advantage of these improvements has made it possible to devise algorithms that are very demanding in terms of the computational resources needed to develop architectures capable of solving the most complex problems: currently the most powerful of these are neural networks and in this thesis I will combine these tecniques with classical computer vision algorithms to improve the speed and accuracy of maintenance in photovoltaic facilities.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Riconoscere un gesto, tracciarlo ed identificarlo è una operazione complessa ed articolata. Negli ultimi anni, con l’avvento massivo di interfacce interattive sempre più sofisticate, si sono ampliati gli approcci nell’interazione tra uomo e macchina. L’obiettivo comune, è quello di avere una comunicazione “trasparente” tra l’utente e il computer, il quale, deve interpretare gesti umani tramite algoritmi matematici. Il riconoscimento di gesti è un modo per iniziare a comprendere il linguaggio del corpo umano da parte della macchina. Questa disciplina, studia nuovi modi di interazione tra questi due elementi e si compone di due macro obiettivi : (a) tracciare i movimenti di un particolare arto; (b) riconoscere tale tracciato come un gesto identificativo. Ognuno di questi due punti, racchiude in sé moltissimi ambiti di ricerca perché moltissimi sono gli approcci proposti negli anni. Non si tratta di semplice cattura dell’immagine, è necessario creare un supporto, a volte molto articolato, nel quale i dati grezzi provenienti dalla fotocamera, necessitano di filtraggi avanzati e trattamenti algoritmici, in modo tale da trasformare informazioni grezze, in dati utilizzabili ed affidabili. La tecnologia riguardo la gesture recognition è rilevante come l’introduzione delle interfacce tattili sui telefoni intelligenti. L’industria oggi ha iniziato a produrre dispositivi in grado di offrire una nuova esperienza, la più naturale possibile, agli utenti. Dal videogioco, all’esperienza televisiva gestita con dei piccoli gesti, all’ambito biomedicale, si sta introducendo una nuova generazione di dispositivi i cui impieghi sono innumerevoli e, per ogni ambito applicativo, è necessario studiare al meglio le peculiarità, in modo tale da produrre un qualcosa di nuovo ed efficace. Questo lavoro di tesi ha l’obiettivo di apportare un contributo a questa disciplina. Ad oggi, moltissime applicazioni e dispositivi associati, si pongono l’obiettivo di catturare movimenti ampi: il gesto viene eseguito con la maggior parte del corpo e occupa una posizione spaziale rilevante. Questa tesi vuole proporre invece un approccio, nel quale i movimenti da seguire e riconoscere sono fatti “nel piccolo”. Si avrà a che fare con gesti classificati fini, dove i movimenti delle mani sono compiuti davanti al corpo, nella zona del torace, ad esempio. Gli ambiti applicativi sono molti, in questo lavoro si è scelto ed adottato l’ambito artigianale.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Negli ultimi anni si è assistito ad una radicale rivoluzione nell’ambito dei dispositivi di interazione uomo-macchina. Da dispositivi tradizionali come il mouse o la tastiera si è passati allo sviluppo di nuovi sistemi capaci di riconoscere i movimenti compiuti dall’utente (interfacce basate sulla visione o sull’uso di accelerometri) o rilevare il contatto (interfacce di tipo touch). Questi sistemi sono nati con lo scopo di fornire maggiore naturalezza alla comunicazione uomo-macchina. Le nuove interfacce sono molto più espressive di quelle tradizionali poiché sfruttano le capacità di comunicazione naturali degli utenti, su tutte il linguaggio gestuale. Essere in grado di riconoscere gli esseri umani, in termini delle azioni che stanno svolgendo o delle posture che stanno assumendo, apre le porte a una serie vastissima di interessanti applicazioni. Ad oggi sistemi di riconoscimento delle parti del corpo umano e dei gesti sono ampiamente utilizzati in diversi ambiti, come l’interpretazione del linguaggio dei segni, in robotica per l’assistenza sociale, per indica- re direzioni attraverso il puntamento, nel riconoscimento di gesti facciali [1], interfacce naturali per computer (valida alternativa a mouse e tastiera), ampliare e rendere unica l’esperienza dei videogiochi (ad esempio Microsoft 1 Introduzione Kinect© e Nintendo Wii©), nell’affective computing1 . Mostre pubbliche e musei non fanno eccezione, assumendo un ruolo cen- trale nel coadiuvare una tecnologia prettamente volta all’intrattenimento con la cultura (e l’istruzione). In questo scenario, un sistema HCI deve cercare di coinvolgere un pubblico molto eterogeneo, composto, anche, da chi non ha a che fare ogni giorno con interfacce di questo tipo (o semplicemente con un computer), ma curioso e desideroso di beneficiare del sistema. Inoltre, si deve tenere conto che un ambiente museale presenta dei requisiti e alcune caratteristiche distintive che non possono essere ignorati. La tecnologia immersa in un contesto tale deve rispettare determinati vincoli, come: - non può essere invasiva; - deve essere coinvolgente, senza mettere in secondo piano gli artefatti; - deve essere flessibile; - richiedere il minor uso (o meglio, la totale assenza) di dispositivi hardware. In questa tesi, considerando le premesse sopracitate, si presenta una sistema che può essere utilizzato efficacemente in un contesto museale, o in un ambiente che richieda soluzioni non invasive. Il metodo proposto, utilizzando solo una webcam e nessun altro dispositivo personalizzato o specifico, permette di implementare i servizi di: (a) rilevamento e (b) monitoraggio dei visitatori, (c) riconoscimento delle azioni.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La tesi presenta un lavoro svolto nell'ambito dell'object recognition, in particolare riguardante l'analisi dei descrittori locali SIFT e BRIEF. Dopo aver implementato BRIEF, sono stati realizzati numerosi test al fine di presentare un esauriente confronto prestazionale tra i due descrittori. Infine, è stato realizzato un applicativo per la localizzazione e il riconoscimento di oggetti su ripiani.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L'analisi di un'immagine con strumenti automatici si è sviluppata in quella che oggi viene chiamata "computer vision", la materia di studio proveniente dal mondo informatico che si occupa, letteralmente, di "vedere oltre", di estrarre da una figura una serie di aspetti strutturali, sotto forma di dati numerici. Tra le tante aree di ricerca che ne derivano, una in particolare è dedicata alla comprensione di un dettaglio estremamente interessante, che si presta ad applicazioni di molteplici tipologie: la profondità. L'idea di poter recuperare ciò che, apparentemente, si era perso fermando una scena ed imprimendone l'istante in un piano a due dimensioni poteva sembrare, fino a non troppi anni fa, qualcosa di impossibile. Grazie alla cosiddetta "visione stereo", invece, oggi possiamo godere della "terza dimensione" in diversi ambiti, legati ad attività professionali piuttosto che di svago. Inoltre, si presta ad utilizzi ancora più interessanti quando gli strumenti possono vantare caratteristiche tecniche accessibili, come dimensioni ridotte e facilità d'uso. Proprio quest'ultimo aspetto ha catturato l'attenzione di un gruppo di lavoro, dal quale è nata l'idea di sviluppare una soluzione, chiamata "SuperStereo", capace di permettere la stereo vision usando uno strumento estremamente diffuso nel mercato tecnologico globale: uno smartphone e, più in generale, qualsiasi dispositivo mobile appartenente a questa categoria.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Questa tesi si propone di innovare lo stato dell’arte dei metodi di analisi dell’eterogeneità in lesioni polmonari attualmente utilizzati, affiancando l’analisi funzionale (emodinamica) a quella morfologica, grazie allo sviluppo di nuove feature specifiche. Grazie alla collaborazione tra il Computer Vision Group (CVG) dell’Università di Bologna e l’Unità Operativa di Radiologia dell’IRCCS-IRST di Meldola (Istituto di Ricovero e Cura a Carattere Scientifico – Istituto Scientifico Romagnolo per lo Studio e la Cura dei Tumori), è stato possibile analizzare un adeguato numero di casi reali di pazienti affetti da lesioni polmonari primitive, effettuando un’analisi dell’eterogeneità sia su sequenze di immagini TC baseline sia contrast-enhanced, consentendo quindi un confronto tra eterogeneità morfologica e funzionale. I risultati ottenuti sono infine discussi sulla base del confronto con le considerazioni di natura clinica effettuate in cieco da due esperti radiologi dell’IRCCS-IRST.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Questo studio si propone di realizzare un’applicazione per dispositivi Android che permetta, per mezzo di un gioco di ruolo strutturato come caccia al tesoro, di visitare in prima persona città d’arte e luoghi turistici. Gli utenti finali, grazie alle funzionalità dell’app stessa, potranno giocare, creare e condividere cacce al tesoro basate sulla ricerca di edifici, monumenti, luoghi di rilevanza artistico-storica o turistica; in particolare al fine di completare ciascuna tappa di una caccia al tesoro il giocatore dovrà scattare una fotografia al monumento o edificio descritto nell’obiettivo della caccia stessa. Il software grazie ai dati rilevati tramite GPS e giroscopio (qualora il dispositivo ne sia dotato) e per mezzo di un algoritmo di instance recognition sarà in grado di affermare se la foto scattata rappresenta la risposta corretta al quesito della tappa. L’applicazione GeoPhotoHunt rappresenta non solo uno strumento ludico per la visita di città turistiche o più in generale luoghi di interesse, lo studio propone, infatti come suo contributo originale, l’implementazione su piattaforma mobile di un Content Based Image Retrieval System (CBIR) del tutto indipendente da un supporto server. Nello specifico il server dell’applicazione non sarà altro che uno strumento di appoggio con il quale i membri della “community” di GeoPhotoHunt potranno pubblicare le cacce al tesoro da loro create e condividere i punteggi che hanno totalizzato partecipando a una caccia al tesoro. In questo modo quando un utente ha scaricato sul proprio smartphone i dati di una caccia al tesoro potrà iniziare l’avventura anche in assenza di una connessione internet. L’intero studio è stato suddiviso in più fasi, ognuna di queste corrisponde ad una specifica sezione dell’elaborato che segue. In primo luogo si sono effettuate delle ricerche, soprattutto nel web, con lo scopo di individuare altre applicazioni che implementano l’idea della caccia al tesoro su piattaforma mobile o applicazioni che implementassero algoritmi di instance recognition direttamente su smartphone. In secondo luogo si è ricercato in letteratura quali fossero gli algoritmi di riconoscimento di immagini più largamente diffusi e studiati in modo da avere una panoramica dei metodi da testare per poi fare la scelta dell’algoritmo più adatto al caso di studio. Quindi si è proceduto con lo sviluppo dell’applicazione GeoPhotoHunt stessa, sia per quanto riguarda l’app front-end per dispositivi Android sia la parte back-end server. Infine si è passati ad una fase di test di algoritmi di riconoscimento di immagini in modo di avere una sufficiente quantità di dati sperimentali da permettere di effettuare una scelta dell’algoritmo più adatto al caso di studio. Al termine della fase di testing si è deciso di implementare su Android un algoritmo basato sulla distanza tra istogrammi di colore costruiti sulla scala cromatica HSV, questo metodo pur non essendo robusto in presenza di variazioni di luminosità e contrasto, rappresenta un buon compromesso tra prestazioni, complessità computazionale in modo da rendere la user experience quanto più coinvolgente.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La realtà aumentata, unitamente a quella mista, stanno rapidamente prendendo pieno all'interno di molti aspetti della vita umana. Scopo di questo lavoro è di analizzare tecnologie e tecniche esistenti al fine di applicarle ad un caso reale, la rilevazione e la sovrapposizione di un oggetto digitale tridimensionale ad uno presente in un museo.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Al giorno d’oggi quasi tutte le persone possiedono un mezzo motorizzato che utilizzano per spostarsi. Tale operazione, che risulta semplice per una persona, può essere compiuta da un robot o un autoveicolo in modo autonomo? La risposta a questa domanda è si, ma se ad una persona serve solo un po’ di pratica per guidare, questa azione non risulta altrettanto immediata per dei veicoli motorizzati. In soccorso ad essi vi è la Computer Vision, un ramo dell’informatica che, in un certo senso, rende un elaboratore elettronico in grado di percepire l’ambiente circostante, nel modo in cui una persona fa con i propri occhi. Oggi ci concentreremo su due campi della computer vision, lo SLAM o Simultaneous Localization and Mapping, che rende un robot in grado di mappare, attraverso una camera, il mondo in cui si trova ed allo stesso tempo di localizzare, istante per istante, la propria posizione all’interno di esso, e la Plane Detection, che permette di estrapolare i piani presenti all’interno di una data immagine.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Questa tesi si occupa dell’estensione di un framework software finalizzato all'individuazione e al tracciamento di persone in una scena ripresa da telecamera stereoscopica. In primo luogo è rimossa la necessità di una calibrazione manuale offline del sistema sfruttando algoritmi che consentono di individuare, a partire da un fotogramma acquisito dalla camera, il piano su cui i soggetti tracciati si muovono. Inoltre, è introdotto un modulo software basato su deep learning con lo scopo di migliorare la precisione del tracciamento. Questo componente, che è in grado di individuare le teste presenti in un fotogramma, consente ridurre i dati analizzati al solo intorno della posizione effettiva di una persona, escludendo oggetti che l’algoritmo di tracciamento sarebbe portato a individuare come persone.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The Neural Networks customized and tested in this thesis (WaldoNet, FlowNet and PatchNet) are a first exploration and approach to the Template Matching task. The possibilities of extension are therefore many and some are proposed below. During my thesis, I have analyzed the functioning of the classical algorithms and adapted with deep learning algorithms. The features extracted from both the template and the query images resemble the keypoints of the SIFT algorithm. Then, instead of similarity function or keypoints matching, WaldoNet and PatchNet use the convolutional layer to compare the features, while FlowNet uses the correlational layer. In addition, I have identified the major challenges of the Template Matching task (affine/non-affine transformations, intensity changes...) and solved them with a careful design of the dataset.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Unmanned Aerial Vehicle (UAVs) equipped with cameras have been fast deployed to a wide range of applications, such as smart cities, agriculture or search and rescue applications. Even though UAV datasets exist, the amount of open and quality UAV datasets is limited. So far, we want to overcome this lack of high quality annotation data by developing a simulation framework for a parametric generation of synthetic data. The framework accepts input via a serializable format. The input specifies which environment preset is used, the objects to be placed in the environment along with their position and orientation as well as additional information such as object color and size. The result is an environment that is able to produce UAV typical data: RGB image from the UAVs camera, altitude, roll, pitch and yawn of the UAV. Beyond the image generation process, we improve the resulting image data photorealism by using Synthetic-To-Real transfer learning methods. Transfer learning focuses on storing knowledge gained while solving one problem and applying it to a different - although related - problem. This approach has been widely researched in other affine fields and results demonstrate it to be an interesing area to investigate. Since simulated images are easy to create and synthetic-to-real translation has shown good quality results, we are able to generate pseudo-realistic images. Furthermore, object labels are inherently given, so we are capable of extending the already existing UAV datasets with realistic quality images and high resolution meta-data. During the development of this thesis we have been able to produce a result of 68.4% on UAVid. This can be considered a new state-of-art result on this dataset.