962 resultados para Image matching
Resumo:
CAPITOLO 1 INTRODUZIONE Il lavoro presentato è relativo all’utilizzo a fini metrici di immagini satellitari storiche a geometria panoramica; in particolare sono state elaborate immagini satellitari acquisite dalla piattaforma statunitense CORONA, progettata ed impiegata essenzialmente a scopi militari tra gli anni ’60 e ’70 del secolo scorso, e recentemente soggette ad una declassificazione che ne ha consentito l’accesso anche a scopi ed utenti non militari. Il tema del recupero di immagini aeree e satellitari del passato è di grande interesse per un ampio spettro di applicazioni sul territorio, dall’analisi dello sviluppo urbano o in ambito regionale fino ad indagini specifiche locali relative a siti di interesse archeologico, industriale, ambientale. Esiste infatti un grandissimo patrimonio informativo che potrebbe colmare le lacune della documentazione cartografica, di per sé, per ovvi motivi tecnici ed economici, limitata a rappresentare l’evoluzione territoriale in modo asincrono e sporadico, e con “forzature” e limitazioni nel contenuto informativo legate agli scopi ed alle modalità di rappresentazione delle carte nel corso del tempo e per diversi tipi di applicazioni. L’immagine di tipo fotografico offre una rappresentazione completa, ancorché non soggettiva, dell’esistente e può complementare molto efficacemente il dato cartografico o farne le veci laddove questo non esista. La maggior parte del patrimonio di immagini storiche è certamente legata a voli fotogrammetrici che, a partire dai primi decenni del ‘900, hanno interessato vaste aree dei paesi più avanzati, o regioni di interesse a fini bellici. Accanto a queste, ed ovviamente su periodi più vicini a noi, si collocano le immagini acquisite da piattaforma satellitare, tra le quali rivestono un grande interesse quelle realizzate a scopo di spionaggio militare, essendo ad alta risoluzione geometrica e di ottimo dettaglio. Purtroppo, questo ricco patrimonio è ancora oggi in gran parte inaccessibile, anche se recentemente sono state avviate iniziative per permetterne l’accesso a fini civili, in considerazione anche dell’obsolescenza del dato e della disponibilità di altre e migliori fonti di informazione che il moderno telerilevamento ci propone. L’impiego di immagini storiche, siano esse aeree o satellitari, è nella gran parte dei casi di carattere qualitativo, inteso ad investigare sulla presenza o assenza di oggetti o fenomeni, e di rado assume un carattere metrico ed oggettivo, che richiederebbe tra l’altro la conoscenza di dati tecnici (per esempio il certificato di calibrazione nel caso delle camere aerofotogrammetriche) che sono andati perduti o sono inaccessibili. Va ricordato anche che i mezzi di presa dell’epoca erano spesso soggetti a fenomeni di distorsione ottica o altro tipo di degrado delle immagini che ne rendevano difficile un uso metrico. D’altra parte, un utilizzo metrico di queste immagini consentirebbe di conferire all’analisi del territorio e delle modifiche in esso intercorse anche un significato oggettivo che sarebbe essenziale per diversi scopi: per esempio, per potere effettuare misure su oggetti non più esistenti o per potere confrontare con precisione o co-registrare le immagini storiche con quelle attuali opportunamente georeferenziate. Il caso delle immagini Corona è molto interessante, per una serie di specificità che esse presentano: in primo luogo esse associano ad una alta risoluzione (dimensione del pixel a terra fino a 1.80 metri) una ampia copertura a terra (i fotogrammi di alcune missioni coprono strisce lunghe fino a 250 chilometri). Queste due caratteristiche “derivano” dal principio adottato in fase di acquisizione delle immagini stesse, vale a dire la geometria panoramica scelta appunto perché l’unica che consente di associare le due caratteristiche predette e quindi molto indicata ai fini spionaggio. Inoltre, data la numerosità e la frequenza delle missioni all’interno dell’omonimo programma, le serie storiche di questi fotogrammi permettono una ricostruzione “ricca” e “minuziosa” degli assetti territoriali pregressi, data appunto la maggior quantità di informazioni e l’imparzialità associabili ai prodotti fotografici. Va precisato sin dall’inizio come queste immagini, seppur rappresentino una risorsa “storica” notevole (sono datate fra il 1959 ed il 1972 e coprono regioni moto ampie e di grandissimo interesse per analisi territoriali), siano state molto raramente impiegate a scopi metrici. Ciò è probabilmente imputabile al fatto che il loro trattamento a fini metrici non è affatto semplice per tutta una serie di motivi che saranno evidenziati nei capitoli successivi. La sperimentazione condotta nell’ambito della tesi ha avuto due obiettivi primari, uno generale ed uno più particolare: da un lato il tentativo di valutare in senso lato le potenzialità dell’enorme patrimonio rappresentato da tali immagini (reperibili ad un costo basso in confronto a prodotti simili) e dall’altro l’opportunità di indagare la situazione territoriale locale per una zona della Turchia sud orientale (intorno al sito archeologico di Tilmen Höyük) sulla quale è attivo un progetto condotto dall’Università di Bologna (responsabile scientifico il Prof. Nicolò Marchetti del Dipartimento di Archeologia), a cui il DISTART collabora attivamente dal 2005. L’attività è condotta in collaborazione con l’Università di Istanbul ed il Museo Archeologico di Gaziantep. Questo lavoro si inserisce, inoltre, in un’ottica più ampia di quelle esposta, dello studio cioè a carattere regionale della zona in cui si trovano gli scavi archeologici di Tilmen Höyük; la disponibilità di immagini multitemporali su un ampio intervallo temporale, nonché di tipo multi sensore, con dati multispettrali, doterebbe questo studio di strumenti di conoscenza di altissimo interesse per la caratterizzazione dei cambiamenti intercorsi. Per quanto riguarda l’aspetto più generale, mettere a punto una procedura per il trattamento metrico delle immagini CORONA può rivelarsi utile all’intera comunità che ruota attorno al “mondo” dei GIS e del telerilevamento; come prima ricordato tali immagini (che coprono una superficie di quasi due milioni di chilometri quadrati) rappresentano un patrimonio storico fotografico immenso che potrebbe (e dovrebbe) essere utilizzato sia a scopi archeologici, sia come supporto per lo studio, in ambiente GIS, delle dinamiche territoriali di sviluppo di quelle zone in cui sono scarse o addirittura assenti immagini satellitari dati cartografici pregressi. Il lavoro è stato suddiviso in 6 capitoli, di cui il presente costituisce il primo. Il secondo capitolo è stato dedicato alla descrizione sommaria del progetto spaziale CORONA (progetto statunitense condotto a scopo di fotoricognizione del territorio dell’ex Unione Sovietica e delle aree Mediorientali politicamente correlate ad essa); in questa fase vengono riportate notizie in merito alla nascita e all’evoluzione di tale programma, vengono descritti piuttosto dettagliatamente gli aspetti concernenti le ottiche impiegate e le modalità di acquisizione delle immagini, vengono riportati tutti i riferimenti (storici e non) utili a chi volesse approfondire la conoscenza di questo straordinario programma spaziale. Nel terzo capitolo viene presentata una breve discussione in merito alle immagini panoramiche in generale, vale a dire le modalità di acquisizione, gli aspetti geometrici e prospettici alla base del principio panoramico, i pregi ed i difetti di questo tipo di immagini. Vengono inoltre presentati i diversi metodi rintracciabili in bibliografia per la correzione delle immagini panoramiche e quelli impiegati dai diversi autori (pochi per la verità) che hanno scelto di conferire un significato metrico (quindi quantitativo e non solo qualitativo come è accaduto per lungo tempo) alle immagini CORONA. Il quarto capitolo rappresenta una breve descrizione del sito archeologico di Tilmen Höyuk; collocazione geografica, cronologia delle varie campagne di studio che l’hanno riguardato, monumenti e suppellettili rinvenute nell’area e che hanno reso possibili una ricostruzione virtuale dell’aspetto originario della città ed una più profonda comprensione della situazione delle capitali del Mediterraneo durante il periodo del Bronzo Medio. Il quinto capitolo è dedicato allo “scopo” principe del lavoro affrontato, vale a dire la generazione dell’ortofotomosaico relativo alla zona di cui sopra. Dopo un’introduzione teorica in merito alla produzione di questo tipo di prodotto (procedure e trasformazioni utilizzabili, metodi di interpolazione dei pixel, qualità del DEM utilizzato), vengono presentati e commentati i risultati ottenuti, cercando di evidenziare le correlazioni fra gli stessi e le problematiche di diversa natura incontrate nella redazione di questo lavoro di tesi. Nel sesto ed ultimo capitolo sono contenute le conclusioni in merito al lavoro in questa sede presentato. Nell’appendice A vengono riportate le tabelle dei punti di controllo utilizzati in fase di orientamento esterno dei fotogrammi.
Resumo:
Visual correspondence is a key computer vision task that aims at identifying projections of the same 3D point into images taken either from different viewpoints or at different time instances. This task has been the subject of intense research activities in the last years in scenarios such as object recognition, motion detection, stereo vision, pattern matching, image registration. The approaches proposed in literature typically aim at improving the state of the art by increasing the reliability, the accuracy or the computational efficiency of visual correspondence algorithms. The research work carried out during the Ph.D. course and presented in this dissertation deals with three specific visual correspondence problems: fast pattern matching, stereo correspondence and robust image matching. The dissertation presents original contributions to the theory of visual correspondence, as well as applications dealing with 3D reconstruction and multi-view video surveillance.
Resumo:
Visual perception is not identical in the upper and lower visual hemifields. The mechanisms behind this difference can be found at the retinal, cortical, or higher attentional level. In this study, a new visual test battery, that involves real-time comparisons of complex visual stimuli, such as shape of objects, and speed of moving dot patterns, in the upper and lower visual hemifields, is presented. This study represents, to our knowledge, the first to implement such a visual test battery in an immersive environment composed of a hemisphere, in order to present visual stimuli in precise regions of the visual field. Ten healthy volunteers were tested in this pilot study. The results showed a higher accuracy in the image matching when the visual test was performed in the lower visual hemifield.
Resumo:
An image processing observational technique for the stereoscopic reconstruction of the wave form of oceanic sea states is developed. The technique incorporates the enforcement of any given statistical wave law modeling the quasi Gaussianity of oceanic waves observed in nature. The problem is posed in a variational optimization framework, where the desired wave form is obtained as the minimizer of a cost functional that combines image observations, smoothness priors and a weak statistical constraint. The minimizer is obtained combining gradient descent and multigrid methods on the necessary optimality equations of the cost functional. Robust photometric error criteria and a spatial intensity compensation model are also developed to improve the performance of the presented image matching strategy. The weak statistical constraint is thoroughly evaluated in combination with other elements presented to reconstruct and enforce constraints on experimental stereo data, demonstrating the improvement in the estimation of the observed ocean surface.
Resumo:
Este trabalho aborda o problema de casamento entre duas imagens. Casamento de imagens pode ser do tipo casamento de modelos (template matching) ou casamento de pontos-chaves (keypoint matching). Estes algoritmos localizam uma região da primeira imagem numa segunda imagem. Nosso grupo desenvolveu dois algoritmos de casamento de modelos invariante por rotação, escala e translação denominados Ciratefi (Circula, radial and template matchings filter) e Forapro (Fourier coefficients of radial and circular projection). As características positivas destes algoritmos são a invariância a mudanças de brilho/contraste e robustez a padrões repetitivos. Na primeira parte desta tese, tornamos Ciratefi invariante a transformações afins, obtendo Aciratefi (Affine-ciratefi). Construímos um banco de imagens para comparar este algoritmo com Asift (Affine-scale invariant feature transform) e Aforapro (Affine-forapro). Asift é considerado atualmente o melhor algoritmo de casamento de imagens invariante afim, e Aforapro foi proposto em nossa dissertação de mestrado. Nossos resultados sugerem que Aciratefi supera Asift na presença combinada de padrões repetitivos, mudanças de brilho/contraste e mudanças de pontos de vista. Na segunda parte desta tese, construímos um algoritmo para filtrar casamentos de pontos-chaves, baseado num conceito que denominamos de coerência geométrica. Aplicamos esta filtragem no bem-conhecido algoritmo Sift (scale invariant feature transform), base do Asift. Avaliamos a nossa proposta no banco de imagens de Mikolajczyk. As taxas de erro obtidas são significativamente menores que as do Sift original.
Resumo:
An approach and strategy for automatic detection of buildings from aerial images using combined image analysis and interpretation techniques is described in this paper. It is undertaken in several steps. A dense DSM is obtained by stereo image matching and then the results of multi-band classification, the DSM, and Normalized Difference Vegetation Index (NDVI) are used to reveal preliminary building interest areas. From these areas, a shape modeling algorithm has been used to precisely delineate their boundaries. The Dempster-Shafer data fusion technique is then applied to detect buildings from the combination of three data sources by a statistically-based classification. A number of test areas, which include buildings of different sizes, shape, and roof color have been investigated. The tests are encouraging and demonstrate that all processes in this system are important for effective building detection.
Resumo:
A set of DCT domain properties for shifting and scaling by real amounts, and taking linear operations such as differentiation is described. The DCT coefficients of a sampled signal are subjected to a linear transform, which returns the DCT coefficients of the shifted, scaled and/or differentiated signal. The properties are derived by considering the inverse discrete transform as a cosine series expansion of the original continuous signal, assuming sampling in accordance with the Nyquist criterion. This approach can be applied in the signal domain, to give, for example, DCT based interpolation or derivatives. The same approach can be taken in decoding from the DCT to give, for example, derivatives in the signal domain. The techniques may prove useful in compressed domain processing applications, and are interesting because they allow operations from the continuous domain such as differentiation to be implemented in the discrete domain. An image matching algorithm illustrates the use of the properties, with improvements in computation time and matching quality.
Resumo:
This work has been partially supported by Grant No. DO 02-275, 16.12.2008, Bulgarian NSF, Ministry of Education and Science.
Resumo:
Visual recognition is a fundamental research topic in computer vision. This dissertation explores datasets, features, learning, and models used for visual recognition. In order to train visual models and evaluate different recognition algorithms, this dissertation develops an approach to collect object image datasets on web pages using an analysis of text around the image and of image appearance. This method exploits established online knowledge resources (Wikipedia pages for text; Flickr and Caltech data sets for images). The resources provide rich text and object appearance information. This dissertation describes results on two datasets. The first is Berg’s collection of 10 animal categories; on this dataset, we significantly outperform previous approaches. On an additional set of 5 categories, experimental results show the effectiveness of the method. Images are represented as features for visual recognition. This dissertation introduces a text-based image feature and demonstrates that it consistently improves performance on hard object classification problems. The feature is built using an auxiliary dataset of images annotated with tags, downloaded from the Internet. Image tags are noisy. The method obtains the text features of an unannotated image from the tags of its k-nearest neighbors in this auxiliary collection. A visual classifier presented with an object viewed under novel circumstances (say, a new viewing direction) must rely on its visual examples. This text feature may not change, because the auxiliary dataset likely contains a similar picture. While the tags associated with images are noisy, they are more stable when appearance changes. The performance of this feature is tested using PASCAL VOC 2006 and 2007 datasets. This feature performs well; it consistently improves the performance of visual object classifiers, and is particularly effective when the training dataset is small. With more and more collected training data, computational cost becomes a bottleneck, especially when training sophisticated classifiers such as kernelized SVM. This dissertation proposes a fast training algorithm called Stochastic Intersection Kernel Machine (SIKMA). This proposed training method will be useful for many vision problems, as it can produce a kernel classifier that is more accurate than a linear classifier, and can be trained on tens of thousands of examples in two minutes. It processes training examples one by one in a sequence, so memory cost is no longer the bottleneck to process large scale datasets. This dissertation applies this approach to train classifiers of Flickr groups with many group training examples. The resulting Flickr group prediction scores can be used to measure image similarity between two images. Experimental results on the Corel dataset and a PASCAL VOC dataset show the learned Flickr features perform better on image matching, retrieval, and classification than conventional visual features. Visual models are usually trained to best separate positive and negative training examples. However, when recognizing a large number of object categories, there may not be enough training examples for most objects, due to the intrinsic long-tailed distribution of objects in the real world. This dissertation proposes an approach to use comparative object similarity. The key insight is that, given a set of object categories which are similar and a set of categories which are dissimilar, a good object model should respond more strongly to examples from similar categories than to examples from dissimilar categories. This dissertation develops a regularized kernel machine algorithm to use this category dependent similarity regularization. Experiments on hundreds of categories show that our method can make significant improvement for categories with few or even no positive examples.
Resumo:
We address the problem of face recognition on video by employing the recently proposed probabilistic linear discrimi-nant analysis (PLDA). The PLDA has been shown to be robust against pose and expression in image-based face recognition. In this research, the method is extended and applied to video where image set to image set matching is performed. We investigate two approaches of computing similarities between image sets using the PLDA: the closest pair approach and the holistic sets approach. To better model face appearances in video, we also propose the heteroscedastic version of the PLDA which learns the within-class covariance of each individual separately. Our experi-ments on the VidTIMIT and Honda datasets show that the combination of the heteroscedastic PLDA and the closest pair approach achieves the best performance.
Resumo:
Traditional nearest points methods use all the samples in an image set to construct a single convex or affine hull model for classification. However, strong artificial features and noisy data may be generated from combinations of training samples when significant intra-class variations and/or noise occur in the image set. Existing multi-model approaches extract local models by clustering each image set individually only once, with fixed clusters used for matching with various image sets. This may not be optimal for discrimination, as undesirable environmental conditions (eg. illumination and pose variations) may result in the two closest clusters representing different characteristics of an object (eg. frontal face being compared to non-frontal face). To address the above problem, we propose a novel approach to enhance nearest points based methods by integrating affine/convex hull classification with an adapted multi-model approach. We first extract multiple local convex hulls from a query image set via maximum margin clustering to diminish the artificial variations and constrain the noise in local convex hulls. We then propose adaptive reference clustering (ARC) to constrain the clustering of each gallery image set by forcing the clusters to have resemblance to the clusters in the query image set. By applying ARC, noisy clusters in the query set can be discarded. Experiments on Honda, MoBo and ETH-80 datasets show that the proposed method outperforms single model approaches and other recent techniques, such as Sparse Approximated Nearest Points, Mutual Subspace Method and Manifold Discriminant Analysis.
Resumo:
State-of-the-art image-set matching techniques typically implicitly model each image-set with a Gaussian distribution. Here, we propose to go beyond these representations and model image-sets as probability distribution functions (PDFs) using kernel density estimators. To compare and match image-sets, we exploit Csiszar´ f-divergences, which bear strong connections to the geodesic distance defined on the space of PDFs, i.e., the statistical manifold. Furthermore, we introduce valid positive definite kernels on the statistical manifold, which let us make use of more powerful classification schemes to match image-sets. Finally, we introduce a supervised dimensionality reduction technique that learns a latent space where f-divergences reflect the class labels of the data. Our experiments on diverse problems, such as video-based face recognition and dynamic texture classification, evidence the benefits of our approach over the state-of-the-art image-set matching methods.
Resumo:
This paper investigates a new approach for point matching in multi-sensor satellite images. The feature points are matched using multi-objective optimization (angle criterion and distance condition) based on Genetic Algorithm (GA). This optimization process is more efficient as it considers both the angle criterion and distance condition to incorporate multi-objective switching in the fitness function. This optimization process helps in matching three corresponding corner points detected in the reference and sensed image and thereby using the affine transformation, the sensed image is aligned with the reference image. From the results obtained, the performance of the image registration is evaluated and it is concluded that the proposed approach is efficient.