903 resultados para Computer vision industry


Relevância:

80.00% 80.00%

Publicador:

Resumo:

El càncer de mama és una de les causes de més mortalitat entreles dones dels països desenvolupats. És tractat d'una maneramés eficient quan es fa una detecció precoç, on les tècniques d'imatge són molt importants. Una de les tècniques d'imatge més utilitzades després dels raigs-X són els ultrasons. A l'hora de fer un processat d'imatges d'ultrasò, els experts en aquest camp es troben amb una sèrie de limitacions en el moment d'utilitzar uns filtrats per les imatges, quan es fa ús de determinades eines. Una d'aquestes limitacions consisteix en la falta d'interactivitat que aquestes ens ofereixen. Per tal de solventar aquestes limitacions, s'ha desenvolupat una eina interactiva que permet explorar el mapa de paràmetres visualitzant el resultat del filtrat en temps real, d'una manera dinàmica i intuïtiva. Aquesta eina s'ha desenvolupat dins l'entorn de visualització d'imatge mèdica MeVisLab. El MeVisLab és un entorn molt potent i modular pel desenvolupament d'algorismes de processat d'imatges, visualització i mètodes d'interacció, especialment enfocats a la imatge mèdica. A més del processament bàsic d'imatges i de mòduls de visualització, inclou algorismes avançats de segmentació, registre i moltes análisis morfològiques i funcionals de les imatges.S'ha dut a terme un experiment amb quatre experts que, utilitzantl'eina desenvolupada, han escollit els paràmetres que creien adientsper al filtrat d'una sèrie d'imatges d'ultrasò. En aquest experiments'han utilitzat uns filtres que l'entorn MeVisLab ja té implementats:el Bilateral Filter, l'Anisotropic Difusion i una combinació d'un filtrede Mediana i un de Mitjana.Amb l'experiment realitzat, s'ha fet un estudi dels paràmetres capturats i s'han proposat una sèrie d'estimadors que seran favorables en la majoria dels casos per dur a terme el preprocessat d'imatges d'ultrasò

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Peer-reviewed

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Simultaneous localization and mapping(SLAM) is a very important problem in mobile robotics. Many solutions have been proposed by different scientists during the last two decades, nevertheless few studies have considered the use of multiple sensors simultane¬ously. The solution is on combining several data sources with the aid of an Extended Kalman Filter (EKF). Two approaches are proposed. The first one is to use the ordinary EKF SLAM algorithm for each data source separately in parallel and then at the end of each step, fuse the results into one solution. Another proposed approach is the use of multiple data sources simultaneously in a single filter. The comparison of the computational com¬plexity of the two methods is also presented. The first method is almost four times faster than the second one.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

The number of digital images has been increasing exponentially in the last few years. People have problems managing their image collections and finding a specific image. An automatic image categorization system could help them to manage images and find specific images. In this thesis, an unsupervised visual object categorization system was implemented to categorize a set of unknown images. The system is unsupervised, and hence, it does not need known images to train the system which needs to be manually obtained. Therefore, the number of possible categories and images can be huge. The system implemented in the thesis extracts local features from the images. These local features are used to build a codebook. The local features and the codebook are then used to generate a feature vector for an image. Images are categorized based on the feature vectors. The system is able to categorize any given set of images based on the visual appearance of the images. Images that have similar image regions are grouped together in the same category. Thus, for example, images which contain cars are assigned to the same cluster. The unsupervised visual object categorization system can be used in many situations, e.g., in an Internet search engine. The system can categorize images for a user, and the user can then easily find a specific type of image.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Este trabajo se centra en el uso del lenguaje Python y la librería OpenCV de visión por computador para el seguimiento de crustáceos marinos en condiciones experimentales y determinar su comportamiento en un entorno social.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

El objetivo de esta investigación es comprobar la utilidad de las técnicas actuales de reconocimiento facial a través de la visión por computador en entornos museísticos. Para alcanzar este fin, he seguido las estrategias de diseño y creación para crear una aplicación que me permita posteriormente realizar una serie de experimentos, los cuales me proporcionarán los datos necesarios con los que evaluar la funcionalidad de estas técnicas existentes en obras de arte, en mi caso concretamente, sobre cuadros.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

This thesis deals with distance transforms which are a fundamental issue in image processing and computer vision. In this thesis, two new distance transforms for gray level images are presented. As a new application for distance transforms, they are applied to gray level image compression. The new distance transforms are both new extensions of the well known distance transform algorithm developed by Rosenfeld, Pfaltz and Lay. With some modification their algorithm which calculates a distance transform on binary images with a chosen kernel has been made to calculate a chessboard like distance transform with integer numbers (DTOCS) and a real value distance transform (EDTOCS) on gray level images. Both distance transforms, the DTOCS and EDTOCS, require only two passes over the graylevel image and are extremely simple to implement. Only two image buffers are needed: The original gray level image and the binary image which defines the region(s) of calculation. No other image buffers are needed even if more than one iteration round is performed. For large neighborhoods and complicated images the two pass distance algorithm has to be applied to the image more than once, typically 3 10 times. Different types of kernels can be adopted. It is important to notice that no other existing transform calculates the same kind of distance map as the DTOCS. All the other gray weighted distance function, GRAYMAT etc. algorithms find the minimum path joining two points by the smallest sum of gray levels or weighting the distance values directly by the gray levels in some manner. The DTOCS does not weight them that way. The DTOCS gives a weighted version of the chessboard distance map. The weights are not constant, but gray value differences of the original image. The difference between the DTOCS map and other distance transforms for gray level images is shown. The difference between the DTOCS and EDTOCS is that the EDTOCS calculates these gray level differences in a different way. It propagates local Euclidean distances inside a kernel. Analytical derivations of some results concerning the DTOCS and the EDTOCS are presented. Commonly distance transforms are used for feature extraction in pattern recognition and learning. Their use in image compression is very rare. This thesis introduces a new application area for distance transforms. Three new image compression algorithms based on the DTOCS and one based on the EDTOCS are presented. Control points, i.e. points that are considered fundamental for the reconstruction of the image, are selected from the gray level image using the DTOCS and the EDTOCS. The first group of methods select the maximas of the distance image to new control points and the second group of methods compare the DTOCS distance to binary image chessboard distance. The effect of applying threshold masks of different sizes along the threshold boundaries is studied. The time complexity of the compression algorithms is analyzed both analytically and experimentally. It is shown that the time complexity of the algorithms is independent of the number of control points, i.e. the compression ratio. Also a new morphological image decompression scheme is presented, the 8 kernels' method. Several decompressed images are presented. The best results are obtained using the Delaunay triangulation. The obtained image quality equals that of the DCT images with a 4 x 4

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Peer-reviewed

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Multispectral images are becoming more common in the field of remote sensing, computer vision, and industrial applications. Due to the high accuracy of the multispectral information, it can be used as an important quality factor in the inspection of industrial products. Recently, the development on multispectral imaging systems and the computational analysis on the multispectral images have been the focus of a growing interest. In this thesis, three areas of multispectral image analysis are considered. First, a method for analyzing multispectral textured images was developed. The method is based on a spectral cooccurrence matrix, which contains information of the joint distribution of spectral classes in a spectral domain. Next, a procedure for estimating the illumination spectrum of the color images was developed. Proposed method can be used, for example, in color constancy, color correction, and in the content based search from color image databases. Finally, color filters for the optical pattern recognition were designed, and a prototype of a spectral vision system was constructed. The spectral vision system can be used to acquire a low dimensional component image set for the two dimensional spectral image reconstruction. The data obtained by the spectral vision system is small and therefore convenient for storing and transmitting a spectral image.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Robotic platforms have advanced greatly in terms of their remote sensing capabilities, including obtaining optical information using cameras. Alongside these advances, visual mapping has become a very active research area, which facilitates the mapping of areas inaccessible to humans. This requires the efficient processing of data to increase the final mosaic quality and computational efficiency. In this paper, we propose an efficient image mosaicing algorithm for large area visual mapping in underwater environments using multiple underwater robots. Our method identifies overlapping image pairs in the trajectories carried out by the different robots during the topology estimation process, being this a cornerstone for efficiently mapping large areas of the seafloor. We present comparative results based on challenging real underwater datasets, which simulated multi-robot mapping

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Mitjançant imatges estereoscòpiques es poden detectar la posició respecte de la càmera dels objectes que apareixen en una escena. A partir de les diferències entre les imatges captades pels dos objectius es pot determinar la profunditat dels objectes. Existeixen diversitat de tècniques de visió artificial que permeten calcular la localització dels objectes, habitualment amb l’objectiu de reconstruir l’escena en 3D. Aquestes tècniques necessiten una gran càrrega computacional, ja que utilitzen mètodes de comparació bidimensionals, i per tant, no es poden utilitzar per aplicacions en temps real. En aquest treball proposem un nou mètode d’anàlisi de les imatges estereoscòpiques que ens permeti obtenir la profunditat dels objectes d’una escena amb uns resultats acceptables. Aquest nou mètode es basa en transformar la informació bidimensional de la imatge en una informació unidimensional per tal de poder fer la comparació de les imatges amb un baix cost computacional, i dels resultats de la comparació extreure’n la profunditat dels objectes dins l’escena. Això ha de permetre, per exemple, que aquest mètode es pugui implementar en un dispositiu autònom i li permeti realitzar operacions de guiatge a través d’espais interiors i exteriors.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

El reconeixement dels gestos de la mà (HGR, Hand Gesture Recognition) és actualment un camp important de recerca degut a la varietat de situacions en les quals és necessari comunicar-se mitjançant signes, com pot ser la comunicació entre persones que utilitzen la llengua de signes i les que no. En aquest projecte es presenta un mètode de reconeixement de gestos de la mà a temps real utilitzant el sensor Kinect per Microsoft Xbox, implementat en un entorn Linux (Ubuntu) amb llenguatge de programació Python i utilitzant la llibreria de visió artifical OpenCV per a processar les dades sobre un ordinador portàtil convencional. Gràcies a la capacitat del sensor Kinect de capturar dades de profunditat d’una escena es poden determinar les posicions i trajectòries dels objectes en 3 dimensions, el que implica poder realitzar una anàlisi complerta a temps real d’una imatge o d’una seqüencia d’imatges. El procediment de reconeixement que es planteja es basa en la segmentació de la imatge per poder treballar únicament amb la mà, en la detecció dels contorns, per després obtenir l’envolupant convexa i els defectes convexos, que finalment han de servir per determinar el nombre de dits i concloure en la interpretació del gest; el resultat final és la transcripció del seu significat en una finestra que serveix d’interfície amb l’interlocutor. L’aplicació permet reconèixer els números del 0 al 5, ja que s’analitza únicament una mà, alguns gestos populars i algunes de les lletres de l’alfabet dactilològic de la llengua de signes catalana. El projecte és doncs, la porta d’entrada al camp del reconeixement de gestos i la base d’un futur sistema de reconeixement de la llengua de signes capaç de transcriure tant els signes dinàmics com l’alfabet dactilològic.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La visualització científica estudia i defineix algorismes i estructures de dades que permeten fer comprensibles conjunts de dades a través d’imatges. En el cas de les aplicacions mèdiques les dades que cal interpretar provenen de diferents dispositius de captació i es representen en un model de vòxels. La utilitat d’aquest model de vòxels depèn de poder-lo veure des del punt de vista ideal, és a dir el que aporti més informació. D’altra banda, existeix la tècnica dels Miralls Màgics que permet veure el model de vòxels des de diferents punts de vista alhora i mostrant diferents valors de propietat a cada mirall. En aquest projecte implementarem un algorisme que permetrà determinar el punt de vista ideal per visualitzar un model de vòxels així com també els punts de vista ideals per als miralls per tal d’aconseguir el màxim d’informació possible del model de vòxels. Aquest algorisme es basa en la teoria de la informació per saber quina és la millor visualització. L’algorisme també permetrà determinar l’assignació de colors òptima per al model de vòxels

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Local features are used in many computer vision tasks including visual object categorization, content-based image retrieval and object recognition to mention a few. Local features are points, blobs or regions in images that are extracted using a local feature detector. To make use of extracted local features the localized interest points are described using a local feature descriptor. A descriptor histogram vector is a compact representation of an image and can be used for searching and matching images in databases. In this thesis the performance of local feature detectors and descriptors is evaluated for object class detection task. Features are extracted from image samples belonging to several object classes. Matching features are then searched using random image pairs of a same class. The goal of this thesis is to find out what are the best detector and descriptor methods for such task in terms of detector repeatability and descriptor matching rate.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

The large and growing number of digital images is making manual image search laborious. Only a fraction of the images contain metadata that can be used to search for a particular type of image. Thus, the main research question of this thesis is whether it is possible to learn visual object categories directly from images. Computers process images as long lists of pixels that do not have a clear connection to high-level semantics which could be used in the image search. There are various methods introduced in the literature to extract low-level image features and also approaches to connect these low-level features with high-level semantics. One of these approaches is called Bag-of-Features which is studied in the thesis. In the Bag-of-Features approach, the images are described using a visual codebook. The codebook is built from the descriptions of the image patches using clustering. The images are described by matching descriptions of image patches with the visual codebook and computing the number of matches for each code. In this thesis, unsupervised visual object categorisation using the Bag-of-Features approach is studied. The goal is to find groups of similar images, e.g., images that contain an object from the same category. The standard Bag-of-Features approach is improved by using spatial information and visual saliency. It was found that the performance of the visual object categorisation can be improved by using spatial information of local features to verify the matches. However, this process is computationally heavy, and thus, the number of images must be limited in the spatial matching, for example, by using the Bag-of-Features method as in this study. Different approaches for saliency detection are studied and a new method based on the Hessian-Affine local feature detector is proposed. The new method achieves comparable results with current state-of-the-art. The visual object categorisation performance was improved by using foreground segmentation based on saliency information, especially when the background could be considered as clutter.