853 resultados para deep learning,machine learning,computer vision,template matching,neural network


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Treball final de carrera basat en el reconeixement de punts clau en imatges mitjançant l'algorisme Random Ferns.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This paper proposes an automatic hand detection system that combines the Fourier-Mellin Transform along with other computer vision techniques to achieve hand detection in cluttered scene color images. The proposed system uses the Fourier-Mellin Transform as an invariant feature extractor to perform RST invariant hand detection. In a first stage of the system a simple non-adaptive skin color-based image segmentation and an interest point detector based on corners are used in order to identify regions of interest that contains possible matches. A sliding window algorithm is then used to scan the image at different scales performing the FMT calculations only in the previously detected regions of interest and comparing the extracted FM descriptor of the windows with a hand descriptors database obtained from a train image set. The results of the performed experiments suggest the use of Fourier-Mellin invariant features as a promising approach for automatic hand detection.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Commercially available instruments for road-side data collection take highly limited measurements, require extensive manual input, or are too expensive for widespread use. However, inexpensive computer vision techniques for digital video analysis can be applied to automate the monitoring of driver, vehicle, and pedestrian behaviors. These techniques can measure safety-related variables that cannot be easily measured using existing sensors. The use of these techniques will lead to an improved understanding of the decisions made by drivers at intersections. These automated techniques allow the collection of large amounts of safety-related data in a relatively short amount of time. There is a need to develop an easily deployable system to utilize these new techniques. This project implemented and tested a digital video analysis system for use at intersections. A prototype video recording system was developed for field deployment. A computer interface was implemented and served to simplify and automate the data analysis and the data review process. Driver behavior was measured at urban and rural non-signalized intersections. Recorded digital video was analyzed and used to test the system.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La segmentació de persones es molt difícil a causa de la variabilitat de les diferents condicions, com la postura que aquestes adoptin, color del fons, etc. Per realitzar aquesta segmentació existeixen diferents tècniques, que a partir d'una imatge ens retornen un etiquetat indicant els diferents objectes presents a la imatge. El propòsit d'aquest projecte és realitzar una comparativa de les tècniques recents que permeten fer segmentació multietiqueta i que son semiautomàtiques, en termes de segmentació de persones. A partir d'un etiquetatge inicial idèntic per a tots els mètodes utilitzats, s'ha realitzat una anàlisi d'aquests, avaluant els seus resultats sobre unes dades publiques, analitzant 2 punts: el nivell de interacció i l'eficiència.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This paper proposes an automatic hand detection system that combines the Fourier-Mellin Transform along with other computer vision techniques to achieve hand detection in cluttered scene color images. The proposed system uses the Fourier-Mellin Transform as an invariant feature extractor to perform RST invariant hand detection. In a first stage of the system a simple non-adaptive skin color-based image segmentation and an interest point detector based on corners are used in order to identify regions of interest that contains possible matches. A sliding window algorithm is then used to scan the image at different scales performing the FMT calculations only in the previously detected regions of interest and comparing the extracted FM descriptor of the windows with a hand descriptors database obtained from a train image set. The results of the performed experiments suggest the use of Fourier-Mellin invariant features as a promising approach for automatic hand detection.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In robotics, having a 3D representation of the environment where a robot is working can be very useful. In real-life scenarios, this environment is constantly changing for example by human interaction, external agents or by the robot itself. Thus, the representation needs to be constantly updated and extended to account for these dynamic scene changes. In this work we face the problem of representing the scene where a robot is acting. Moreover, we ought to improve this representation by reusing the information obtained in previous scenes. Our goal is to build a method to represent a scene and to update it while changes are produced. In order to achieve that, different aspects of computer vision such as space representation or feature tracking are discussed

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Multispectral images contain information from several spectral wavelengths and currently multispectral images are widely used in remote sensing and they are becoming more common in the field of computer vision and in industrial applications. Typically, one multispectral image in remote sensing may occupy hundreds of megabytes of disk space and several this kind of images may be received from a single measurement. This study considers the compression of multispectral images. The lossy compression is based on the wavelet transform and we compare the suitability of different waveletfilters for the compression. A method for selecting a wavelet filter for the compression and reconstruction of multispectral images is developed. The performance of the multidimensional wavelet transform based compression is compared to other compression methods like PCA, ICA, SPIHT, and DCT/JPEG. The quality of the compression and reconstruction is measured by quantitative measures like signal-to-noise ratio. In addition, we have developed a qualitative measure, which combines the information from the spatial and spectral dimensions of a multispectral image and which also accounts for the visual quality of the bands from the multispectral images.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Perceiving the world visually is a basic act for humans, but for computers it is still an unsolved problem. The variability present innatural environments is an obstacle for effective computer vision. The goal of invariant object recognition is to recognise objects in a digital image despite variations in, for example, pose, lighting or occlusion. In this study, invariant object recognition is considered from the viewpoint of feature extraction. Thedifferences between local and global features are studied with emphasis on Hough transform and Gabor filtering based feature extraction. The methods are examined with respect to four capabilities: generality, invariance, stability, and efficiency. Invariant features are presented using both Hough transform and Gabor filtering. A modified Hough transform technique is also presented where the distortion tolerance is increased by incorporating local information. In addition, methods for decreasing the computational costs of the Hough transform employing parallel processing and local information are introduced.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Vuosi vuodelta kasvava tietokoneiden prosessointikyky on mahdollistanut harmaataso- ja RGB-värikuvia tarkempien spektrikuvien käsittelyn järjellisessä ajassa ilman suuria kustannuksia. Ongelmana on kuitenkin, ettei talletus- ja tiedonsiirtomedia ole kehittynyt prosessointikyvyn vauhdissa. Ratkaisu tähän ongelmaan on spektrikuvien tiivistäminen talletuksen ja tiedonsiirron ajaksi. Tässä työssä esitellään menetelmä, jossa spektrikuva tiivistetään kahdessa vaiheessa: ensin ryhmittelemällä itseorganisoituvan kartan (SOM) avulla ja toisessa vaiheessa jatketaan tiivistämistä perinteisin menetelmin. Saadut tiivistyssuhteet ovat merkittäviä vääristymän pysyessä siedettävänä. Työ on tehty Lappeenrannan teknillisen korkeakoulun Tietotekniikan osaston Tietojenkäsittelytekniikan tutkimuslaboratoriossa osana laajempaa kuvantiivistyksen tutkimushanketta.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Suomen ilmatilaa valvotaan reaaliaikaisesti, pääasiassa ilmavalvontatutkilla. Ilmatilassa on lentokoneiden lisäksi paljon muitakin kohteita, jotka tutka havaitsee. Tutka lähettää nämä tiedot edelleen ilmavalvontajärjestelmään. Ilmavalvontajärjestelmä käsittelee tiedot, sekä lähettää ne edelleen esitysjärjestelmään. Esitysjärjestelmässä tiedot esitetään synteettisinä merkkeinä, seurantoina joista käytetään nimitystä träkki. Näiden tietojen puitteissa sekä oman ammattitaitonsa perusteella ihmiset tekevät päätöksiä. Tämän työn tarkoituksena on tutkia tutkan havaintoja träkkien initialisointipisteessä siten, että voitaisiin määritellä tyypillinen rakenne sille mikä on oikea ja mikä väärä tai huono träkki. Tämän lisäksi tulisi ennustaa, mitkä Irakeista eivät aiheudu ilma- aluksista. Saadut tulokset voivat helpottaa työtä havaintojen tulkinnassa - jokainen lintuparvi ei ole ehdokas seurannaksi. Havaintojen luokittelu voidaan tehdä joko neurolaskennalla tai päätöspuulla. Neurolaskenta tehdään neuroverkoilla, jotka koostuvat neuroneista. Päätöspuu- luokittelijat ovat oppivia tietorakenteita kuten neuroverkotkin. Yleisin päätöpuu on binääripuu. Tämän työn tavoitteena on opettaa päätöspuuluokittelija havaintojen avulla siten, että se pystyy luokittelemaan väärät havainnot oikeista. Neurolaskennan mahdollisuuksia tässä työssä ei käsitellä kuin teoreettisesti. Työn tuloksena voi todeta, että päätöspuuluokittelijat ovat erittäin kykeneviä erottamaan oikeat havainnot vääristä. Vaikka tulokset olivat rohkaiseva, lisää tutkimusta tarvitaan määrittelemään luotettavammin tekijät, jotka parhaiten suorittavat luokittelun.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Kolmiulotteisten kappaleiden rekonstruktio on yksi konenäön haastavimmista ongelmista, koska kappaleiden kolmiulotteisia etäisyyksiä ei voida selvittää yhdestä kaksiulotteisesta kuvasta. Ongelma voidaan ratkaista stereonäön avulla, jossa näkymän kolmiulotteinen rakenne päätellään usean kuvan perusteella. Tämä lähestymistapa mahdollistaa kuitenkin vain rekonstruktion niille kappaleiden osille, jotka näkyvät vähintään kahdessa kuvassa. Piilossa olevien osien rekonstruktio ei ole mahdollista pelkästään stereonäön avulla. Tässä työssä on kehitetty uusi menetelmä osittain piilossa olevien kolmiulotteisten tasomaisten kappaleiden rekonstruktioon. Menetelmän avulla voidaan selvittää hyvällä tarkkuudella tasomaisista pinnoista koostuvan kappaleen muoto ja paikka käyttäen kahta kuvaa kappaleesta. Menetelmä perustuu epipolaarigeometriaan, jonka avulla selvitetään molemmissa kuvissa näkyvät kappaleiden osat. Osittain piilossa olevien piirteiden rekonstruointi suoritetaan käyttämäen stereonäköä sekä tietoa kappaleen rakenteesta. Esitettyä ratkaisua voitaisiin käyttää esimerkiksi kolmiulotteisten kappaleiden visualisointiin, robotin navigointiin tai esineentunnistukseen.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Työn tavoitteena oli tutkia ja vertailla komponenttipohjaisia ohjelmistoarkkitehtuureita (Microsoft .NET ja J2EE). Työn tarkoituksena oli valita ohjelmistoarkkitehtuuri uudelle neuroverkkopohjaiselle urasuunnittelupalvelulle. Tässä työssä selvitettiin myös, miten luodaan kansainvälistettäviä ja lokalisoitavia sovelluksia, sekä kuinka Web-, Windows-, mobiili-, puhe- ja Digi-TV -käyttöliittymät soveltuvat uudelle urasuunnittelupalvelulle. Tutkimustyössä käytettiin alan kirjallisuutta, Microsoftin ja Sun Microsystemsin Web-sivuja. Tutkimustyössä analysoitiin Microsoft Pet Shop- ja Sun Microsystemsin Java Pet Store -esimerkkisovellusten suorituskykyvertailua. Analyysituloksiin perustuen urasuunnittelupalvelussa suositellaan käytettäväksi J2EE-arkkitehtuuria. Uudelle urasuunnittelupalvelulle toimenpide-ehdotus on komponenttipohjainen järjestelmä Web-, puhe- ja Digi-TV -käyttöliittymillä ja personoidulla sisällöllä. Järjestelmä tehdään viisivaiheisena hankkeena, johon sisältyy pilottitestejä. Uuteen urasuunnittelupalveluun liitetään mukaan opiskelijat, oppilaitokset ja työnantajat sekä asiantuntijoita neuroverkon opetusdatan määrittämiseen. Palvelu perustuu integroituun tietokantaan. Eri osajärjestelmissä tuotettua tietoa voidaan hyödyntää kaikkialla urasuunnittelupalvelussa.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Aquest projecte s’emmarca dins de l’àmbit de la visió per computador, concretament en la utilització de dades de profunditat obtingudes a través d’un emissor i sensor de llum infraroja.El propòsit principal d’aquest projecte és mostrar com adaptar aquestes tecnologies, a l’abast de qualsevol particular, de forma que un usuari durant la pràctica d’una activitat esportiva concreta, rebi informació visual continua dels moviments i gestos incorrectes que està realitzant, en base a uns paràmetres prèviament establerts.L’objectiu d’aquest projecte consisteix en fer una lectura constant en temps real d’una persona practicant una selecció de diverses activitats esportives estàtiques utilitzant un sensor Kinect. A través de les dades obtingudes pel sensor Kinect i utilitzant les llibreries de “skeleton traking” proporcionades per Microsoft s’haurà d’interpretar les dades posturals obtingudes per cada tipus d’esport i indicar visualment i d’una manera intuïtiva els errors que està cometent en temps real, de manera que es vegi clarament a quina part del seu cos realitza un moviment incorrecte per tal de poder corregir-lo ràpidament. El entorn de desenvolupament que s’utilitza per desenvolupar aquesta aplicació es Microsoft Viusal Studio 2010.El llenguatge amb el qual es treballarà sobre Microsoft Visual Studio 2010 és C#

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Aquest projecte s'ha desenvolupat dins de l'àrea de visió per computadors, mitjançant el reconeixement d'un patró podem definir tres eixos que conformen un espai tridimensional on hem implementat un videojoc de combats entre robots a sobre d'un entorn real.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L'objectiu principal d'aquest treball és aplicar tècniques de visió articial per aconseguir localitzar i fer el seguiment de les extremitats dels ratolins dins l'entorn de prova de les investigacions d'optogenètica del grup de recerca del Neuroscience Institute de la Universitat de Princeton, Nova Jersey.