982 resultados para visual object categorization
Resumo:
Les ombres sont un élément important pour la compréhension d'une scène. Grâce à elles, il est possible de résoudre des situations autrement ambigües, notamment concernant les mouvements, ou encore les positions relatives des objets de la scène. Il y a principalement deux types d'ombres: des ombres dures, aux limites très nettes, qui résultent souvent de lumières ponctuelles ou directionnelles; et des ombres douces, plus floues, qui contribuent à l'atmosphère et à la qualité visuelle de la scène. Les ombres douces résultent de grandes sources de lumière, comme des cartes environnementales, et sont difficiles à échantillonner efficacement en temps réel. Lorsque l'interactivité est prioritaire sur la qualité, des méthodes d'approximation peuvent être utilisées pour améliorer le rendu d'une scène à moindre coût en temps de calcul. Nous calculons interactivement les ombres douces résultant de sources de lumière environnementales, pour des scènes composées d'objets en mouvement et d'un champ de hauteurs dynamique. Notre méthode enrichit la méthode d'exponentiation des harmoniques sphériques, jusque là limitée aux bloqueurs sphériques, pour pouvoir traiter des champs de hauteurs. Nous ajoutons également une représentation pour les BRDFs diffuses et glossy. Nous pouvons ainsi combiner les visibilités et BRDFs dans un même espace, afin de calculer efficacement les ombres douces et les réflexions de scènes complexes. Un algorithme hybride, qui associe les visibilités en espace écran et en espace objet, permet de découpler la complexité des ombres de la complexité de la scène.
Resumo:
Dans l'apprentissage machine, la classification est le processus d’assigner une nouvelle observation à une certaine catégorie. Les classifieurs qui mettent en œuvre des algorithmes de classification ont été largement étudié au cours des dernières décennies. Les classifieurs traditionnels sont basés sur des algorithmes tels que le SVM et les réseaux de neurones, et sont généralement exécutés par des logiciels sur CPUs qui fait que le système souffre d’un manque de performance et d’une forte consommation d'énergie. Bien que les GPUs puissent être utilisés pour accélérer le calcul de certains classifieurs, leur grande consommation de puissance empêche la technologie d'être mise en œuvre sur des appareils portables tels que les systèmes embarqués. Pour rendre le système de classification plus léger, les classifieurs devraient être capable de fonctionner sur un système matériel plus compact au lieu d'un groupe de CPUs ou GPUs, et les classifieurs eux-mêmes devraient être optimisés pour ce matériel. Dans ce mémoire, nous explorons la mise en œuvre d'un classifieur novateur sur une plate-forme matérielle à base de FPGA. Le classifieur, conçu par Alain Tapp (Université de Montréal), est basé sur une grande quantité de tables de recherche qui forment des circuits arborescents qui effectuent les tâches de classification. Le FPGA semble être un élément fait sur mesure pour mettre en œuvre ce classifieur avec ses riches ressources de tables de recherche et l'architecture à parallélisme élevé. Notre travail montre que les FPGAs peuvent implémenter plusieurs classifieurs et faire les classification sur des images haute définition à une vitesse très élevée.
Resumo:
Les tableaux vivants sont une pratique historique faisant fréquemment l’objet de réappropriations dans les arts visuels contemporains. Situé à mi-chemin entre le divertissement mondain, le théâtre et la peinture, le tableau vivant est porteur d’une certaine ambigüité quant à son statut artistique, attribuable à ses origines, qui l’assimilent davantage à un jeu de bonne société et à une pratique amateur, qu’à une pratique artistique à part entière. La remédiation (Bolter et Grusin) et l’interartialité (Moser) servent d’opérateurs pour questionner les rapports médiatiques et esthétiques en jeu dans le tableau vivant, de manière à éclaircir sa nature médiale spécifique et à préciser les fonctions et effets esthétiques de sa réappropriation. En gardant notre attention sur le dispositif esthétique du tableau, il s’agit d’abord d’explorer le tableau vivant en tant que médium par le biais de l’histoire ses relations interartiales – avec le théâtre du milieu du 18e siècle, la littérature du tournant du 20e siècle et la photographie à partir de 1980. Ensuite, sera pris pour base l’étude d’une œuvre de l’artiste québécoise Claudie Gagnon ayant été présentée au Musée d’art contemporain de Montréal en 2011 dans le cadre de la 2ième Triennale québécoise. L’œuvre Tableaux (2011, vidéogramme, 20 min.) emprunte sa forme au tableau vivant et réactualise cette pratique citationnelle notamment par l’usage de la vidéo. Par l’analyse de trois tableaux vidéographiques extraits de Tableaux, il s’agit d’aborder en trois opérations de traduction-transformation (remédiation, artialisation et théâtralisation) la reprise du tableau vivant en tant que stratégie d’opacification de la représentation.
Resumo:
Ce mémoire s'intéresse à la reconstruction d'un modèle 3D à partir de plusieurs images. Le modèle 3D est élaboré avec une représentation hiérarchique de voxels sous la forme d'un octree. Un cube englobant le modèle 3D est calculé à partir de la position des caméras. Ce cube contient les voxels et il définit la position de caméras virtuelles. Le modèle 3D est initialisé par une enveloppe convexe basée sur la couleur uniforme du fond des images. Cette enveloppe permet de creuser la périphérie du modèle 3D. Ensuite un coût pondéré est calculé pour évaluer la qualité de chaque voxel à faire partie de la surface de l'objet. Ce coût tient compte de la similarité des pixels provenant de chaque image associée à la caméra virtuelle. Finalement et pour chacune des caméras virtuelles, une surface est calculée basée sur le coût en utilisant la méthode de SGM. La méthode SGM tient compte du voisinage lors du calcul de profondeur et ce mémoire présente une variation de la méthode pour tenir compte des voxels précédemment exclus du modèle par l'étape d'initialisation ou de creusage par une autre surface. Par la suite, les surfaces calculées sont utilisées pour creuser et finaliser le modèle 3D. Ce mémoire présente une combinaison innovante d'étapes permettant de créer un modèle 3D basé sur un ensemble d'images existant ou encore sur une suite d'images capturées en série pouvant mener à la création d'un modèle 3D en temps réel.
Resumo:
La capacité du système visuel humain à compléter une image partiellement dévoilée et à en dériver une forme globale à partir de ses fragments visibles incomplets est un phénomène qui suscite, jusqu’à nos jours, l’intérêt de nombreux scientifiques œuvrant dans différents milieux de recherche tels que l’informatique, l’ingénierie en intelligence artificielle, la perception et les neurosciences. Dans le cadre de la présente thèse, nous nous sommes intéressés spécifiquement sur les substrats neuronaux associés à ce phénomène de clôture perceptive. La thèse actuelle a donc pour objectif général d’explorer le décours spatio-temporel des corrélats neuronaux associés à la clôture perceptive au cours d’une tâche d’identification d’objets. Dans un premier temps, le premier article visera à caractériser la signature électrophysiologique liée à la clôture perceptive chez des personnes à développement typique dans le but de déterminer si les processus de clôture perceptive reflèteraient l’interaction itérative entre les mécanismes de bas et de haut-niveau et si ceux-ci seraient sollicités à une étape précoce ou tardive lors du traitement visuel de l’information. Dans un deuxième temps, le second article a pour objectif d’explorer le décours spatio-temporel des mécanismes neuronaux sous-tendant la clôture perceptive dans le but de déterminer si les processus de clôture perceptive des personnes présentant un trouble autistique se caractérisent par une signature idiosyncrasique des changements d’amplitude des potentiels évoqués (PÉs). En d’autres termes, nous cherchons à déterminer si la clôture perceptive en autisme est atypique et nécessiterait davantage la contribution des mécanismes de bas-niveau et/ou de haut-niveau. Les résultats du premier article indiquent que le phénomène de clôture perceptive est associé temporellement à l’occurrence de la composante de PÉs N80 et P160 tel que révélé par des différences significatives claires entre des objets et des versions méconnaissables brouillées. Nous proposons enfin que la clôture perceptive s’avère un processus de transition reflétant les interactions proactives entre les mécanismes neuronaux œuvrant à apparier l’input sensoriel fragmenté à une représentation d’objets en mémoire plausible. Les résultats du second article révèlent des effets précoces de fragmentation et d’identification obtenus au niveau de composantes de potentiels évoqués N80 et P160 et ce, en toute absence d’effets au niveau des composantes tardives pour les individus avec autisme de haut niveau et avec syndrome d’Asperger. Pour ces deux groupes du trouble du spectre autistique, les données électrophysiologiques suggèrent qu’il n’y aurait pas de pré-activation graduelle de l’activité des régions corticales, entre autres frontales, aux moments précédant et menant vers l’identification d’objets fragmentés. Pour les participants autistes et avec syndrome d’Asperger, les analyses statistiques démontrent d’ailleurs une plus importante activation au niveau des régions postérieures alors que les individus à développement typique démontrent une activation plus élevée au niveau antérieur. Ces résultats pourraient suggérer que les personnes du spectre autistique se fient davantage aux processus perceptifs de bas-niveau pour parvenir à compléter les images d’objets fragmentés. Ainsi, lorsque confrontés aux images d’objets partiellement visibles pouvant sembler ambiguës, les individus avec autisme pourraient démontrer plus de difficultés à générer de multiples prédictions au sujet de l’identité d’un objet qu’ils perçoivent. Les implications théoriques et cliniques, les limites et perspectives futures de ces résultats sont discutées.
Resumo:
Ce mémoire s'intéresse à la détection de mouvement dans une séquence d'images acquises à l'aide d'une caméra fixe. Dans ce problème, la difficulté vient du fait que les mouvements récurrents ou non significatifs de la scène tels que les oscillations d'une branche, l'ombre d'un objet ou les remous d'une surface d'eau doivent être ignorés et classés comme appartenant aux régions statiques de la scène. La plupart des méthodes de détection de mouvement utilisées à ce jour reposent en fait sur le principe bas-niveau de la modélisation puis la soustraction de l'arrière-plan. Ces méthodes sont simples et rapides mais aussi limitées dans les cas où l'arrière-plan est complexe ou bruité (neige, pluie, ombres, etc.). Cette recherche consiste à proposer une technique d'amélioration de ces algorithmes dont l'idée principale est d'exploiter et mimer deux caractéristiques essentielles du système de vision humain. Pour assurer une vision nette de l’objet (qu’il soit fixe ou mobile) puis l'analyser et l'identifier, l'œil ne parcourt pas la scène de façon continue, mais opère par une série de ``balayages'' ou de saccades autour (des points caractéristiques) de l'objet en question. Pour chaque fixation pendant laquelle l'œil reste relativement immobile, l'image est projetée au niveau de la rétine puis interprétée en coordonnées log polaires dont le centre est l'endroit fixé par l'oeil. Les traitements bas-niveau de détection de mouvement doivent donc s'opérer sur cette image transformée qui est centrée pour un point (de vue) particulier de la scène. L'étape suivante (intégration trans-saccadique du Système Visuel Humain (SVH)) consiste ensuite à combiner ces détections de mouvement obtenues pour les différents centres de cette transformée pour fusionner les différentes interprétations visuelles obtenues selon ses différents points de vue.
Resumo:
Secret sharing schemes allow a secret to be shared among a group of participants so that only qualified subsets of participants can recover the secret. A visual cryptography scheme (VCS) is a special kind of secret sharing scheme in which the secret to share consists of an image and the shares consist of xeroxed transparencies which are stacked to recover the shared image. In this thesis we have given the theoretical background of Secret Sharing Schemes and the historical development of the subject. We have included a few examples to improve the readability of the thesis. We have tried to maintain the rigor of the treatment of the subject. The limitations and disadvantages of the various forms secret sharing schemes are brought out. Several new schemes for both dealing and combining are included in the thesis. We have introduced a new number system, called, POB number system. Representation using POB number system has been presented. Algorithms for finding the POB number and POB value are given.We have also proved that the representation using POB number system is unique and is more efficient. Being a new system, there is much scope for further development in this area.
Resumo:
Las prácticas obligatorias de la materia Percepción Visual constituyen un complemento de trabajo en el que deben integrarse los conocimientos informativos y los de índole formativa (técnicas, procedimientos, metodología, etc.). De acuerdo con ello, hemos seleccionado cinco cuestiones que en el pasado han sido objeto de verificación experimental, considerando, por un lado, la pertenencia al temario de las asignaturas y, por otro lado, la viabilidad de las experimentaciones, habida cuenta de la infraestructura material requerida (equipo, aparatos, material, etc.) y los condicionantes académicos (relación: número de alumnos / clase; espacios disponibles [aulas y laboratorios], condiciones ambientales, tiempo disponible, etc.). Las practicas experimentales en percepción visual ofrecen la posibilidad de que los estudiantes puedan aplicar los procedimientos experimentales adecuados, operativizando las variables (medición), estableciendo relaciones entre ellas (hipótesis) y planteando predicciones que se someterán a prueba a partir de los datos registrados. Llevan a los estudiantes a confrontar el modelo o las teorías con la realidad (verificación) y a buscar interpretaciones plausibles de las relaciones evidenciadas empíricamente entre las variables. Introducen al alumno en el rigor, la precisión, el control, la sistematicidad y la objetividad, frente a la especulación gratuita.
Resumo:
Màster Oficial en Gestió del Patrimoni Cultural
Resumo:
The detection of buried objects using time-domain freespace measurements was carried out in the near field. The location of a hidden object was determined from an analysis of the reflected signal. This method can be extended to detect any number of objects. Measurements were carried out in the X- and Ku-bands using ordinary rectangular pyramidal horn antennas of gain 15 dB. The same antenna was used as the transmitter and recei er. The experimental results were compared with simulated results by applying the two-dimensional finite-difference time-domain(FDTD)method, and agree well with each other. The dispersi e nature of the dielectric medium was considered for the simulation.
Resumo:
This thesis is an outcome of the investigations carried out on the development of an Artificial Neural Network (ANN) model to implement 2-D DFT at high speed. A new definition of 2-D DFT relation is presented. This new definition enables DFT computation organized in stages involving only real addition except at the final stage of computation. The number of stages is always fixed at 4. Two different strategies are proposed. 1) A visual representation of 2-D DFT coefficients. 2) A neural network approach. The visual representation scheme can be used to compute, analyze and manipulate 2D signals such as images in the frequency domain in terms of symbols derived from 2x2 DFT. This, in turn, can be represented in terms of real data. This approach can help analyze signals in the frequency domain even without computing the DFT coefficients. A hierarchical neural network model is developed to implement 2-D DFT. Presently, this model is capable of implementing 2-D DFT for a particular order N such that ((N))4 = 2. The model can be developed into one that can implement the 2-D DFT for any order N upto a set maximum limited by the hardware constraints. The reported method shows a potential in implementing the 2-D DF T in hardware as a VLSI / ASIC
Resumo:
Anticipating the increase in video information in future, archiving of news is an important activity in the visual media industry. When the volume of archives increases, it will be difficult for journalists to find the appropriate content using current search tools. This paper provides the details of the study we conducted about the news extraction systems used in different news channels in Kerala. Semantic web technologies can be used effectively since news archiving share many of the characteristics and problems of WWW. Since visual news archives of different media resources follow different metadata standards, interoperability between the resources is also an issue. World Wide Web Consortium has proposed a draft for an ontology framework for media resource which addresses the intercompatiblity issues. In this paper, the w3c proposed framework and its drawbacks is also discussed
Resumo:
Pedicle screw insertion technique has made revolution in the surgical treatment of spinal fractures and spinal disorders. Although X- ray fluoroscopy based navigation is popular, there is risk of prolonged exposure to X- ray radiation. Systems that have lower radiation risk are generally quite expensive. The position and orientation of the drill is clinically very important in pedicle screw fixation. In this paper, the position and orientation of the marker on the drill is determined using pattern recognition based methods, using geometric features, obtained from the input video sequence taken from CCD camera. A search is then performed on the video frames after preprocessing, to obtain the exact position and orientation of the drill. An animated graphics, showing the instantaneous position and orientation of the drill is then overlaid on the processed video for real time drill control and navigation
Resumo:
Diese Arbeit beschreibt den Evaluationsprozess einer dreidimensionalen Visualisierungstechnik, die am Institut für periphere Mikroelektronik der Universität Kassel entwickelt wurde. Hinter der dreidimensionalen Darstellung mittels Linsenrasterscheibe verbirgt sich eine neue Dimension der Interaktion mit dem Computer. Im Vergleich zu gewöhnlichen dreidimensionalen Darstellungen, bei denen ein 3D-Objekt auf einer 2D-Fläche abgebildet wird und somit nach wie vor nicht aus der Bildschirmebene heraus kann, können bei der stereoskopen Darstellung die Objekte dreidimensional visualisiert werden. Die Objekte tauchen vor, beziehungsweise hinter der Darstellungsebene auf. Da die Linsenrasterscheibe bisher noch nicht wahrnehmungspsychologisch untersucht wurde und auch allgemein auf dem Gebiet der Evaluation von 3D-Systemen nur wenige Untersuchungen mit quantitativen Ergebnissen verfügbar sind (Vollbracht, 1997), besteht hier ein zentrales Forschungsinteresse. Um eine Evaluation dieses 3D-Systems durchzuführen, wird im Theorieteil der Arbeit zunächst der Begriff der Evaluation definiert. Des Weiteren werden die wahrnehmungspsychologischen Grundlagen der monokularen und binokularen Raumwahrnehmung erörtert. Anschließend werden Techniken zur Erzeugung von Tiefe in Bildern und auf Bildschirmen erläutert und die Unterschiede zwischen der technisch erzeugten und der natürlichen Tiefenwahrnehmung näher beleuchtet. Nach der Vorstellung verschiedener stereoskoper Systeme wird näher auf die autostereoskope Linsenrasterscheibe eingegangen. Zum Abschluss des theoretischen Teils dieser Arbeit wird die Theorie des eingesetzten Befindlichkeitsfragebogens veranschaulicht. Gegenstand des empirischen Teils dieser Arbeit sind zwei zentrale Fragestellungen. Erstens soll untersucht werden, ob durch den höheren Informationsgehalt grundlegende Wahrnehmungsleistungen in bestimmten Bereichen positiv beeinflusst werden können. Zweitens soll untersucht werden, ob sich die höhere visuelle Natürlichkeit und die Neuartigkeit der Bildpräsentation auch auf die subjektive Befindlichkeit der Probanden auswirkt. Die empirische Überprüfung dieser Hypothesen erfolgt mittels dreier Experimente. Bei den ersten beiden Experimenten stehen grundlegende wahrnehmungspsychologische Leistungen im Vordergrund, während in der dritten Untersuchung der Bereich der subjektiven Befindlichkeit gemessen wird. Abschließend werden die Ergebnisse der Untersuchungen vorgestellt und diskutiert. Des Weiteren werden konkrete Einsatzmöglichkeiten für die Linsenrasterscheibe aufgezeigt und denkbare nachfolgende experimentelle Vorgehensweisen skizziert.
Resumo:
In dieser Arbeit wird ein generisches Modell fuer synchrone Gruppenarbeit auf gemeinsamen Informationsraeumen entwickelt. Fuer die Entwicklung dieses Modells muessen die Grundfunktionen fuer Anwendungen der synchronen Gruppenarbeit realisiert werden. Neben der Modellierung des Datenraumes (Datenmodell) und der operationellen Schnittstelle (Interaktionsmodell), muessen Mechanismen fuer die Darstellung der Aktivitaeten der Gruppenmitglieder auf dem Informationsraum (Awareness), sowie fuer die Synchronisierung gleichzeitiger Zugriffe verschiedener Benutzer auf dem Datenraum realisiert werden (Nebenlaeufgkeitskontrolle). Das Grundproblem bei der Loesung der Nebenlaeufigkeit liegt bei der Aufgabe der Isolation aus den klassischen ACID-Transaktionen zu gunsten von Awareness. Die rapide Entwicklung von Techniken der mobilen Kommunikation ermoeglicht den Einsatz dieser Geraete fuer den Zugriff auf Daten im Internet. Durch UMTSund WLAN-Technologien koennen Mobilgeraete fuer Anwendungen ueber die reine Kommunikation hinaus eingesetzt werden. Eine natuerliche Folge dieser Entwicklung sind Anwendungen fuer die Zusammenarbeit mehrerer Benutzer. In der Arbeit wird daher auf die Unterstuetzung mobiler Geraete besonderen Wert gelegt. Die Interaktion der Benutzer auf den gemeinsamen Datenraum wird durch einfache Navigationsoperationen mit einem Cursor (Finger) realisiert, wobei der Datenraum durch XML-Dokumente dargestellt wird. Die Visualisierung basiert auf der Transformierung von XML-Dokumenten in andere XML-basierte Sprachen wie HTML oder SVG durch XSLT-Stylesheets. Awareness-Informationen werden, aehnlich dem Fokus/Nimbus-Modell, von der Interaktion der Benutzer und der Ermittlung der sichtbaren Objekte bei dem Benutzer hergeleitet. Fuer eine geeignete Kontrolle der Nebenlaeufigkeit wurde der Begriff der visuellen Transaktion eingefuehrt, wo die Auswirkungen einer Transaktion von anderen Benutzern (Transaktionen) beobachtet werden koennen. Die Synchronisierung basiert auf einem Sperrverfahren und der Einfuehrung der neuen W-Sperre und der Grundoperationen readV und writeV. Das Modell (Groupware-Server) wird in der Arbeit in einem Prototyp implementiert. Weiterhin wird eine Java-Anwendung sowohl auf einem Desktop PC als auch auf einem Pocket PC (iPAQ 3970) implementiert, welche die Einsetzbarkeit dieses Prototyps demonstriert.