944 resultados para stereo vision,stereo matching,cuda,lisp,connection machine


Relevância:

30.00% 30.00%

Publicador:

Resumo:

This doctoral dissertation investigates the adult education policy of the European Union (EU) in the framework of the Lisbon agenda 2000–2010, with a particular focus on the changes of policy orientation that occurred during this reference decade. The year 2006 can be considered, in fact, a turning point for the EU policy-making in the adult learning sector: a radical shift from a wide--ranging and comprehensive conception of educating adults towards a vocationally oriented understanding of this field and policy area has been observed, in particular in the second half of the so--called ‘Lisbon decade’. In this light, one of the principal objectives of the mainstream policy set by the Lisbon Strategy, that of fostering all forms of participation of adults in lifelong learning paths, appears to have muted its political background and vision in a very short period of time, reflecting an underlying polarisation and progressive transformation of European policy orientations. Hence, by means of content analysis and process tracing, it is shown that the new target of the EU adult education policy, in this framework, has shifted from citizens to workers, and the competence development model, borrowed from the corporate sector, has been established as the reference for the new policy road maps. This study draws on the theory of governance architectures and applies a post-ontological perspective to discuss whether the above trends are intrinsically due to the nature of the Lisbon Strategy, which encompasses education policies, and to what extent supranational actors and phenomena such as globalisation influence the European governance and decision--making. Moreover, it is shown that the way in which the EU is shaping the upgrading of skills and competences of adult learners is modeled around the needs of the ‘knowledge economy’, thus according a great deal of importance to the ‘new skills for new jobs’ and perhaps not enough to life skills in its broader sense which include, for example, social and civic competences: these are actually often promoted but rarely implemented in depth in the EU policy documents. In this framework, it is conveyed how different EU policy areas are intertwined and interrelated with global phenomena, and it is emphasised how far the building of the EU education systems should play a crucial role in the formation of critical thinking, civic competences and skills for a sustainable democratic citizenship, from which a truly cohesive and inclusive society fundamentally depend, and a model of environmental and cosmopolitan adult education is proposed in order to address the challenges of the new millennium. In conclusion, an appraisal of the EU’s public policy, along with some personal thoughts on how progress might be pursued and actualised, is outlined.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

One of the problems that slows the development of off-line programming is the low static and dynamic positioning accuracy of robots. Robot calibration improves the positioning accuracy and can also be used as a diagnostic tool in robot production and maintenance. A large number of robot measurement systems are now available commercially. Yet, there is a dearth of systems that are portable, accurate and low cost. In this work a measurement system that can fill this gap in local calibration is presented. The measurement system consists of a single CCD camera mounted on the robot tool flange with a wide angle lens, and uses space resection models to measure the end-effector pose relative to a world coordinate system, considering radial distortions. Scale factors and image center are obtained with innovative techniques, making use of a multiview approach. The target plate consists of a grid of white dots impressed on a black photographic paper, and mounted on the sides of a 90-degree angle plate. Results show that the achieved average accuracy varies from 0.2mm to 0.4mm, at distances from the target from 600mm to 1000mm respectively, with different camera orientations.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

The usage of digital content, such as video clips and images, has increased dramatically during the last decade. Local image features have been applied increasingly in various image and video retrieval applications. This thesis evaluates local features and applies them to image and video processing tasks. The results of the study show that 1) the performance of different local feature detector and descriptor methods vary significantly in object class matching, 2) local features can be applied in image alignment with superior results against the state-of-the-art, 3) the local feature based shot boundary detection method produces promising results, and 4) the local feature based hierarchical video summarization method shows promising new new research direction. In conclusion, this thesis presents the local features as a powerful tool in many applications and the imminent future work should concentrate on improving the quality of the local features.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

This study examines information security as a process (information securing) in terms of what it does, especially beyond its obvious role of protector. It investigates concepts related to ‘ontology of becoming’, and examines what it is that information securing produces. The research is theory driven and draws upon three fields: sociology (especially actor-network theory), philosophy (especially Gilles Deleuze and Félix Guattari’s concept of ‘machine’, ‘territory’ and ‘becoming’, and Michel Serres’s concept of ‘parasite’), and information systems science (the subject of information security). Social engineering (used here in the sense of breaking into systems through non-technical means) and software cracker groups (groups which remove copy protection systems from software) are analysed as examples of breaches of information security. Firstly, the study finds that information securing is always interruptive: every entity (regardless of whether or not it is malicious) that becomes connected to information security is interrupted. Furthermore, every entity changes, becomes different, as it makes a connection with information security (ontology of becoming). Moreover, information security organizes entities into different territories. However, the territories – the insides and outsides of information systems – are ontologically similar; the only difference is in the order of the territories, not in the ontological status of entities that inhabit the territories. In other words, malicious software is ontologically similar to benign software; they both are users in terms of a system. The difference is based on the order of the system and users: who uses the system and what the system is used for. Secondly, the research shows that information security is always external (in the terms of this study it is a ‘parasite’) to the information system that it protects. Information securing creates and maintains order while simultaneously disrupting the existing order of the system that it protects. For example, in terms of software itself, the implementation of a copy protection system is an entirely external addition. In fact, this parasitic addition makes software different. Thus, information security disrupts that which it is supposed to defend from disruption. Finally, it is asserted that, in its interruption, information security is a connector that creates passages; it connects users to systems while also creating its own threats. For example, copy protection systems invite crackers and information security policies entice social engineers to use and exploit information security techniques in a novel manner.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Genetic Programming (GP) is a widely used methodology for solving various computational problems. GP's problem solving ability is usually hindered by its long execution times. In this thesis, GP is applied toward real-time computer vision. In particular, object classification and tracking using a parallel GP system is discussed. First, a study of suitable GP languages for object classification is presented. Two main GP approaches for visual pattern classification, namely the block-classifiers and the pixel-classifiers, were studied. Results showed that the pixel-classifiers generally performed better. Using these results, a suitable language was selected for the real-time implementation. Synthetic video data was used in the experiments. The goal of the experiments was to evolve a unique classifier for each texture pattern that existed in the video. The experiments revealed that the system was capable of correctly tracking the textures in the video. The performance of the system was on-par with real-time requirements.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

This brief article is devoted to a critique of the arguments put forward by the Attorney General of Canada in connection with the Reference concerning certain questions relating to the secession of Quebec (hereinafter, "the Reference"). This critique will not be presented from a plainly positivist standpoint. On the contrary, I will be examining in particular (1) how the approach taken by the Attorney General impoverished the legal concepts of the rule of law anf federalism, both of which were, however, central to her submission; and, in a more general way, (2) how the excessively detailed analysis of constitutional texts contributes to the impoverishment of the symbolic function of the law, however essential that dimension may be to its legitimacy. My criticism will take into account the reasons for judgement delivered recently by the Supreme Court in the Reference.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Cette recherche a pour but d’évaluer le rôle de la vision et de la proprioception pour la perception et le contrôle de l’orientation spatiale de la main chez l’humain. L’orientation spatiale de la main est une composante importante des mouvements d’atteinte et de saisie. Toutefois, peu d’attention a été portée à l’étude de l’orientation spatiale de la main dans la littérature. À notre connaissance, cette étude est la première à évaluer spécifiquement l’influence des informations sensorielles et de l’expérience visuelle pour la perception et le contrôle en temps réel de l'orientation spatiale de la main pendant le mouvement d’atteinte naturel vers une cible stationnaire. Le premier objectif était d’étudier la contribution de la vision et de la proprioception dans des tâches de perception et de mouvement d’orientation de la main. Dans la tâche de perception (orientation-matching task), les sujets devaient passivement ou activement aligner une poignée de forme rectangulaire avec une cible fixée dans différentes orientations. Les rotations de l’avant-bras et du poignet étaient soit imposées par l’expérimentateur, soit effectuées par les sujets. Dans la tâche de mouvement d’orientation et d’atteinte simultanées (letter posting task 1), les sujets ont réalisé des mouvements d’atteinte et de rotation simultanées de la main afin d’insérer la poignée rectangulaire dans une fente fixée dans les mêmes orientations. Les tâches ont été réalisées dans différentes conditions sensorielles où l’information visuelle de la cible et de la main était manipulée. Dans la tâche perceptive, une augmentation des erreurs d’orientation de la main a été observée avec le retrait des informations visuelles concernant la cible et/ou ou la main. Lorsque la vision de la main n’était pas permise, il a généralement été observé que les erreurs d’orientation de la main augmentaient avec le degré de rotation nécessaire pour aligner la main et la cible. Dans la tâche de mouvement d’orientation et d’atteinte simultanées, les erreurs ont également augmenté avec le retrait des informations visuelles. Toutefois, les patrons d’erreurs étaient différents de ceux observés dans la tâche de perception, et les erreurs d’orientation n’ont pas augmenté avec le degré de rotation nécessaire pour insérer la poignée dans la fente. En absence de vision de la main, il a été observé que les erreurs d’orientation étaient plus petites dans la tâche de mouvement que de perception, suggérant l’implication de la proprioception pour le contrôle de l’orientation spatiale de la main lors des mouvements d’orientation et d’atteinte simultanées. Le deuxième objectif de cette recherche était d’étudier l’influence de la vision et de la proprioception dans le contrôle en temps réel de l’orientation spatiale de la main. Dans une tâche d’orientation de la main suivie d’une atteinte manuelle (letter posting task 2), les sujets devaient d’abord aligner l’orientation de la même poignée avec la fente fixée dans les mêmes orientations, puis réaliser un mouvement d’atteinte sans modifier l’orientation initiale de la main. Une augmentation des erreurs initiales et finales a été observée avec le retrait des informations visuelles. Malgré la consigne de ne pas changer l’orientation initiale de la main, une diminution des erreurs d’orientation a généralement été observée suite au mouvement d’atteinte, dans toutes les conditions sensorielles testées. Cette tendance n’a pas été observée lorsqu’aucune cible explicite n’était présentée et que les sujets devaient conserver l’orientation de départ de la main pendant le mouvement d’atteinte (mouvement intransitif; letter-posting task 3). La diminution des erreurs pendant l’atteinte manuelle transitive vers une cible explicite (letter-posting task 2), malgré la consigne de ne pas changer l’orientation de la main pendant le mouvement, suggère un mécanisme de corrections automatiques pour le contrôle en temps réel de l’orientation spatiale de la main pendant le mouvement d’atteinte naturel vers une cible stationnaire. Le troisième objectif de cette recherche était d’évaluer la contribution de l’expérience visuelle pour la perception et le contrôle de l’orientation spatiale de la main. Des sujets aveugles ont été testés dans les mêmes tâches de perception et de mouvement. De manière générale, les sujets aveugles ont présenté les mêmes tendances que les sujets voyants testés dans la condition proprioceptive (sans vision), suggérant que l’expérience visuelle n’est pas nécessaire pour le développement d’un mécanisme de correction en temps réel de l’orientation spatiale de la main basé sur la proprioception.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

RÉSUMÉ - Les images satellitales multispectrales, notamment celles à haute résolution spatiale (plus fine que 30 m au sol), représentent une source d’information inestimable pour la prise de décision dans divers domaines liés à la gestion des ressources naturelles, à la préservation de l’environnement ou à l’aménagement et la gestion des centres urbains. Les échelles d’étude peuvent aller du local (résolutions plus fines que 5 m) à des échelles régionales (résolutions plus grossières que 5 m). Ces images caractérisent la variation de la réflectance des objets dans le spectre qui est l’information clé pour un grand nombre d’applications de ces données. Or, les mesures des capteurs satellitaux sont aussi affectées par des facteurs « parasites » liés aux conditions d’éclairement et d’observation, à l’atmosphère, à la topographie et aux propriétés des capteurs. Deux questions nous ont préoccupé dans cette recherche. Quelle est la meilleure approche pour restituer les réflectances au sol à partir des valeurs numériques enregistrées par les capteurs tenant compte des ces facteurs parasites ? Cette restitution est-elle la condition sine qua non pour extraire une information fiable des images en fonction des problématiques propres aux différents domaines d’application des images (cartographie du territoire, monitoring de l’environnement, suivi des changements du paysage, inventaires des ressources, etc.) ? Les recherches effectuées les 30 dernières années ont abouti à une série de techniques de correction des données des effets des facteurs parasites dont certaines permettent de restituer les réflectances au sol. Plusieurs questions sont cependant encore en suspens et d’autres nécessitent des approfondissements afin, d’une part d’améliorer la précision des résultats et d’autre part, de rendre ces techniques plus versatiles en les adaptant à un plus large éventail de conditions d’acquisition des données. Nous pouvons en mentionner quelques unes : - Comment prendre en compte des caractéristiques atmosphériques (notamment des particules d’aérosol) adaptées à des conditions locales et régionales et ne pas se fier à des modèles par défaut qui indiquent des tendances spatiotemporelles à long terme mais s’ajustent mal à des observations instantanées et restreintes spatialement ? - Comment tenir compte des effets de « contamination » du signal provenant de l’objet visé par le capteur par les signaux provenant des objets environnant (effet d’adjacence) ? ce phénomène devient très important pour des images de résolution plus fine que 5 m; - Quels sont les effets des angles de visée des capteurs hors nadir qui sont de plus en plus présents puisqu’ils offrent une meilleure résolution temporelle et la possibilité d’obtenir des couples d’images stéréoscopiques ? - Comment augmenter l’efficacité des techniques de traitement et d’analyse automatique des images multispectrales à des terrains accidentés et montagneux tenant compte des effets multiples du relief topographique sur le signal capté à distance ? D’autre part, malgré les nombreuses démonstrations par des chercheurs que l’information extraite des images satellitales peut être altérée à cause des tous ces facteurs parasites, force est de constater aujourd’hui que les corrections radiométriques demeurent peu utilisées sur une base routinière tel qu’est le cas pour les corrections géométriques. Pour ces dernières, les logiciels commerciaux de télédétection possèdent des algorithmes versatiles, puissants et à la portée des utilisateurs. Les algorithmes des corrections radiométriques, lorsqu’ils sont proposés, demeurent des boîtes noires peu flexibles nécessitant la plupart de temps des utilisateurs experts en la matière. Les objectifs que nous nous sommes fixés dans cette recherche sont les suivants : 1) Développer un logiciel de restitution des réflectances au sol tenant compte des questions posées ci-haut. Ce logiciel devait être suffisamment modulaire pour pouvoir le bonifier, l’améliorer et l’adapter à diverses problématiques d’application d’images satellitales; et 2) Appliquer ce logiciel dans différents contextes (urbain, agricole, forestier) et analyser les résultats obtenus afin d’évaluer le gain en précision de l’information extraite par des images satellitales transformées en images des réflectances au sol et par conséquent la nécessité d’opérer ainsi peu importe la problématique de l’application. Ainsi, à travers cette recherche, nous avons réalisé un outil de restitution de la réflectance au sol (la nouvelle version du logiciel REFLECT). Ce logiciel est basé sur la formulation (et les routines) du code 6S (Seconde Simulation du Signal Satellitaire dans le Spectre Solaire) et sur la méthode des cibles obscures pour l’estimation de l’épaisseur optique des aérosols (aerosol optical depth, AOD), qui est le facteur le plus difficile à corriger. Des améliorations substantielles ont été apportées aux modèles existants. Ces améliorations concernent essentiellement les propriétés des aérosols (intégration d’un modèle plus récent, amélioration de la recherche des cibles obscures pour l’estimation de l’AOD), la prise en compte de l’effet d’adjacence à l’aide d’un modèle de réflexion spéculaire, la prise en compte de la majorité des capteurs multispectraux à haute résolution (Landsat TM et ETM+, tous les HR de SPOT 1 à 5, EO-1 ALI et ASTER) et à très haute résolution (QuickBird et Ikonos) utilisés actuellement et la correction des effets topographiques l’aide d’un modèle qui sépare les composantes directe et diffuse du rayonnement solaire et qui s’adapte également à la canopée forestière. Les travaux de validation ont montré que la restitution de la réflectance au sol par REFLECT se fait avec une précision de l’ordre de ±0.01 unités de réflectance (pour les bandes spectrales du visible, PIR et MIR), même dans le cas d’une surface à topographie variable. Ce logiciel a permis de montrer, à travers des simulations de réflectances apparentes à quel point les facteurs parasites influant les valeurs numériques des images pouvaient modifier le signal utile qui est la réflectance au sol (erreurs de 10 à plus de 50%). REFLECT a également été utilisé pour voir l’importance de l’utilisation des réflectances au sol plutôt que les valeurs numériques brutes pour diverses applications courantes de la télédétection dans les domaines des classifications, du suivi des changements, de l’agriculture et de la foresterie. Dans la majorité des applications (suivi des changements par images multi-dates, utilisation d’indices de végétation, estimation de paramètres biophysiques, …), la correction des images est une opération cruciale pour obtenir des résultats fiables. D’un point de vue informatique, le logiciel REFLECT se présente comme une série de menus simples d’utilisation correspondant aux différentes étapes de saisie des intrants de la scène, calcul des transmittances gazeuses, estimation de l’AOD par la méthode des cibles obscures et enfin, l’application des corrections radiométriques à l’image, notamment par l’option rapide qui permet de traiter une image de 5000 par 5000 pixels en 15 minutes environ. Cette recherche ouvre une série de pistes pour d’autres améliorations des modèles et méthodes liés au domaine des corrections radiométriques, notamment en ce qui concerne l’intégration de la FDRB (fonction de distribution de la réflectance bidirectionnelle) dans la formulation, la prise en compte des nuages translucides à l’aide de la modélisation de la diffusion non sélective et l’automatisation de la méthode des pentes équivalentes proposée pour les corrections topographiques.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Les tâches de vision artificielle telles que la reconnaissance d’objets demeurent irrésolues à ce jour. Les algorithmes d’apprentissage tels que les Réseaux de Neurones Artificiels (RNA), représentent une approche prometteuse permettant d’apprendre des caractéristiques utiles pour ces tâches. Ce processus d’optimisation est néanmoins difficile. Les réseaux profonds à base de Machine de Boltzmann Restreintes (RBM) ont récemment été proposés afin de guider l’extraction de représentations intermédiaires, grâce à un algorithme d’apprentissage non-supervisé. Ce mémoire présente, par l’entremise de trois articles, des contributions à ce domaine de recherche. Le premier article traite de la RBM convolutionelle. L’usage de champs réceptifs locaux ainsi que le regroupement d’unités cachées en couches partageant les même paramètres, réduit considérablement le nombre de paramètres à apprendre et engendre des détecteurs de caractéristiques locaux et équivariant aux translations. Ceci mène à des modèles ayant une meilleure vraisemblance, comparativement aux RBMs entraînées sur des segments d’images. Le deuxième article est motivé par des découvertes récentes en neurosciences. Il analyse l’impact d’unités quadratiques sur des tâches de classification visuelles, ainsi que celui d’une nouvelle fonction d’activation. Nous observons que les RNAs à base d’unités quadratiques utilisant la fonction softsign, donnent de meilleures performances de généralisation. Le dernière article quand à lui, offre une vision critique des algorithmes populaires d’entraînement de RBMs. Nous montrons que l’algorithme de Divergence Contrastive (CD) et la CD Persistente ne sont pas robustes : tous deux nécessitent une surface d’énergie relativement plate afin que leur chaîne négative puisse mixer. La PCD à "poids rapides" contourne ce problème en perturbant légèrement le modèle, cependant, ceci génère des échantillons bruités. L’usage de chaînes tempérées dans la phase négative est une façon robuste d’adresser ces problèmes et mène à de meilleurs modèles génératifs.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Cette thèse s'intéresse à des aspects du tournage, de la projection et de la perception du cinéma stéréo panoramique, appelé aussi cinéma omnistéréo. Elle s'inscrit en grande partie dans le domaine de la vision par ordinateur, mais elle touche aussi aux domaines de l'infographie et de la perception visuelle humaine. Le cinéma omnistéréo projette sur des écrans immersifs des vidéos qui fournissent de l'information sur la profondeur de la scène tout autour des spectateurs. Ce type de cinéma comporte des défis liés notamment au tournage de vidéos omnistéréo de scènes dynamiques, à la projection polarisée sur écrans très réfléchissants rendant difficile l'estimation de leur forme par reconstruction active, aux distorsions introduites par l'omnistéréo pouvant fausser la perception des profondeurs de la scène. Notre thèse a tenté de relever ces défis en apportant trois contributions majeures. Premièrement, nous avons développé la toute première méthode de création de vidéos omnistéréo par assemblage d'images pour des mouvements stochastiques et localisés. Nous avons mis au point une expérience psychophysique qui montre l'efficacité de la méthode pour des scènes sans structure isolée, comme des courants d'eau. Nous proposons aussi une méthode de tournage qui ajoute à ces vidéos des mouvements moins contraints, comme ceux d'acteurs. Deuxièmement, nous avons introduit de nouveaux motifs lumineux qui permettent à une caméra et un projecteur de retrouver la forme d'objets susceptibles de produire des interréflexions. Ces motifs sont assez généraux pour reconstruire non seulement les écrans omnistéréo, mais aussi des objets très complexes qui comportent des discontinuités de profondeur du point de vue de la caméra. Troisièmement, nous avons montré que les distorsions omnistéréo sont négligeables pour un spectateur placé au centre d'un écran cylindrique, puisqu'elles se situent à la périphérie du champ visuel où l'acuité devient moins précise.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

En observant le foisonnement de métaphores de la lumière et de la vision dans l’œuvre de Reinaldo Arenas – l’accentuation de la couleur, l’éblouissement, la brûlure et le dédoublement – cette thèse s’interroge sur la vision de l’écriture formulée dans et à partir de ces images, et sur les implications de cette vision. Constatant à travers cette réflexion l’inscription à même le langage des images de la lumière et de la vision – de la réflexion à la clarté, en passant par l’image et la lucidité – cette thèse délibère, à travers l’œuvre de Reinaldo Arenas et celle de Jorge Luis Borges, sur une définition de l’écriture comme intensité, notion et image empruntées au registre du sensible par le détour de la physique. Le premier chapitre s’intéresse à la couleur comme phénomène de la vision, du sensible, de l’affect et de la nuance, ainsi qu’à la métaphore de la cécité abordée par Borges et par Paul de Man comme phénomène de la lecture, points d’entrée à une réflexion sur l’écriture. Le second chapitre aborde la notion d’éblouissement en tant qu’intensité de la lumière et temporalité de la prise de conscience lucide, définissant ainsi une vision du temps et les affinités entre la temporalité de l’écriture et celle de l’image poétique. Le troisième chapitre, réitérant la question de la relation au temps – historique et narratif –, réaffirme les inflexions du langage en fonction de la lumière, c’est-à-dire la relation entre l’aspect « lumineux » du langage, l’intensité de la lumière et l’intensité de l’écriture (entendue comme écriture littéraire), en explorant le seuil (la destruction par le feu) mis en lumière par l’image du phénix, figure mythique et littéraire de la transformation des images, selon la définition de l’imagination proposée par Gaston Bachelard. Enfin, la double conclusion (une conclusion en deux parties, ou deux conclusions réfléchies l’une dans l’autre), relie les images poétiques de la lumière évoquées et leurs implications en examinant la portée d’une vision de l’écriture comme intensité. Cette idée est élaborée à travers l’image finale du double, figure littéraire constitutive et omniprésente à la fois chez Arenas et chez Borges, image non seulement de la relation entre le personnage et son double (qui relève de l’hallucination ou de l’imagination, images, encore une fois, de la vision), mais aussi de la relation entre l’auteur et le texte, le lecteur et le texte, l’écriture et le temps. La double conclusion vise le dédoublement et redoublement comme figures de l’intensité dans l’écriture. Le lien entre la vision métaphorique et l’écriture comme intensité est donc articulé par la métaphore, telle qu’entendue par Borges, élargie à l’image poétique dans la perspective de Gaston Bachelard ; elle s’appuie sur la vision de la littérature pensée et écrite par Arenas. La réflexion est double : dans le texte et sur le texte, au plan poétique et au plan d’une réflexion sur l’écriture d’Arenas ; sur l’écriture et, implicitement, sur la littérature.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Les buts des recherches présentées dans cette thèse étaient d’évaluer le rôle de la stéréoscopie dans la reconnaissance de forme, dans la perception du relief et dans la constance de forme. La première étude a examiné le rôle de la stéréoscopie dans la perception des formes visuelles en utilisant une tâche de reconnaissance de formes. Les stimuli pouvaient être présentés en 2D, avec disparité normale (3D) ou avec disparité inversée. La performance de reconnaissance était meilleure avec les modes de présentation 2D et 3D qu’avec la 3D inversée. Cela indique que la stéréoscopie contribue à la reconnaissance de forme. La deuxième étude s’est intéressée à la contribution conjointe de l’ombrage et de la stéréoscopie dans la perception du relief des formes. Les stimuli étaient des images d’une forme 3D convexe synthétique présentée sous un point de vue menant à une ambigüité quant à sa convexité. L’illumination pouvait provenir du haut ou du bas et de la gauche ou de la droite, et les stimuli étaient présentés dichoptiquement avec soit de la disparité binoculaire normale, de la disparité inversée ou sans disparité entre les vues. Les participants ont répondu que les formes étaient convexes plus souvent lorsque la lumière provenait du haut que du bas, plus souvent avec la disparité normale qu’en 2D, et plus souvent avec absence de disparité qu’avec disparité inversée. Les effets de direction d’illumination et du mode de présentation étaient additifs, c’est-à-dire qu’ils n’interagissaient pas. Cela indique que l’ombrage et la stéréoscopie contribuent indépendamment à la perception du relief des formes. La troisième étude a évalué la contribution de la stéréoscopie à la constance de forme, et son interaction avec l’expertise perceptuelle. Elle a utilisé trois tâches de discrimination séquentielle de trombones tordus ayant subi des rotations en profondeur. Les stimuli pouvaient être présentés sans stéréoscopie, avec stéréoscopie normale ou avec stéréoscopie inversée. Dans la première moitié de l’Exp. 1, dans laquelle les variations du mode de présentation étaient intra-sujets, les performances étaient meilleures en 3D qu’en 2D et qu’en 3D inversée. Ces effets ont été renversés dans la seconde moitié de l’expérience, et les coûts de rotation sont devenus plus faibles pour la 2D et la 3D inversée que pour la 3D. Dans les Exps. 2 (variations intra-sujets du mode de présentation, avec un changement de stimuli au milieu de l’expérience) et 3 (variations inter-sujets du mode de présentation), les effets de rotation étaient en tout temps plus faibles avec stéréoscopie qu’avec stéréoscopie inversée et qu’en 2D, et plus faibles avec stéréoscopie inversée que sans stéréoscopie. Ces résultats indiquent que la stéréoscopie contribue à la constance de forme. Toutefois, cela demande qu’elle soit valide avec un niveau minimal de consistance, sinon elle devient stratégiquement ignorée. En bref, les trois études présentées dans cette thèse ont permis de montrer que la stéréoscopie contribue à la reconnaissance de forme, à la perception du relief et à la constance de forme. De plus, l’ombrage et la stéréoscopie sont intégrés linéairement.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

We describe a method for modeling object classes (such as faces) using 2D example images and an algorithm for matching a model to a novel image. The object class models are "learned'' from example images that we call prototypes. In addition to the images, the pixelwise correspondences between a reference prototype and each of the other prototypes must also be provided. Thus a model consists of a linear combination of prototypical shapes and textures. A stochastic gradient descent algorithm is used to match a model to a novel image by minimizing the error between the model and the novel image. Example models are shown as well as example matches to novel images. The robustness of the matching algorithm is also evaluated. The technique can be used for a number of applications including the computation of correspondence between novel images of a certain known class, object recognition, image synthesis and image compression.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

We describe a technique for finding pixelwise correspondences between two images by using models of objects of the same class to guide the search. The object models are 'learned' from example images (also called prototypes) of an object class. The models consist of a linear combination ofsprototypes. The flow fields giving pixelwise correspondences between a base prototype and each of the other prototypes must be given. A novel image of an object of the same class is matched to a model by minimizing an error between the novel image and the current guess for the closest modelsimage. Currently, the algorithm applies to line drawings of objects. An extension to real grey level images is discussed.