11 resultados para Human vision system

em Université de Montréal, Canada


Relevância:

90.00% 90.00%

Publicador:

Resumo:

Cette thèse s'intéresse à des aspects du tournage, de la projection et de la perception du cinéma stéréo panoramique, appelé aussi cinéma omnistéréo. Elle s'inscrit en grande partie dans le domaine de la vision par ordinateur, mais elle touche aussi aux domaines de l'infographie et de la perception visuelle humaine. Le cinéma omnistéréo projette sur des écrans immersifs des vidéos qui fournissent de l'information sur la profondeur de la scène tout autour des spectateurs. Ce type de cinéma comporte des défis liés notamment au tournage de vidéos omnistéréo de scènes dynamiques, à la projection polarisée sur écrans très réfléchissants rendant difficile l'estimation de leur forme par reconstruction active, aux distorsions introduites par l'omnistéréo pouvant fausser la perception des profondeurs de la scène. Notre thèse a tenté de relever ces défis en apportant trois contributions majeures. Premièrement, nous avons développé la toute première méthode de création de vidéos omnistéréo par assemblage d'images pour des mouvements stochastiques et localisés. Nous avons mis au point une expérience psychophysique qui montre l'efficacité de la méthode pour des scènes sans structure isolée, comme des courants d'eau. Nous proposons aussi une méthode de tournage qui ajoute à ces vidéos des mouvements moins contraints, comme ceux d'acteurs. Deuxièmement, nous avons introduit de nouveaux motifs lumineux qui permettent à une caméra et un projecteur de retrouver la forme d'objets susceptibles de produire des interréflexions. Ces motifs sont assez généraux pour reconstruire non seulement les écrans omnistéréo, mais aussi des objets très complexes qui comportent des discontinuités de profondeur du point de vue de la caméra. Troisièmement, nous avons montré que les distorsions omnistéréo sont négligeables pour un spectateur placé au centre d'un écran cylindrique, puisqu'elles se situent à la périphérie du champ visuel où l'acuité devient moins précise.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Ce mémoire s'intéresse à la détection de mouvement dans une séquence d'images acquises à l'aide d'une caméra fixe. Dans ce problème, la difficulté vient du fait que les mouvements récurrents ou non significatifs de la scène tels que les oscillations d'une branche, l'ombre d'un objet ou les remous d'une surface d'eau doivent être ignorés et classés comme appartenant aux régions statiques de la scène. La plupart des méthodes de détection de mouvement utilisées à ce jour reposent en fait sur le principe bas-niveau de la modélisation puis la soustraction de l'arrière-plan. Ces méthodes sont simples et rapides mais aussi limitées dans les cas où l'arrière-plan est complexe ou bruité (neige, pluie, ombres, etc.). Cette recherche consiste à proposer une technique d'amélioration de ces algorithmes dont l'idée principale est d'exploiter et mimer deux caractéristiques essentielles du système de vision humain. Pour assurer une vision nette de l’objet (qu’il soit fixe ou mobile) puis l'analyser et l'identifier, l'œil ne parcourt pas la scène de façon continue, mais opère par une série de ``balayages'' ou de saccades autour (des points caractéristiques) de l'objet en question. Pour chaque fixation pendant laquelle l'œil reste relativement immobile, l'image est projetée au niveau de la rétine puis interprétée en coordonnées log polaires dont le centre est l'endroit fixé par l'oeil. Les traitements bas-niveau de détection de mouvement doivent donc s'opérer sur cette image transformée qui est centrée pour un point (de vue) particulier de la scène. L'étape suivante (intégration trans-saccadique du Système Visuel Humain (SVH)) consiste ensuite à combiner ces détections de mouvement obtenues pour les différents centres de cette transformée pour fusionner les différentes interprétations visuelles obtenues selon ses différents points de vue.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Le développement du logiciel actuel doit faire face de plus en plus à la complexité de programmes gigantesques, élaborés et maintenus par de grandes équipes réparties dans divers lieux. Dans ses tâches régulières, chaque intervenant peut avoir à répondre à des questions variées en tirant des informations de sources diverses. Pour améliorer le rendement global du développement, nous proposons d'intégrer dans un IDE populaire (Eclipse) notre nouvel outil de visualisation (VERSO) qui calcule, organise, affiche et permet de naviguer dans les informations de façon cohérente, efficace et intuitive, afin de bénéficier du système visuel humain dans l'exploration de données variées. Nous proposons une structuration des informations selon trois axes : (1) le contexte (qualité, contrôle de version, bogues, etc.) détermine le type des informations ; (2) le niveau de granularité (ligne de code, méthode, classe, paquetage) dérive les informations au niveau de détails adéquat ; et (3) l'évolution extrait les informations de la version du logiciel désirée. Chaque vue du logiciel correspond à une coordonnée discrète selon ces trois axes, et nous portons une attention toute particulière à la cohérence en naviguant entre des vues adjacentes seulement, et ce, afin de diminuer la charge cognitive de recherches pour répondre aux questions des utilisateurs. Deux expériences valident l'intérêt de notre approche intégrée dans des tâches représentatives. Elles permettent de croire qu'un accès à diverses informations présentées de façon graphique et cohérente devrait grandement aider le développement du logiciel contemporain.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La voix est un stimulus auditif omniprésent dans notre environnement sonore. Elle permet non seulement la parole, mais serait aussi l’équivalent d’un visage auditif transmettant notamment des informations identitaires et affectives importantes. Notre capacité à discriminer et reconnaître des voix est socialement et biologiquement importante et elle figure parmi les fonctions les plus importantes du système auditif humain. La présente thèse s’intéressait à l’ontogénèse et à la spécificité de la réponse corticale à la voix humaine et avait pour but trois objectifs : (1) mettre sur pied un protocole électrophysiologique permettant de mesurer objectivement le traitement de la familiarité de la voix chez le sujet adulte; (2) déterminer si ce même protocole pouvait aussi objectiver chez le nouveau-né de 24 heures un traitement préférentiel d’une voix familière, notamment la voix de la mère; et (3) mettre à l’épreuve la robustesse d’une mesure électrophysiologique, notamment la Fronto-Temporal Positivity to Voices, s’intéressant à la discrimination pré-attentionnelle entre des stimuli vocaux et non-vocaux. Les résultats découlant des trois études expérimentales qui composent cette thèse ont permis (1) d’identifier des composantes électrophysiologiques (Mismatch Negativity et P3a) sensibles au traitement de la familiarité d’une voix; (2) de mettre en lumière un patron d’activation corticale singulier à la voix de la mère chez le nouveau-né, fournissant le premier indice neurophysiologique de l’acquisition du langage, processus particulièrement lié à l’interaction mère-enfant; et (3) de confirmer l’aspect pré-attentionnel de la distinction entre une voix et un stimulus non-vocal tout en accentuant la sélectivité et la sensibilité de la réponse corticale réservée au traitement de la voix.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

80.00% 80.00%

Publicador:

Resumo:

La capacité du système visuel humain à compléter une image partiellement dévoilée et à en dériver une forme globale à partir de ses fragments visibles incomplets est un phénomène qui suscite, jusqu’à nos jours, l’intérêt de nombreux scientifiques œuvrant dans différents milieux de recherche tels que l’informatique, l’ingénierie en intelligence artificielle, la perception et les neurosciences. Dans le cadre de la présente thèse, nous nous sommes intéressés spécifiquement sur les substrats neuronaux associés à ce phénomène de clôture perceptive. La thèse actuelle a donc pour objectif général d’explorer le décours spatio-temporel des corrélats neuronaux associés à la clôture perceptive au cours d’une tâche d’identification d’objets. Dans un premier temps, le premier article visera à caractériser la signature électrophysiologique liée à la clôture perceptive chez des personnes à développement typique dans le but de déterminer si les processus de clôture perceptive reflèteraient l’interaction itérative entre les mécanismes de bas et de haut-niveau et si ceux-ci seraient sollicités à une étape précoce ou tardive lors du traitement visuel de l’information. Dans un deuxième temps, le second article a pour objectif d’explorer le décours spatio-temporel des mécanismes neuronaux sous-tendant la clôture perceptive dans le but de déterminer si les processus de clôture perceptive des personnes présentant un trouble autistique se caractérisent par une signature idiosyncrasique des changements d’amplitude des potentiels évoqués (PÉs). En d’autres termes, nous cherchons à déterminer si la clôture perceptive en autisme est atypique et nécessiterait davantage la contribution des mécanismes de bas-niveau et/ou de haut-niveau. Les résultats du premier article indiquent que le phénomène de clôture perceptive est associé temporellement à l’occurrence de la composante de PÉs N80 et P160 tel que révélé par des différences significatives claires entre des objets et des versions méconnaissables brouillées. Nous proposons enfin que la clôture perceptive s’avère un processus de transition reflétant les interactions proactives entre les mécanismes neuronaux œuvrant à apparier l’input sensoriel fragmenté à une représentation d’objets en mémoire plausible. Les résultats du second article révèlent des effets précoces de fragmentation et d’identification obtenus au niveau de composantes de potentiels évoqués N80 et P160 et ce, en toute absence d’effets au niveau des composantes tardives pour les individus avec autisme de haut niveau et avec syndrome d’Asperger. Pour ces deux groupes du trouble du spectre autistique, les données électrophysiologiques suggèrent qu’il n’y aurait pas de pré-activation graduelle de l’activité des régions corticales, entre autres frontales, aux moments précédant et menant vers l’identification d’objets fragmentés. Pour les participants autistes et avec syndrome d’Asperger, les analyses statistiques démontrent d’ailleurs une plus importante activation au niveau des régions postérieures alors que les individus à développement typique démontrent une activation plus élevée au niveau antérieur. Ces résultats pourraient suggérer que les personnes du spectre autistique se fient davantage aux processus perceptifs de bas-niveau pour parvenir à compléter les images d’objets fragmentés. Ainsi, lorsque confrontés aux images d’objets partiellement visibles pouvant sembler ambiguës, les individus avec autisme pourraient démontrer plus de difficultés à générer de multiples prédictions au sujet de l’identité d’un objet qu’ils perçoivent. Les implications théoriques et cliniques, les limites et perspectives futures de ces résultats sont discutées.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Pouvoir déterminer la provenance des sons est fondamental pour bien interagir avec notre environnement. La localisation auditive est une faculté importante et complexe du système auditif humain. Le cerveau doit décoder le signal acoustique pour en extraire les indices qui lui permettent de localiser une source sonore. Ces indices de localisation auditive dépendent en partie de propriétés morphologiques et environnementales qui ne peuvent être anticipées par l'encodage génétique. Le traitement de ces indices doit donc être ajusté par l'expérience durant la période de développement. À l’âge adulte, la plasticité en localisation auditive existe encore. Cette plasticité a été étudiée au niveau comportemental, mais on ne connaît que très peu ses corrélats et mécanismes neuronaux. La présente recherche avait pour objectif d'examiner cette plasticité, ainsi que les mécanismes d'encodage des indices de localisation auditive, tant sur le plan comportemental, qu'à travers les corrélats neuronaux du comportement observé. Dans les deux premières études, nous avons imposé un décalage perceptif de l’espace auditif horizontal à l’aide de bouchons d’oreille numériques. Nous avons montré que de jeunes adultes peuvent rapidement s’adapter à un décalage perceptif important. Au moyen de l’IRM fonctionnelle haute résolution, nous avons observé des changements de l’activité corticale auditive accompagnant cette adaptation, en termes de latéralisation hémisphérique. Nous avons également pu confirmer l’hypothèse de codage par hémichamp comme représentation de l'espace auditif horizontal. Dans une troisième étude, nous avons modifié l’indice auditif le plus important pour la perception de l’espace vertical à l’aide de moulages en silicone. Nous avons montré que l’adaptation à cette modification n’était suivie d’aucun effet consécutif au retrait des moulages, même lors de la toute première présentation d’un stimulus sonore. Ce résultat concorde avec l’hypothèse d’un mécanisme dit de many-to-one mapping, à travers lequel plusieurs profils spectraux peuvent être associés à une même position spatiale. Dans une quatrième étude, au moyen de l’IRM fonctionnelle et en tirant profit de l’adaptation aux moulages de silicone, nous avons révélé l’encodage de l’élévation sonore dans le cortex auditif humain.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

La thèse examine les liens entre la vision pluraliste de la science et l’éthique de la médecine tibétaine et les nouvelles pratiques en médecine occidentale, soit la longévité et la recherche sur la génétique amélioratrice. Elle cherche à cerner l’apport que la médecine tibétaine peut apporter aux recherches occidentales sur la longévité et la génétique humaine amélioratrice. Elle traite donc d’un enjeu social clé et du débat qui s’y rattache. La découverte et la description sont centrales à la méthodologie et informent l’analyse. Nous avons examiné dans un premier temps, les travaux de recherche sur la longévité reliée à la génétique amélioratrice (mémoire et muscles). Nous nous sommes penchés également sur les fondements de la médecine tibétaine en tant que système intégré. Pour ce faire, nous avons traité des notions telles que la santé, l’identité, la perfection et l’immortalité. Notre cadre conceptuel repose sur la théorie bouddhiste de l’interdépendance qui se caractérise par la formulation de catégories qui ensuite sont synthétisées dans l’essence; les deux niveaux d’interprétation de la théorie sont décrits en détail avant de passer à une comparaison avec la notion de complexité occidentale. La médecine tibétaine de fait présente un système où l’éthique et la science sont intégrées et se prête bien à une comparaison avec la vision pluraliste de la science à partir d’une perspective éthique/bioéthique. Les commentaires recueillis auprès des experts nous ont permis de cerner comment la science, l’éthique et l’amélioration de la longévité sont définies au sein des deux paradigmes de l’Est et de l’Ouest. Nos résultats montrent six points qui se dégagent au terme de cette recherche permettent de jeter un pont sur la vision pluraliste de ces paradigmes. Ceux-ci transcendent les points de vue doctrinaux individuels de religions ainsi que du monde scientifique occidental. Plus que tout, ils laissent entrevoir un cadre de références novatrices qui contribuera à la prise de décision à l’égard de questionnements bioéthiques.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

Alors que l’Imagerie par résonance magnétique (IRM) permet d’obtenir un large éventail de données anatomiques et fonctionnelles, les scanneurs cliniques sont généralement restreints à l’utilisation du proton pour leurs images et leurs applications spectroscopiques. Le phosphore jouant un rôle prépondérant dans le métabolisme énergétique, l’utilisation de cet atome en spectroscopie RM présente un énorme avantage dans l’observation du corps humain. Cela représente un certain nombre de déEis techniques à relever dus à la faible concentration de phosphore et sa fréquence de résonance différente. L’objectif de ce projet a été de développer la capacité à réaliser des expériences de spectroscopie phosphore sur un scanneur IRM clinique de 3 Tesla. Nous présentons ici les différentes étapes nécessaires à la conception et la validation d’une antenne IRM syntonisée à la fréquence du phosphore. Nous présentons aussi l’information relative à réalisation de fantômes utilisés dans les tests de validation et la calibration. Finalement, nous présentons les résultats préliminaires d’acquisitions spectroscopiques sur un muscle humain permettant d’identiEier les différents métabolites phosphorylés à haute énergie. Ces résultats s’inscrivent dans un projet de plus grande envergure où les impacts des changements du métabolisme énergétique sont étudiés en relation avec l’âge et les pathologies.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.