43 resultados para visual object categorization
Resumo:
Les cortices sensoriels sont des régions cérébrales essentielles pour la perception. En particulier, le cortex visuel traite l’information visuelle en provenance de la rétine qui transite par le thalamus. Les neurones sont les unités fonctionnelles qui transforment l'information sensorielle en signaux électriques, la transfèrent vers le cortex et l'intègrent. Les neurones du cortex visuel sont spécialisés et analysent différents aspects des stimuli visuels. La force des connections entre les neurones peut être modulée par la persistance de l'activité pré-synaptique et induit une augmentation ou une diminution du signal post-synaptique à long terme. Ces modifications de la connectivité synaptique peuvent induire la réorganisation de la carte corticale, c’est à dire la représentation de ce stimulus et la puissance de son traitement cortical. Cette réorganisation est connue sous le nom de plasticité corticale. Elle est particulièrement active durant la période de développement, mais elle s’observe aussi chez l’adulte, par exemple durant l’apprentissage. Le neurotransmetteur acétylcholine (ACh) est impliqué dans de nombreuses fonctions cognitives telles que l’apprentissage ou l’attention et il est important pour la plasticité corticale. En particulier, les récepteurs nicotiniques et muscariniques du sous-type M1 et M2 sont les récepteurs cholinergiques impliqués dans l’induction de la plasticité corticale. L’objectif principal de la présente thèse est de déterminer les mécanismes de plasticité corticale induits par la stimulation du système cholinergique au niveau du télencéphale basal et de définir les effets sur l’amélioration de la perception sensorielle. Afin d’induire la plasticité corticale, j’ai jumelé des stimulations visuelles à des injections intracorticales d’agoniste cholinergique (carbachol) ou à une stimulation du télencéphale basal (neurones cholinergiques qui innervent le cortex visuel primaire). J'ai analysé les potentiels évoqués visuels (PEVs) dans le cortex visuel primaire des rats pendant 4 à 8 heures après le couplage. Afin de préciser l’action de l’ACh sur l’activité des PEVs dans V1, j’ai injecté individuellement l’antagoniste des récepteurs muscariniques, nicotiniques, α7 ou NMDA avant l’infusion de carbachol. La stimulation du système cholinergique jumelée avec une stimulation visuelle augmente l’amplitude des PEVs durant plus de 8h. Le blocage des récepteurs muscarinique, nicotinique et NMDA abolit complètement cette amélioration, tandis que l’inhibition des récepteurs α7 a induit une augmentation instantanée des PEVs. Ces résultats suggèrent que l'ACh facilite à long terme la réponse aux stimuli visuels et que cette facilitation implique les récepteurs nicotiniques, muscariniques et une interaction avec les récepteur NMDA dans le cortex visuel. Ces mécanismes sont semblables à la potentiation à long-terme, évènement physiologique lié à l’apprentissage. L’étape suivante était d’évaluer si l’effet de l’amplification cholinergique de l’entrée de l’information visuelle résultait non seulement en une modification de l’activité corticale mais aussi de la perception visuelle. J’ai donc mesuré l’amélioration de l’acuité visuelle de rats adultes éveillés exposés durant 10 minutes par jour pendant deux semaines à un stimulus visuel de type «réseau sinusoïdal» couplé à une stimulation électrique du télencéphale basal. L’acuité visuelle a été mesurée avant et après le couplage des stimulations visuelle et cholinergique à l’aide d’une tâche de discrimination visuelle. L’acuité visuelle du rat pour le stimulus d’entrainement a été augmentée après la période d’entrainement. L’augmentation de l’acuité visuelle n’a pas été observée lorsque la stimulation visuelle seule ou celle du télencéphale basal seul, ni lorsque les fibres cholinergiques ont été lésées avant la stimulation visuelle. Une augmentation à long terme de la réactivité corticale du cortex visuel primaire des neurones pyramidaux et des interneurones GABAergiques a été montrée par l’immunoréactivité au c-Fos. Ainsi, lorsque couplé à un entrainement visuel, le système cholinergique améliore les performances visuelles pour l’orientation et ce probablement par l’optimisation du processus d’attention et de plasticité corticale dans l’aire V1. Afin d’étudier les mécanismes pharmacologiques impliqués dans l’amélioration de la perception visuelle, j’ai comparé les PEVs avant et après le couplage de la stimulation visuelle/cholinergique en présence d’agonistes/antagonistes sélectifs. Les injections intracorticales des différents agents pharmacologiques pendant le couplage ont montré que les récepteurs nicotiniques et M1 muscariniques amplifient la réponse corticale tandis que les récepteurs M2 muscariniques inhibent les neurones GABAergiques induisant un effet excitateur. L’infusion d’antagoniste du GABA corrobore l’hypothèse que le système inhibiteur est essentiel pour induire la plasticité corticale. Ces résultats démontrent que l’entrainement visuel jumelé avec la stimulation cholinergique améliore la plasticité corticale et qu’elle est contrôlée par les récepteurs nicotinique et muscariniques M1 et M2. Mes résultats suggèrent que le système cholinergique est un système neuromodulateur qui peut améliorer la perception sensorielle lors d’un apprentissage perceptuel. Les mécanismes d’amélioration perceptuelle induits par l’acétylcholine sont liés aux processus d’attention, de potentialisation à long-terme et de modulation de la balance d’influx excitateur/inhibiteur. En particulier, le couplage de l’activité cholinergique avec une stimulation visuelle augmente le ratio de signal / bruit et ainsi la détection de cibles. L’augmentation de la concentration cholinergique corticale potentialise l’afférence thalamocorticale, ce qui facilite le traitement d’un nouveau stimulus et diminue la signalisation cortico-corticale minimisant ainsi la modulation latérale. Ceci est contrôlé par différents sous-types de récepteurs cholinergiques situés sur les neurones GABAergiques ou glutamatergiques des différentes couches corticales. La présente thèse montre qu’une stimulation électrique dans le télencéphale basal a un effet similaire à l’infusion d’agoniste cholinergique et qu’un couplage de stimulations visuelle et cholinergique induit la plasticité corticale. Ce jumelage répété de stimulations visuelle/cholinergique augmente la capacité de discrimination visuelle et améliore la perception. Cette amélioration est corrélée à une amplification de l’activité neuronale démontrée par immunocytochimie du c-Fos. L’immunocytochimie montre aussi une différence entre l’activité des neurones glutamatergiques et GABAergiques dans les différentes couches corticales. L’injection pharmacologique pendant la stimulation visuelle/cholinergique suggère que les récepteurs nicotiniques, muscariniques M1 peuvent amplifier la réponse excitatrice tandis que les récepteurs M2 contrôlent l’activation GABAergique. Ainsi, le système cholinergique activé au cours du processus visuel induit des mécanismes de plasticité corticale et peut ainsi améliorer la capacité perceptive. De meilleures connaissances sur ces actions ouvrent la possibilité d’accélérer la restauration des fonctions visuelles lors d’un déficit ou d’amplifier la fonction cognitive.
Resumo:
L’objectif de cette recherche est la création d’une plateforme en ligne qui permettrait d’examiner les différences individuelles de stratégies de traitement de l’information visuelle dans différentes tâches de catégorisation des visages. Le but d’une telle plateforme est de récolter des données de participants géographiquement dispersés et dont les habiletés en reconnaissance des visages sont variables. En effet, de nombreuses études ont montré qu’il existe de grande variabilité dans le spectre des habiletés à reconnaître les visages, allant de la prosopagnosie développementale (Susilo & Duchaine, 2013), un trouble de reconnaissance des visages en l’absence de lésion cérébrale, aux super-recognizers, des individus dont les habiletés en reconnaissance des visages sont au-dessus de la moyenne (Russell, Duchaine & Nakayama, 2009). Entre ces deux extrêmes, les habiletés en reconnaissance des visages dans la population normale varient. Afin de démontrer la faisabilité de la création d’une telle plateforme pour des individus d’habiletés très variables, nous avons adapté une tâche de reconnaissance de l’identité des visages de célébrités utilisant la méthode Bubbles (Gosselin & Schyns, 2001) et avons recruté 14 sujets contrôles et un sujet présentant une prosopagnosie développementale. Nous avons pu mettre en évidence l’importance des yeux et de la bouche dans l’identification des visages chez les sujets « normaux ». Les meilleurs participants semblent, au contraire, utiliser majoritairement le côté gauche du visage (l’œil gauche et le côté gauche de la bouche).
Resumo:
We study the problem of assigning indivisible and heterogenous objects (e.g., houses, jobs, offices, school or university admissions etc.) to agents. Each agent receives at most one object and monetary compensations are not possible. We consider mechanisms satisfying a set of basic properties (unavailable-type-invariance, individual-rationality, weak non-wastefulness, or truncation-invariance). In the house allocation problem, where at most one copy of each object is available, deferred-acceptance (DA)-mechanisms allocate objects based on exogenously fixed objects' priorities over agents and the agent-proposing deferred-acceptance-algorithm. For house allocation we show that DA-mechanisms are characterized by our basic properties and (i) strategy-proofness and population-monotonicity or (ii) strategy-proofness and resource-monotonicity. Once we allow for multiple identical copies of objects, on the one hand the first characterization breaks down and there are unstable mechanisms satisfying our basic properties and (i) strategy-proofness and population-monotonicity. On the other hand, our basic properties and (ii) strategy-proofness and resource-monotonicity characterize (the most general) class of DA-mechanisms based on objects' fixed choice functions that are acceptant, monotonic, substitutable, and consistent. These choice functions are used by objects to reject agents in the agent-proposing deferred-acceptance-algorithm. Therefore, in the general model resource-monotonicity is the «stronger» comparative statics requirement because it characterizes (together with our basic requirements and strategy-proofness) choice-based DA-mechanisms whereas population-monotonicity (together with our basic properties and strategy-proofness) does not.
Resumo:
La présente thèse avait pour mandat d’examiner la question suivante : quels sont les indices visuels utilisés pour catégoriser le sexe d’un visage et comment sont-ils traités par le cerveau humain? La plupart des études examinant l’importance de certaines régions faciales pour la catégorisation du sexe des visages présentaient des limites quant à leur validité externe. L’article 1 visait à investiguer l’utilisation des indices achromatiques et chromatiques (sur l’axe xy) dans un contexte de plus grande validité externe. Pour ce faire, nous avons utilisé la technique Bubbles afin d’échantillonner l’espace xy de visages en couleurs n’ayant subi aucune transformation. Afin d’éviter les problèmes liés à la grande répétition des mêmes visages, nous avons utilisé un grand nombre de visages (c.-à-d. 300 visages caucasiens d’hommes et de femmes) et chaque visage n’a été présenté qu’une seule fois à chacun des 30 participants. Les résultats indiquent que la région des yeux et des sourcils—probablement dans le canal blanc-noir—est l’indice le plus important pour discriminer correctement le genre des visages; et que la région de la bouche—probablement dans le canal rouge-vert—est l’indice le plus important pour discriminer rapidement et correctement le genre des visages. Plusieurs études suggèrent qu’un indice facial que nous n’avons pas étudié dans l’article 1—les distances interattributs—est crucial à la catégorisation du sexe. L’étude de Taschereau et al. (2010) présente toutefois des données allant à l’encontre de cette hypothèse : les performances d’identification des visages étaient beaucoup plus faibles lorsque seules les distances interattributs réalistes étaient disponibles que lorsque toutes les autres informations faciales à l’exception des distances interattributs réalistes étaient disponibles. Quoi qu’il en soit, il est possible que la faible performance observée dans la condition où seules les distances interattributs étaient disponibles soit explicable non par une incapacité d’utiliser ces indices efficacement, mais plutôt par le peu d’information contenue dans ces indices. L’article 2 avait donc comme objectif principal d’évaluer l’efficacité—une mesure de performance qui compense pour la faiblesse de l’information disponible—des distances interattributs réalistes pour la catégorisation du sexe des visages chez 60 participants. Afin de maximiser la validité externe, les distances interattributs manipulées respectaient la distribution et la matrice de covariance observées dans un large échantillon de visages (N=515). Les résultats indiquent que les efficacités associées aux visages ne possédant que de l’information au niveau des distances interattributs sont un ordre de magnitude plus faibles que celles associées aux visages possédant toute l’information que possèdent normalement les visages sauf les distances interattributs et donnent le coup de grâce à l’hypothèse selon laquelle les distances interattributs seraient cuciale à la discrimination du sexe des visages. L’article 3 avait pour objectif principal de tester l’hypothèse formulée à la fin de l’article 1 suivant laquelle l’information chromatique dans la région de la bouche serait extraite très rapidement par le système visuel lors de la discrimination du sexe. Cent douze participants ont chacun complété 900 essais d’une tâche de discrimination du genre pendant laquelle l’information achromatique et chromatique des visages était échantillonnée spatiotemporellement avec la technique Bubbles. Les résultats d’une analyse présentée en Discussion seulement confirme l’utilisation rapide de l’information chromatique dans la région de la bouche. De plus, l’utilisation d’un échantillonnage spatiotemporel nous a permis de faire des analyses temps-fréquences desquelles a découlé une découverte intéressante quant aux mécanismes d’encodage des informations spatiales dans le temps. Il semblerait que l’information achromatique et chromatique à l’intérieur d’une même région faciale est échantillonnée à la même fréquence par le cerveau alors que les différentes parties du visage sont échantillonnées à des fréquences différentes (entre 6 et 10 Hz). Ce code fréquentiel est compatible avec certaines évidences électrophysiologiques récentes qui suggèrent que les parties de visages sont « multiplexées » par la fréquence d’oscillations transitoires synchronisées dans le cerveau.
Resumo:
Ce mémoire étudie les rapports texte/image dans Vues et visions de Claude Cahun, première œuvre composite créée en collaboration avec la peintre graphiste Marcel Moore. L’objet littéraire protéiforme, appartenant au genre de l’iconotexte (Alain Montandon), instaure un dialogue intermédial entre le textuel et le visuel au point de déconstruire l’horizon d’attente du lecteur : celui-ci est incité à lire et à voir alternativement les poèmes en prose ainsi que les dessins de sorte que les frontières qui définissent l’espace du littéral et du figural apparaissent poreuses. Subdivisé en deux chapitres, notre travail s’attachera dans un premier temps à mettre en lumière le rôle de l’écriture qui intègre certains dessins de Moore. En nous inspirant de l’iconolecture (Emmanuelle Pelard), nous tenterons d’effectuer des liens entre la plasticité et la signification littérale des signes linguistiques qu’illustrent ces images-textes tout en étudiant les correspondances thématiques et formelles qu’elles entretiennent avec les poèmes de Cahun. Le second chapitre étudiera la manière dont le figural investit le texte littéraire en adoptant une approche intermédiale. Après avoir abordé la figure du double, une partie de l’analyse sera consacrée à la figure de l’allusion, une stratégie d’écriture pour introduire le visuel au sein du textuel, ce qui nous permettra d’entrer en matière pour étudier « l’image-en-texte » (Liliane Louvel). Enfin, l’effet-tableau ainsi que l’anamorphose seront employés comme cadre d’analyse afin de penser le dialogue qui se noue entre le pictural et le texte littéraire dans Vues et visions.
Resumo:
Depuis la colonisation jusqu’aux plus récents conflits qui affectent le « Moyen-Orient », le visuel participe à la création d’une image raciale et sexuelle du monde musulman dans laquelle l’Orient « archaïque » est représenté comme l’opposé moral de l’Occident « moderne ». Ce discours nommé Orientalisme (Saïd 1994) transforme l’Orient en objet du savoir et du regard occidental (Nochlin 1989). La peinture, la photographie, et les expositions universelles sont autant de moyens qui permettent d’instaurer un point de vue privilégié de l’Occident sur l’Orient. Avec le Web 2.0 et les technologies mobiles, le partage d’images fait partie intégrale de notre quotidien et celles-ci nous proviennent de partout et de n’importe qui. En considérant que l’Orientalisme est indissociable des techniques modernes de représentation du monde (Mitchell 2013), le présent mémoire souhaite interroger l’impact de ces nouvelles technologies sur la production, la circulation et la réception des images du dit Orient. Nous concentrerons notre étude sur les images captées et partagées depuis les manifestations de la Révolution verte iranienne de juin 2009, entre autres la vidéo de l’assassinat de la jeune Neda Agha Soltan qui a fait la une des médias occidentaux. En prenant comme base les écrits d’Edward Saïd, que nous réviserons par le biais de lectures féministes, nous verrons que l’Orientalisme visuel mute au rythme des changements politiques, culturels et technologiques qu’il rencontre. En plus d’éclairer les images de notre corpus, la question féministe nous permettra d’élargir la définition et les mécanismes de l’Orientalisme proposés par Saïd. Nous démontrerons que tout en ayant le potentiel de bouleverser l’image que construit l’Occident de l’Orient, le Web 2.0 actualise aussi l’Orientalisme visuel sous de nouveaux modes de production du savoir.
Resumo:
Internet évolue avec la société et les nouvelles technologies, mais ses usages restent centrés sur le principe communicationnel de partager ses idées, ses histoires avec d’autres personnes. Comprendre les modes de communication des internautes offre des défis de taille aux chercheurs. Malgré une riche littérature sur les usages d’Internet, peu d’études se sont penchées sur l’analyse en profondeur des habitudes des internautes ordinaires. Cette thèse a pour objet d’étude le partage de contenus en ligne, car il s’agit d’une pratique permettant de réfléchir sur le rapport des usagers à la technologie. En m’inspirant des travaux d’Henri Lefebvre et de Michel de Certeau, je mobilise le concept de la vie quotidienne, concept qui met en lumière les processus à travers laquelle les gens font sens de leur vie. Afin de mieux saisir le quotidien, lequel est mobile, fluide et multiple, des métaphores spatiales tirées d’études des sciences, technologies et société (STS) seront mobilisées. Les concepts d’espace fluide et de feu sont idéaux pour étudier les pratiques de partage de vidéo que l’on peut qualifier de mutables et adaptables. Dans cette thèse, l’accent est mis sur les expériences subjectives des internautes ; ainsi, j’ai adopté une méthodologie qualitative pour recueillir les témoignages d’une dizaine de participants décrivant longuement leurs pratiques. En effet, j’ai rencontré chaque personne à plusieurs reprises et nous avons discuté d’exemples spécifiques. À travers les thèmes récurrents qui ont émergé des verbatims, et dans la tradition de la théorisation ancrée, la première partie de l’analyse fournit une riche description du quotidien des participants. J’explore en particulier la façon dont les internautes adaptent leur partage sur leurs expériences des sites de réseaux sociaux, comment la vidéo est utilisée dans le maintien de leurs relations sociales, et comment le partage des vidéos complémente leurs conversations. Sachant que les pratiques en ligne et hors ligne se fondent l’une dans l’autre, la deuxième partie de l’analyse articule la complexité de la vie quotidienne et la fluidité des pratiques de partage à l’aide du concept de l’objet fluide pour traiter des aspects complexes, dynamiques et souples des pratiques des internautes ordinaires. Cette recherche qualitative fournit un portrait de l’expérience humaine qui est autant détaillé que possible. Elle permet de souligner que c’est dans une variété contextes non remarquables – car faisant partie intégrante de la vie quotidienne – que les Internautes naviguent et que les activités humaines sont sans cesse construites et transformées, ouvrant des possibilités vers de nouvelles façons de faire et de penser. La thèse poursuit un dialogue interdisciplinaire entre la communication (les Internet Studies notamment) et les études des sciences, technologies et société (STS), tout en apportant de nombreuses données empiriques sur les pratiques des internautes « ordinaires ». De plus, la thèse offre des métaphores capables d’ouvrir de nouvelles perspectives pour l’analyse des usages du Web social. Elle apporte également une contribution originale en intégrant des approches théoriques des pratiques quotidiennes avec la théorisation ancrée. Tant les fondements conceptuels et des approches méthodologiques développées ici seront des exemples très utiles pour d’autres chercheurs intéressés à poursuivre la compréhension des pratiques quotidiennes impliquant l’Internet, surtout quand ces derniers impliquent le visuel, l’émotif et le relationnel.
Resumo:
Les ombres sont un élément important pour la compréhension d'une scène. Grâce à elles, il est possible de résoudre des situations autrement ambigües, notamment concernant les mouvements, ou encore les positions relatives des objets de la scène. Il y a principalement deux types d'ombres: des ombres dures, aux limites très nettes, qui résultent souvent de lumières ponctuelles ou directionnelles; et des ombres douces, plus floues, qui contribuent à l'atmosphère et à la qualité visuelle de la scène. Les ombres douces résultent de grandes sources de lumière, comme des cartes environnementales, et sont difficiles à échantillonner efficacement en temps réel. Lorsque l'interactivité est prioritaire sur la qualité, des méthodes d'approximation peuvent être utilisées pour améliorer le rendu d'une scène à moindre coût en temps de calcul. Nous calculons interactivement les ombres douces résultant de sources de lumière environnementales, pour des scènes composées d'objets en mouvement et d'un champ de hauteurs dynamique. Notre méthode enrichit la méthode d'exponentiation des harmoniques sphériques, jusque là limitée aux bloqueurs sphériques, pour pouvoir traiter des champs de hauteurs. Nous ajoutons également une représentation pour les BRDFs diffuses et glossy. Nous pouvons ainsi combiner les visibilités et BRDFs dans un même espace, afin de calculer efficacement les ombres douces et les réflexions de scènes complexes. Un algorithme hybride, qui associe les visibilités en espace écran et en espace objet, permet de découpler la complexité des ombres de la complexité de la scène.
Resumo:
Dans l'apprentissage machine, la classification est le processus d’assigner une nouvelle observation à une certaine catégorie. Les classifieurs qui mettent en œuvre des algorithmes de classification ont été largement étudié au cours des dernières décennies. Les classifieurs traditionnels sont basés sur des algorithmes tels que le SVM et les réseaux de neurones, et sont généralement exécutés par des logiciels sur CPUs qui fait que le système souffre d’un manque de performance et d’une forte consommation d'énergie. Bien que les GPUs puissent être utilisés pour accélérer le calcul de certains classifieurs, leur grande consommation de puissance empêche la technologie d'être mise en œuvre sur des appareils portables tels que les systèmes embarqués. Pour rendre le système de classification plus léger, les classifieurs devraient être capable de fonctionner sur un système matériel plus compact au lieu d'un groupe de CPUs ou GPUs, et les classifieurs eux-mêmes devraient être optimisés pour ce matériel. Dans ce mémoire, nous explorons la mise en œuvre d'un classifieur novateur sur une plate-forme matérielle à base de FPGA. Le classifieur, conçu par Alain Tapp (Université de Montréal), est basé sur une grande quantité de tables de recherche qui forment des circuits arborescents qui effectuent les tâches de classification. Le FPGA semble être un élément fait sur mesure pour mettre en œuvre ce classifieur avec ses riches ressources de tables de recherche et l'architecture à parallélisme élevé. Notre travail montre que les FPGAs peuvent implémenter plusieurs classifieurs et faire les classification sur des images haute définition à une vitesse très élevée.
Resumo:
Les tableaux vivants sont une pratique historique faisant fréquemment l’objet de réappropriations dans les arts visuels contemporains. Situé à mi-chemin entre le divertissement mondain, le théâtre et la peinture, le tableau vivant est porteur d’une certaine ambigüité quant à son statut artistique, attribuable à ses origines, qui l’assimilent davantage à un jeu de bonne société et à une pratique amateur, qu’à une pratique artistique à part entière. La remédiation (Bolter et Grusin) et l’interartialité (Moser) servent d’opérateurs pour questionner les rapports médiatiques et esthétiques en jeu dans le tableau vivant, de manière à éclaircir sa nature médiale spécifique et à préciser les fonctions et effets esthétiques de sa réappropriation. En gardant notre attention sur le dispositif esthétique du tableau, il s’agit d’abord d’explorer le tableau vivant en tant que médium par le biais de l’histoire ses relations interartiales – avec le théâtre du milieu du 18e siècle, la littérature du tournant du 20e siècle et la photographie à partir de 1980. Ensuite, sera pris pour base l’étude d’une œuvre de l’artiste québécoise Claudie Gagnon ayant été présentée au Musée d’art contemporain de Montréal en 2011 dans le cadre de la 2ième Triennale québécoise. L’œuvre Tableaux (2011, vidéogramme, 20 min.) emprunte sa forme au tableau vivant et réactualise cette pratique citationnelle notamment par l’usage de la vidéo. Par l’analyse de trois tableaux vidéographiques extraits de Tableaux, il s’agit d’aborder en trois opérations de traduction-transformation (remédiation, artialisation et théâtralisation) la reprise du tableau vivant en tant que stratégie d’opacification de la représentation.
Resumo:
Ce mémoire s'intéresse à la reconstruction d'un modèle 3D à partir de plusieurs images. Le modèle 3D est élaboré avec une représentation hiérarchique de voxels sous la forme d'un octree. Un cube englobant le modèle 3D est calculé à partir de la position des caméras. Ce cube contient les voxels et il définit la position de caméras virtuelles. Le modèle 3D est initialisé par une enveloppe convexe basée sur la couleur uniforme du fond des images. Cette enveloppe permet de creuser la périphérie du modèle 3D. Ensuite un coût pondéré est calculé pour évaluer la qualité de chaque voxel à faire partie de la surface de l'objet. Ce coût tient compte de la similarité des pixels provenant de chaque image associée à la caméra virtuelle. Finalement et pour chacune des caméras virtuelles, une surface est calculée basée sur le coût en utilisant la méthode de SGM. La méthode SGM tient compte du voisinage lors du calcul de profondeur et ce mémoire présente une variation de la méthode pour tenir compte des voxels précédemment exclus du modèle par l'étape d'initialisation ou de creusage par une autre surface. Par la suite, les surfaces calculées sont utilisées pour creuser et finaliser le modèle 3D. Ce mémoire présente une combinaison innovante d'étapes permettant de créer un modèle 3D basé sur un ensemble d'images existant ou encore sur une suite d'images capturées en série pouvant mener à la création d'un modèle 3D en temps réel.
Resumo:
La capacité du système visuel humain à compléter une image partiellement dévoilée et à en dériver une forme globale à partir de ses fragments visibles incomplets est un phénomène qui suscite, jusqu’à nos jours, l’intérêt de nombreux scientifiques œuvrant dans différents milieux de recherche tels que l’informatique, l’ingénierie en intelligence artificielle, la perception et les neurosciences. Dans le cadre de la présente thèse, nous nous sommes intéressés spécifiquement sur les substrats neuronaux associés à ce phénomène de clôture perceptive. La thèse actuelle a donc pour objectif général d’explorer le décours spatio-temporel des corrélats neuronaux associés à la clôture perceptive au cours d’une tâche d’identification d’objets. Dans un premier temps, le premier article visera à caractériser la signature électrophysiologique liée à la clôture perceptive chez des personnes à développement typique dans le but de déterminer si les processus de clôture perceptive reflèteraient l’interaction itérative entre les mécanismes de bas et de haut-niveau et si ceux-ci seraient sollicités à une étape précoce ou tardive lors du traitement visuel de l’information. Dans un deuxième temps, le second article a pour objectif d’explorer le décours spatio-temporel des mécanismes neuronaux sous-tendant la clôture perceptive dans le but de déterminer si les processus de clôture perceptive des personnes présentant un trouble autistique se caractérisent par une signature idiosyncrasique des changements d’amplitude des potentiels évoqués (PÉs). En d’autres termes, nous cherchons à déterminer si la clôture perceptive en autisme est atypique et nécessiterait davantage la contribution des mécanismes de bas-niveau et/ou de haut-niveau. Les résultats du premier article indiquent que le phénomène de clôture perceptive est associé temporellement à l’occurrence de la composante de PÉs N80 et P160 tel que révélé par des différences significatives claires entre des objets et des versions méconnaissables brouillées. Nous proposons enfin que la clôture perceptive s’avère un processus de transition reflétant les interactions proactives entre les mécanismes neuronaux œuvrant à apparier l’input sensoriel fragmenté à une représentation d’objets en mémoire plausible. Les résultats du second article révèlent des effets précoces de fragmentation et d’identification obtenus au niveau de composantes de potentiels évoqués N80 et P160 et ce, en toute absence d’effets au niveau des composantes tardives pour les individus avec autisme de haut niveau et avec syndrome d’Asperger. Pour ces deux groupes du trouble du spectre autistique, les données électrophysiologiques suggèrent qu’il n’y aurait pas de pré-activation graduelle de l’activité des régions corticales, entre autres frontales, aux moments précédant et menant vers l’identification d’objets fragmentés. Pour les participants autistes et avec syndrome d’Asperger, les analyses statistiques démontrent d’ailleurs une plus importante activation au niveau des régions postérieures alors que les individus à développement typique démontrent une activation plus élevée au niveau antérieur. Ces résultats pourraient suggérer que les personnes du spectre autistique se fient davantage aux processus perceptifs de bas-niveau pour parvenir à compléter les images d’objets fragmentés. Ainsi, lorsque confrontés aux images d’objets partiellement visibles pouvant sembler ambiguës, les individus avec autisme pourraient démontrer plus de difficultés à générer de multiples prédictions au sujet de l’identité d’un objet qu’ils perçoivent. Les implications théoriques et cliniques, les limites et perspectives futures de ces résultats sont discutées.
Resumo:
Ce mémoire s'intéresse à la détection de mouvement dans une séquence d'images acquises à l'aide d'une caméra fixe. Dans ce problème, la difficulté vient du fait que les mouvements récurrents ou non significatifs de la scène tels que les oscillations d'une branche, l'ombre d'un objet ou les remous d'une surface d'eau doivent être ignorés et classés comme appartenant aux régions statiques de la scène. La plupart des méthodes de détection de mouvement utilisées à ce jour reposent en fait sur le principe bas-niveau de la modélisation puis la soustraction de l'arrière-plan. Ces méthodes sont simples et rapides mais aussi limitées dans les cas où l'arrière-plan est complexe ou bruité (neige, pluie, ombres, etc.). Cette recherche consiste à proposer une technique d'amélioration de ces algorithmes dont l'idée principale est d'exploiter et mimer deux caractéristiques essentielles du système de vision humain. Pour assurer une vision nette de l’objet (qu’il soit fixe ou mobile) puis l'analyser et l'identifier, l'œil ne parcourt pas la scène de façon continue, mais opère par une série de ``balayages'' ou de saccades autour (des points caractéristiques) de l'objet en question. Pour chaque fixation pendant laquelle l'œil reste relativement immobile, l'image est projetée au niveau de la rétine puis interprétée en coordonnées log polaires dont le centre est l'endroit fixé par l'oeil. Les traitements bas-niveau de détection de mouvement doivent donc s'opérer sur cette image transformée qui est centrée pour un point (de vue) particulier de la scène. L'étape suivante (intégration trans-saccadique du Système Visuel Humain (SVH)) consiste ensuite à combiner ces détections de mouvement obtenues pour les différents centres de cette transformée pour fusionner les différentes interprétations visuelles obtenues selon ses différents points de vue.