12 resultados para 3D object recognition system
em Université de Montréal, Canada
Resumo:
À la fin du 19e siècle, Dr. Ramón y Cajal, un pionnier scientifique, a découvert les éléments cellulaires individuels, appelés neurones, composant le système nerveux. Il a également remarqué la complexité de ce système et a mentionné l’impossibilité de ces nouveaux neurones à être intégrés dans le système nerveux adulte. Une de ses citations reconnues : “Dans les centres adultes, les chemins nerveux sont fixes, terminés, immuables. Tout doit mourir, rien ne peut être régénérer” est représentative du dogme de l’époque (Ramón y Cajal 1928). D’importantes études effectuées dans les années 1960-1970 suggèrent un point de vue différent. Il a été démontré que les nouveaux neurones peuvent être générés à l’âge adulte, mais cette découverte a créé un scepticisme omniprésent au sein de la communauté scientifique. Il a fallu 30 ans pour que le concept de neurogenèse adulte soit largement accepté. Cette découverte, en plus de nombreuses avancées techniques, a ouvert la porte à de nouvelles cibles thérapeutiques potentielles pour les maladies neurodégénératives. Les cellules souches neurales (CSNs) adultes résident principalement dans deux niches du cerveau : la zone sous-ventriculaire des ventricules latéraux et le gyrus dentelé de l’hippocampe. En condition physiologique, le niveau de neurogenèse est relativement élevé dans la zone sous-ventriculaire contrairement à l’hippocampe où certaines étapes sont limitantes. En revanche, la moelle épinière est plutôt définie comme un environnement en quiescence. Une des principales questions qui a été soulevée suite à ces découvertes est : comment peut-on activer les CSNs adultes afin d’augmenter les niveaux de neurogenèse ? Dans l’hippocampe, la capacité de l’environnement enrichi (incluant la stimulation cognitive, l’exercice et les interactions sociales) à promouvoir la neurogenèse hippocampale a déjà été démontrée. La plasticité de cette région est importante, car elle peut jouer un rôle clé dans la récupération de déficits au niveau de la mémoire et l’apprentissage. Dans la moelle épinière, des études effectuées in vitro ont démontré que les cellules épendymaires situées autour du canal central ont des capacités d’auto-renouvellement et de multipotence (neurones, astrocytes, oligodendrocytes). Il est intéressant de noter qu’in vivo, suite à une lésion de la moelle épinière, les cellules épendymaires sont activées, peuvent s’auto-renouveller, mais peuvent seulement ii donner naissance à des cellules de type gliale (astrocytes et oligodendrocytes). Cette nouvelle fonction post-lésion démontre que la plasticité est encore possible dans un environnement en quiescence et peut être exploité afin de développer des stratégies de réparation endogènes dans la moelle épinière. Les CSNs adultes jouent un rôle important dans le maintien des fonctions physiologiques du cerveau sain et dans la réparation neuronale suite à une lésion. Cependant, il y a peu de données sur les mécanismes qui permettent l'activation des CSNs en quiescence permettant de maintenir ces fonctions. L'objectif général est d'élucider les mécanismes sous-jacents à l'activation des CSNs dans le système nerveux central adulte. Pour répondre à cet objectif, nous avons mis en place deux approches complémentaires chez les souris adultes : 1) L'activation des CSNs hippocampales par l'environnement enrichi (EE) et 2) l'activation des CSNs de la moelle épinière par la neuroinflammation suite à une lésion. De plus, 3) afin d’obtenir plus d’information sur les mécanismes moléculaires de ces modèles, nous utiliserons des approches transcriptomiques afin d’ouvrir de nouvelles perspectives. Le premier projet consiste à établir de nouveaux mécanismes cellulaires et moléculaires à travers lesquels l’environnement enrichi module la plasticité du cerveau adulte. Nous avons tout d’abord évalué la contribution de chacune des composantes de l’environnement enrichi à la neurogenèse hippocampale (Chapitre II). L’exercice volontaire promeut la neurogenèse, tandis que le contexte social augmente l’activation neuronale. Par la suite, nous avons déterminé l’effet de ces composantes sur les performances comportementales et sur le transcriptome à l’aide d’un labyrinthe radial à huit bras afin d’évaluer la mémoire spatiale et un test de reconnaissante d’objets nouveaux ainsi qu’un RNA-Seq, respectivement (Chapitre III). Les coureurs ont démontré une mémoire spatiale de rappel à court-terme plus forte, tandis que les souris exposées aux interactions sociales ont eu une plus grande flexibilité cognitive à abandonner leurs anciens souvenirs. Étonnamment, l’analyse du RNA-Seq a permis d’identifier des différences claires dans l’expression des transcripts entre les coureurs de courte et longue distance, en plus des souris sociales (dans l’environnement complexe). iii Le second projet consiste à découvrir comment les cellules épendymaires acquièrent les propriétés des CSNs in vitro ou la multipotence suite aux lésions in vivo (Chapitre IV). Une analyse du RNA-Seq a révélé que le transforming growth factor-β1 (TGF-β1) agit comme un régulateur, en amont des changements significatifs suite à une lésion de la moelle épinière. Nous avons alors confirmé la présence de cette cytokine suite à la lésion et caractérisé son rôle sur la prolifération, différentiation, et survie des cellules initiatrices de neurosphères de la moelle épinière. Nos résultats suggèrent que TGF-β1 régule l’acquisition et l’expression des propriétés de cellules souches sur les cellules épendymaires provenant de la moelle épinière.
Resumo:
L’athérosclérose est une maladie qui cause, par l’accumulation de plaques lipidiques, le durcissement de la paroi des artères et le rétrécissement de la lumière. Ces lésions sont généralement localisées sur les segments artériels coronariens, carotidiens, aortiques, rénaux, digestifs et périphériques. En ce qui concerne l’atteinte périphérique, celle des membres inférieurs est particulièrement fréquente. En effet, la sévérité de ces lésions artérielles est souvent évaluée par le degré d’une sténose (réduction >50 % du diamètre de la lumière) en angiographie, imagerie par résonnance magnétique (IRM), tomodensitométrie ou échographie. Cependant, pour planifier une intervention chirurgicale, une représentation géométrique artérielle 3D est notamment préférable. Les méthodes d’imagerie par coupe (IRM et tomodensitométrie) sont très performantes pour générer une imagerie tridimensionnelle de bonne qualité mais leurs utilisations sont dispendieuses et invasives pour les patients. L’échographie 3D peut constituer une avenue très prometteuse en imagerie pour la localisation et la quantification des sténoses. Cette modalité d’imagerie offre des avantages distincts tels la commodité, des coûts peu élevés pour un diagnostic non invasif (sans irradiation ni agent de contraste néphrotoxique) et aussi l’option d’analyse en Doppler pour quantifier le flux sanguin. Étant donné que les robots médicaux ont déjà été utilisés avec succès en chirurgie et en orthopédie, notre équipe a conçu un nouveau système robotique d’échographie 3D pour détecter et quantifier les sténoses des membres inférieurs. Avec cette nouvelle technologie, un radiologue fait l’apprentissage manuel au robot d’un balayage échographique du vaisseau concerné. Par la suite, le robot répète à très haute précision la trajectoire apprise, contrôle simultanément le processus d’acquisition d’images échographiques à un pas d’échantillonnage constant et conserve de façon sécuritaire la force appliquée par la sonde sur la peau du patient. Par conséquent, la reconstruction d’une géométrie artérielle 3D des membres inférieurs à partir de ce système pourrait permettre une localisation et une quantification des sténoses à très grande fiabilité. L’objectif de ce projet de recherche consistait donc à valider et optimiser ce système robotisé d’imagerie échographique 3D. La fiabilité d’une géométrie reconstruite en 3D à partir d’un système référentiel robotique dépend beaucoup de la précision du positionnement et de la procédure de calibration. De ce fait, la précision pour le positionnement du bras robotique fut évaluée à travers son espace de travail avec un fantôme spécialement conçu pour simuler la configuration des artères des membres inférieurs (article 1 - chapitre 3). De plus, un fantôme de fils croisés en forme de Z a été conçu pour assurer une calibration précise du système robotique (article 2 - chapitre 4). Ces méthodes optimales ont été utilisées pour valider le système pour l’application clinique et trouver la transformation qui convertit les coordonnées de l’image échographique 2D dans le référentiel cartésien du bras robotisé. À partir de ces résultats, tout objet balayé par le système robotique peut être caractérisé pour une reconstruction 3D adéquate. Des fantômes vasculaires compatibles avec plusieurs modalités d’imagerie ont été utilisés pour simuler différentes représentations artérielles des membres inférieurs (article 2 - chapitre 4, article 3 - chapitre 5). La validation des géométries reconstruites a été effectuée à l`aide d`analyses comparatives. La précision pour localiser et quantifier les sténoses avec ce système robotisé d’imagerie échographique 3D a aussi été déterminée. Ces évaluations ont été réalisées in vivo pour percevoir le potentiel de l’utilisation d’un tel système en clinique (article 3- chapitre 5).
Resumo:
La maladie des artères périphériques (MAP) se manifeste par une réduction (sténose) de la lumière de l’artère des membres inférieurs. Elle est causée par l’athérosclérose, une accumulation de cellules spumeuses, de graisse, de calcium et de débris cellulaires dans la paroi artérielle, généralement dans les bifurcations et les ramifications. Par ailleurs, la MAP peut être causée par d`autres facteurs associés comme l’inflammation, une malformation anatomique et dans de rares cas, au niveau des artères iliaques et fémorales, par la dysplasie fibromusculaire. L’imagerie ultrasonore est le premier moyen de diagnostic de la MAP. La littérature clinique rapporte qu’au niveau de l’artère fémorale, l’écho-Doppler montre une sensibilité de 80 à 98 % et une spécificité de 89 à 99 % à détecter une sténose supérieure à 50 %. Cependant, l’écho-Doppler ne permet pas une cartographie de l’ensemble des artères des membres inférieurs. D’autre part, la reconstruction 3D à partir des images échographiques 2D des artères atteintes de la MAP est fortement opérateur dépendant à cause de la grande variabilité des mesures pendant l’examen par les cliniciens. Pour planifier une intervention chirurgicale, les cliniciens utilisent la tomodensitométrie (CTA), l’angiographie par résonance magnétique (MRA) et l’angiographie par soustraction numérique (DSA). Il est vrai que ces modalités sont très performantes. La CTA montre une grande précision dans la détection et l’évaluation des sténoses supérieures à 50 % avec une sensibilité de 92 à 97 % et une spécificité entre 93 et 97 %. Par contre, elle est ionisante (rayon x) et invasive à cause du produit de contraste, qui peut causer des néphropathies. La MRA avec injection de contraste (CE MRA) est maintenant la plus utilisée. Elle offre une sensibilité de 92 à 99.5 % et une spécificité entre 64 et 99 %. Cependant, elle sous-estime les sténoses et peut aussi causer une néphropathie dans de rares cas. De plus les patients avec stents, implants métalliques ou bien claustrophobes sont exclus de ce type d`examen. La DSA est très performante mais s`avère invasive et ionisante. Aujourd’hui, l’imagerie ultrasonore (3D US) s’est généralisée surtout en obstétrique et échocardiographie. En angiographie il est possible de calculer le volume de la plaque grâce à l’imagerie ultrasonore 3D, ce qui permet un suivi de l’évolution de la plaque athéromateuse au niveau des vaisseaux. L’imagerie intravasculaire ultrasonore (IVUS) est une technique qui mesure ce volume. Cependant, elle est invasive, dispendieuse et risquée. Des études in vivo ont montré qu’avec l’imagerie 3D-US on est capable de quantifier la plaque au niveau de la carotide et de caractériser la géométrie 3D de l'anastomose dans les artères périphériques. Par contre, ces systèmes ne fonctionnent que sur de courtes distances. Par conséquent, ils ne sont pas adaptés pour l’examen de l’artère fémorale, à cause de sa longueur et de sa forme tortueuse. L’intérêt pour la robotique médicale date des années 70. Depuis, plusieurs robots médicaux ont été proposés pour la chirurgie, la thérapie et le diagnostic. Dans le cas du diagnostic artériel, seuls deux prototypes sont proposés, mais non commercialisés. Hippocrate est le premier robot de type maitre/esclave conçu pour des examens des petits segments d’artères (carotide). Il est composé d’un bras à 6 degrés de liberté (ddl) suspendu au-dessus du patient sur un socle rigide. À partir de ce prototype, un contrôleur automatisant les déplacements du robot par rétroaction des images échographiques a été conçu et testé sur des fantômes. Le deuxième est le robot de la Colombie Britannique conçu pour les examens à distance de la carotide. Le mouvement de la sonde est asservi par rétroaction des images US. Les travaux publiés avec les deux robots se limitent à la carotide. Afin d’examiner un long segment d’artère, un système robotique US a été conçu dans notre laboratoire. Le système possède deux modes de fonctionnement, le mode teach/replay (voir annexe 3) et le mode commande libre par l’utilisateur. Dans ce dernier mode, l’utilisateur peut implémenter des programmes personnalisés comme ceux utilisés dans ce projet afin de contrôler les mouvements du robot. Le but de ce projet est de démontrer les performances de ce système robotique dans des conditions proches au contexte clinique avec le mode commande libre par l’utilisateur. Deux objectifs étaient visés: (1) évaluer in vitro le suivi automatique et la reconstruction 3D en temps réel d’une artère en utilisant trois fantômes ayant des géométries réalistes. (2) évaluer in vivo la capacité de ce système d'imagerie robotique pour la cartographie 3D en temps réel d'une artère fémorale normale. Pour le premier objectif, la reconstruction 3D US a été comparée avec les fichiers CAD (computer-aided-design) des fantômes. De plus, pour le troisième fantôme, la reconstruction 3D US a été comparée avec sa reconstruction CTA, considéré comme examen de référence pour évaluer la MAP. Cinq chapitres composent ce mémoire. Dans le premier chapitre, la MAP sera expliquée, puis dans les deuxième et troisième chapitres, l’imagerie 3D ultrasonore et la robotique médicale seront développées. Le quatrième chapitre sera consacré à la présentation d’un article intitulé " A robotic ultrasound scanner for automatic vessel tracking and three-dimensional reconstruction of B-mode images" qui résume les résultats obtenus dans ce projet de maîtrise. Une discussion générale conclura ce mémoire. L’article intitulé " A 3D ultrasound imaging robotic system to detect and quantify lower limb arterial stenoses: in vivo feasibility " de Marie-Ange Janvier et al dans l’annexe 3, permettra également au lecteur de mieux comprendre notre système robotisé. Ma contribution dans cet article était l’acquisition des images mode B, la reconstruction 3D et l’analyse des résultats pour le patient sain.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
La capacité du système visuel humain à compléter une image partiellement dévoilée et à en dériver une forme globale à partir de ses fragments visibles incomplets est un phénomène qui suscite, jusqu’à nos jours, l’intérêt de nombreux scientifiques œuvrant dans différents milieux de recherche tels que l’informatique, l’ingénierie en intelligence artificielle, la perception et les neurosciences. Dans le cadre de la présente thèse, nous nous sommes intéressés spécifiquement sur les substrats neuronaux associés à ce phénomène de clôture perceptive. La thèse actuelle a donc pour objectif général d’explorer le décours spatio-temporel des corrélats neuronaux associés à la clôture perceptive au cours d’une tâche d’identification d’objets. Dans un premier temps, le premier article visera à caractériser la signature électrophysiologique liée à la clôture perceptive chez des personnes à développement typique dans le but de déterminer si les processus de clôture perceptive reflèteraient l’interaction itérative entre les mécanismes de bas et de haut-niveau et si ceux-ci seraient sollicités à une étape précoce ou tardive lors du traitement visuel de l’information. Dans un deuxième temps, le second article a pour objectif d’explorer le décours spatio-temporel des mécanismes neuronaux sous-tendant la clôture perceptive dans le but de déterminer si les processus de clôture perceptive des personnes présentant un trouble autistique se caractérisent par une signature idiosyncrasique des changements d’amplitude des potentiels évoqués (PÉs). En d’autres termes, nous cherchons à déterminer si la clôture perceptive en autisme est atypique et nécessiterait davantage la contribution des mécanismes de bas-niveau et/ou de haut-niveau. Les résultats du premier article indiquent que le phénomène de clôture perceptive est associé temporellement à l’occurrence de la composante de PÉs N80 et P160 tel que révélé par des différences significatives claires entre des objets et des versions méconnaissables brouillées. Nous proposons enfin que la clôture perceptive s’avère un processus de transition reflétant les interactions proactives entre les mécanismes neuronaux œuvrant à apparier l’input sensoriel fragmenté à une représentation d’objets en mémoire plausible. Les résultats du second article révèlent des effets précoces de fragmentation et d’identification obtenus au niveau de composantes de potentiels évoqués N80 et P160 et ce, en toute absence d’effets au niveau des composantes tardives pour les individus avec autisme de haut niveau et avec syndrome d’Asperger. Pour ces deux groupes du trouble du spectre autistique, les données électrophysiologiques suggèrent qu’il n’y aurait pas de pré-activation graduelle de l’activité des régions corticales, entre autres frontales, aux moments précédant et menant vers l’identification d’objets fragmentés. Pour les participants autistes et avec syndrome d’Asperger, les analyses statistiques démontrent d’ailleurs une plus importante activation au niveau des régions postérieures alors que les individus à développement typique démontrent une activation plus élevée au niveau antérieur. Ces résultats pourraient suggérer que les personnes du spectre autistique se fient davantage aux processus perceptifs de bas-niveau pour parvenir à compléter les images d’objets fragmentés. Ainsi, lorsque confrontés aux images d’objets partiellement visibles pouvant sembler ambiguës, les individus avec autisme pourraient démontrer plus de difficultés à générer de multiples prédictions au sujet de l’identité d’un objet qu’ils perçoivent. Les implications théoriques et cliniques, les limites et perspectives futures de ces résultats sont discutées.
Resumo:
Notre système visuel extrait d'ordinaire l'information en basses fréquences spatiales (FS) avant celles en hautes FS. L'information globale extraite tôt peut ainsi activer des hypothèses sur l'identité de l'objet et guider l'extraction d'information plus fine spécifique par la suite. Dans les troubles du spectre autistique (TSA), toutefois, la perception des FS est atypique. De plus, la perception des individus atteints de TSA semble être moins influencée par leurs a priori et connaissances antérieures. Dans l'étude décrite dans le corps de ce mémoire, nous avions pour but de vérifier si l'a priori de traiter l'information des basses aux hautes FS était présent chez les individus atteints de TSA. Nous avons comparé le décours temporel de l'utilisation des FS chez des sujets neurotypiques et atteints de TSA en échantillonnant aléatoirement et exhaustivement l'espace temps x FS. Les sujets neurotypiques extrayaient les basses FS avant les plus hautes: nous avons ainsi pu répliquer le résultat de plusieurs études antérieures, tout en le caractérisant avec plus de précision que jamais auparavant. Les sujets atteints de TSA, quant à eux, extrayaient toutes les FS utiles, basses et hautes, dès le début, indiquant qu'ils ne possédaient pas l'a priori présent chez les neurotypiques. Il semblerait ainsi que les individus atteints de TSA extraient les FS de manière purement ascendante, l'extraction n'étant pas guidée par l'activation d'hypothèses.
Resumo:
Les temps de réponse dans une tache de reconnaissance d’objets visuels diminuent de façon significative lorsque les cibles peuvent être distinguées à partir de deux attributs redondants. Le gain de redondance pour deux attributs est un résultat commun dans la littérature, mais un gain causé par trois attributs redondants n’a été observé que lorsque ces trois attributs venaient de trois modalités différentes (tactile, auditive et visuelle). La présente étude démontre que le gain de redondance pour trois attributs de la même modalité est effectivement possible. Elle inclut aussi une investigation plus détaillée des caractéristiques du gain de redondance. Celles-ci incluent, outre la diminution des temps de réponse, une diminution des temps de réponses minimaux particulièrement et une augmentation de la symétrie de la distribution des temps de réponse. Cette étude présente des indices que ni les modèles de course, ni les modèles de coactivation ne sont en mesure d’expliquer l’ensemble des caractéristiques du gain de redondance. Dans ce contexte, nous introduisons une nouvelle méthode pour évaluer le triple gain de redondance basée sur la performance des cibles doublement redondantes. Le modèle de cascade est présenté afin d’expliquer les résultats de cette étude. Ce modèle comporte plusieurs voies de traitement qui sont déclenchées par une cascade d’activations avant de satisfaire un seul critère de décision. Il offre une approche homogène aux recherches antérieures sur le gain de redondance. L’analyse des caractéristiques des distributions de temps de réponse, soit leur moyenne, leur symétrie, leur décalage ou leur étendue, est un outil essentiel pour cette étude. Il était important de trouver un test statistique capable de refléter les différences au niveau de toutes ces caractéristiques. Nous abordons la problématique d’analyser les temps de réponse sans perte d’information, ainsi que l’insuffisance des méthodes d’analyse communes dans ce contexte, comme grouper les temps de réponses de plusieurs participants (e. g. Vincentizing). Les tests de distributions, le plus connu étant le test de Kolmogorov- Smirnoff, constituent une meilleure alternative pour comparer des distributions, celles des temps de réponse en particulier. Un test encore inconnu en psychologie est introduit : le test d’Anderson-Darling à deux échantillons. Les deux tests sont comparés, et puis nous présentons des indices concluants démontrant la puissance du test d’Anderson-Darling : en comparant des distributions qui varient seulement au niveau de (1) leur décalage, (2) leur étendue, (3) leur symétrie, ou (4) leurs extrémités, nous pouvons affirmer que le test d’Anderson-Darling reconnait mieux les différences. De plus, le test d’Anderson-Darling a un taux d’erreur de type I qui correspond exactement à l’alpha tandis que le test de Kolmogorov-Smirnoff est trop conservateur. En conséquence, le test d’Anderson-Darling nécessite moins de données pour atteindre une puissance statistique suffisante.
Resumo:
Les tâches de vision artificielle telles que la reconnaissance d’objets demeurent irrésolues à ce jour. Les algorithmes d’apprentissage tels que les Réseaux de Neurones Artificiels (RNA), représentent une approche prometteuse permettant d’apprendre des caractéristiques utiles pour ces tâches. Ce processus d’optimisation est néanmoins difficile. Les réseaux profonds à base de Machine de Boltzmann Restreintes (RBM) ont récemment été proposés afin de guider l’extraction de représentations intermédiaires, grâce à un algorithme d’apprentissage non-supervisé. Ce mémoire présente, par l’entremise de trois articles, des contributions à ce domaine de recherche. Le premier article traite de la RBM convolutionelle. L’usage de champs réceptifs locaux ainsi que le regroupement d’unités cachées en couches partageant les même paramètres, réduit considérablement le nombre de paramètres à apprendre et engendre des détecteurs de caractéristiques locaux et équivariant aux translations. Ceci mène à des modèles ayant une meilleure vraisemblance, comparativement aux RBMs entraînées sur des segments d’images. Le deuxième article est motivé par des découvertes récentes en neurosciences. Il analyse l’impact d’unités quadratiques sur des tâches de classification visuelles, ainsi que celui d’une nouvelle fonction d’activation. Nous observons que les RNAs à base d’unités quadratiques utilisant la fonction softsign, donnent de meilleures performances de généralisation. Le dernière article quand à lui, offre une vision critique des algorithmes populaires d’entraînement de RBMs. Nous montrons que l’algorithme de Divergence Contrastive (CD) et la CD Persistente ne sont pas robustes : tous deux nécessitent une surface d’énergie relativement plate afin que leur chaîne négative puisse mixer. La PCD à "poids rapides" contourne ce problème en perturbant légèrement le modèle, cependant, ceci génère des échantillons bruités. L’usage de chaînes tempérées dans la phase négative est une façon robuste d’adresser ces problèmes et mène à de meilleurs modèles génératifs.
Resumo:
Lors d'une intervention conversationnelle, le langage est supporté par une communication non-verbale qui joue un rôle central dans le comportement social humain en permettant de la rétroaction et en gérant la synchronisation, appuyant ainsi le contenu et la signification du discours. En effet, 55% du message est véhiculé par les expressions faciales, alors que seulement 7% est dû au message linguistique et 38% au paralangage. L'information concernant l'état émotionnel d'une personne est généralement inférée par les attributs faciaux. Cependant, on ne dispose pas vraiment d'instruments de mesure spécifiquement dédiés à ce type de comportements. En vision par ordinateur, on s'intéresse davantage au développement de systèmes d'analyse automatique des expressions faciales prototypiques pour les applications d'interaction homme-machine, d'analyse de vidéos de réunions, de sécurité, et même pour des applications cliniques. Dans la présente recherche, pour appréhender de tels indicateurs observables, nous essayons d'implanter un système capable de construire une source consistante et relativement exhaustive d'informations visuelles, lequel sera capable de distinguer sur un visage les traits et leurs déformations, permettant ainsi de reconnaître la présence ou absence d'une action faciale particulière. Une réflexion sur les techniques recensées nous a amené à explorer deux différentes approches. La première concerne l'aspect apparence dans lequel on se sert de l'orientation des gradients pour dégager une représentation dense des attributs faciaux. Hormis la représentation faciale, la principale difficulté d'un système, qui se veut être général, est la mise en œuvre d'un modèle générique indépendamment de l'identité de la personne, de la géométrie et de la taille des visages. La démarche qu'on propose repose sur l'élaboration d'un référentiel prototypique à partir d'un recalage par SIFT-flow dont on démontre, dans cette thèse, la supériorité par rapport à un alignement conventionnel utilisant la position des yeux. Dans une deuxième approche, on fait appel à un modèle géométrique à travers lequel les primitives faciales sont représentées par un filtrage de Gabor. Motivé par le fait que les expressions faciales sont non seulement ambigües et incohérentes d'une personne à une autre mais aussi dépendantes du contexte lui-même, à travers cette approche, on présente un système personnalisé de reconnaissance d'expressions faciales, dont la performance globale dépend directement de la performance du suivi d'un ensemble de points caractéristiques du visage. Ce suivi est effectué par une forme modifiée d'une technique d'estimation de disparité faisant intervenir la phase de Gabor. Dans cette thèse, on propose une redéfinition de la mesure de confiance et introduisons une procédure itérative et conditionnelle d'estimation du déplacement qui offrent un suivi plus robuste que les méthodes originales.
Resumo:
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
La reconnaissance d’objets est une tâche complexe au cours de laquelle le cerveau doit assembler de manière cohérente tous les éléments d’un objet accessible à l’œil afin de le reconnaître. La construction d’une représentation corticale de l’objet se fait selon un processus appelé « bottom-up », impliquant notamment les régions occipitales et temporales. Un mécanisme « top-down » au niveau des régions pariétales et frontales, facilite la reconnaissance en suggérant des identités potentielles de l’objet à reconnaître. Cependant, le mode de fonctionnement de ces mécanismes est peu connu. Plusieurs études ont démontré une activité gamma induite au moment de la perception cohérente de stimuli, lui conférant ainsi un rôle important dans la reconnaissance d’objets. Cependant, ces études ont utilisé des techniques d’enregistrement peu précises ainsi que des stimuli répétitifs. La première étude de cette thèse vise à décrire la dynamique spatio-temporelle de l’activité gamma induite à l’aide de l’électroencéphalographie intracrânienne, une technique qui possède des résolutions spatiales et temporelles des plus précises. Une tâche d’images fragmentées a été conçue dans le but de décrire l’activité gamma induite selon différents niveaux de reconnaissance, tout en évitant la répétition de stimuli déjà reconnus. Afin de mieux circonscrire les mécanismes « top-down », la tâche a été répétée après un délai de 24 heures. Les résultats démontrent une puissante activité gamma induite au moment de la reconnaissance dans les régions « bottom-up ». Quant aux mécanismes « top-down », l’activité était plus importante aux régions occipitopariétales. Après 24 heures, l’activité était davantage puissante aux régions frontales, suggérant une adaptation des procédés « top-down » selon les demandes de la tâche. Très peu d’études se sont intéressées au rythme alpha dans la reconnaissance d’objets, malgré qu’il soit bien reconnu pour son rôle dans l’attention, la mémoire et la communication des régions neuronales distantes. La seconde étude de cette thèse vise donc à décrire plus précisément l’implication du rythme alpha dans la reconnaissance d’objets en utilisant les techniques et tâches identiques à la première étude. Les analyses révèlent une puissante activité alpha se propageant des régions postérieures aux régions antérieures, non spécifique à la reconnaissance. Une synchronisation de la phase de l’alpha était, quant à elle, observable qu’au moment de la reconnaissance. Après 24 heures, un patron similaire était observable, mais l’amplitude de l’activité augmentait au niveau frontal et les synchronies de la phase étaient davantage distribuées. Le rythme alpha semble donc refléter des processus attentionnels et communicationnels dans la reconnaissance d’objets. En conclusion, cette thèse a permis de décrire avec précision la dynamique spatio-temporelle de l’activité gamma induite et du rythme alpha ainsi que d’en apprendre davantage sur les rôles potentiels que ces deux rythmes occupent dans la reconnaissance d’objets.
Resumo:
Le design d'éclairage est une tâche qui est normalement faite manuellement, où les artistes doivent manipuler les paramètres de plusieurs sources de lumière pour obtenir le résultat désiré. Cette tâche est difficile, car elle n'est pas intuitive. Il existe déjà plusieurs systèmes permettant de dessiner directement sur les objets afin de positionner ou modifier des sources de lumière. Malheureusement, ces systèmes ont plusieurs limitations telles qu'ils ne considèrent que l'illumination locale, la caméra est fixe, etc. Dans ces deux cas, ceci représente une limitation par rapport à l'exactitude ou la versatilité de ces systèmes. L'illumination globale est importante, car elle ajoute énormément au réalisme d'une scène en capturant toutes les interréflexions de la lumière sur les surfaces. Ceci implique que les sources de lumière peuvent avoir de l'influence sur des surfaces qui ne sont pas directement exposées. Dans ce mémoire, on se consacre à un sous-problème du design de l'éclairage: la sélection et la manipulation de l'intensité de sources de lumière. Nous présentons deux systèmes permettant de peindre sur des objets dans une scène 3D des intentions de lumière incidente afin de modifier l'illumination de la surface. De ces coups de pinceau, le système trouve automatiquement les sources de lumière qui devront être modifiées et change leur intensité pour effectuer les changements désirés. La nouveauté repose sur la gestion de l'illumination globale, des surfaces transparentes et des milieux participatifs et sur le fait que la caméra n'est pas fixe. On présente également différentes stratégies de sélection de modifications des sources de lumière. Le premier système utilise une carte d'environnement comme représentation intermédiaire de l'environnement autour des objets. Le deuxième système sauvegarde l'information de l'environnement pour chaque sommet de chaque objet.