10 resultados para computer vision, facial expression recognition, swig, red5, actionscript, ruby on rails, html5
em Université de Montréal, Canada
Resumo:
Lors d'une intervention conversationnelle, le langage est supporté par une communication non-verbale qui joue un rôle central dans le comportement social humain en permettant de la rétroaction et en gérant la synchronisation, appuyant ainsi le contenu et la signification du discours. En effet, 55% du message est véhiculé par les expressions faciales, alors que seulement 7% est dû au message linguistique et 38% au paralangage. L'information concernant l'état émotionnel d'une personne est généralement inférée par les attributs faciaux. Cependant, on ne dispose pas vraiment d'instruments de mesure spécifiquement dédiés à ce type de comportements. En vision par ordinateur, on s'intéresse davantage au développement de systèmes d'analyse automatique des expressions faciales prototypiques pour les applications d'interaction homme-machine, d'analyse de vidéos de réunions, de sécurité, et même pour des applications cliniques. Dans la présente recherche, pour appréhender de tels indicateurs observables, nous essayons d'implanter un système capable de construire une source consistante et relativement exhaustive d'informations visuelles, lequel sera capable de distinguer sur un visage les traits et leurs déformations, permettant ainsi de reconnaître la présence ou absence d'une action faciale particulière. Une réflexion sur les techniques recensées nous a amené à explorer deux différentes approches. La première concerne l'aspect apparence dans lequel on se sert de l'orientation des gradients pour dégager une représentation dense des attributs faciaux. Hormis la représentation faciale, la principale difficulté d'un système, qui se veut être général, est la mise en œuvre d'un modèle générique indépendamment de l'identité de la personne, de la géométrie et de la taille des visages. La démarche qu'on propose repose sur l'élaboration d'un référentiel prototypique à partir d'un recalage par SIFT-flow dont on démontre, dans cette thèse, la supériorité par rapport à un alignement conventionnel utilisant la position des yeux. Dans une deuxième approche, on fait appel à un modèle géométrique à travers lequel les primitives faciales sont représentées par un filtrage de Gabor. Motivé par le fait que les expressions faciales sont non seulement ambigües et incohérentes d'une personne à une autre mais aussi dépendantes du contexte lui-même, à travers cette approche, on présente un système personnalisé de reconnaissance d'expressions faciales, dont la performance globale dépend directement de la performance du suivi d'un ensemble de points caractéristiques du visage. Ce suivi est effectué par une forme modifiée d'une technique d'estimation de disparité faisant intervenir la phase de Gabor. Dans cette thèse, on propose une redéfinition de la mesure de confiance et introduisons une procédure itérative et conditionnelle d'estimation du déplacement qui offrent un suivi plus robuste que les méthodes originales.
Resumo:
Ce mémoire est composé de trois articles et présente les résultats de travaux de recherche effectués dans le but d'améliorer les techniques actuelles permettant d'utiliser des données associées à certaines tâches dans le but d'aider à l'entraînement de réseaux de neurones sur une tâche différente. Les deux premiers articles présentent de nouveaux ensembles de données créés pour permettre une meilleure évaluation de ce type de techniques d'apprentissage machine. Le premier article introduit une suite d'ensembles de données pour la tâche de reconnaissance automatique de chiffres écrits à la main. Ces ensembles de données ont été générés à partir d'un ensemble de données déjà existant, MNIST, auquel des nouveaux facteurs de variation ont été ajoutés. Le deuxième article introduit un ensemble de données pour la tâche de reconnaissance automatique d'expressions faciales. Cet ensemble de données est composé d'images de visages qui ont été collectées automatiquement à partir du Web et ensuite étiquetées. Le troisième et dernier article présente deux nouvelles approches, dans le contexte de l'apprentissage multi-tâches, pour tirer avantage de données pour une tâche donnée afin d'améliorer les performances d'un modèle sur une tâche différente. La première approche est une généralisation des neurones Maxout récemment proposées alors que la deuxième consiste en l'application dans un contexte supervisé d'une technique permettant d'inciter des neurones à apprendre des fonctions orthogonales, à l'origine proposée pour utilisation dans un contexte semi-supervisé.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
La présente recherche est constituée de deux études. Dans l’étude 1, il s’agit d’améliorer la validité écologique des travaux sur la reconnaissance émotionnelle faciale (REF) en procédant à la validation de stimuli qui permettront d’étudier cette question en réalité virtuelle. L’étude 2 vise à documenter la relation entre le niveau de psychopathie et la performance à une tâche de REF au sein d’un échantillon de la population générale. Pour ce faire, nous avons créé des personnages virtuels animés de différentes origines ethniques exprimant les six émotions fondamentales à différents niveaux d’intensité. Les stimuli, sous forme statique et dynamique, ont été évalués par des étudiants universitaires. Les résultats de l’étude 1 indiquent que les stimuli virtuels, en plus de comporter plusieurs traits distinctifs, constituent un ensemble valide pour étudier la REF. L’étude 2 a permis de constater qu’un score plus élevé à l’échelle de psychopathie, spécifiquement à la facette de l’affect plat, est associé à une plus grande sensibilité aux expressions émotionnelles, particulièrement pour la tristesse. Inversement, un niveau élevé de tendances criminelles est, pour sa part, associé à une certaine insensibilité générale et à un déficit spécifique pour le dégoût. Ces résultats sont spécifiques aux participants masculins. Les données s’inscrivent dans une perspective évolutive de la psychopathie. L’étude met en évidence l’importance d’étudier l’influence respective des facettes de la personnalité psychopathique, ce même dans des populations non-cliniques. De plus, elle souligne la manifestation différentielle des tendances psychopathiques chez les hommes et chez les femmes.
Resumo:
Les pays industrialisés comme le Canada doivent faire face au vieillissement de leur population. En particulier, la majorité des personnes âgées, vivant à domicile et souvent seules, font face à des situations à risques telles que des chutes. Dans ce contexte, la vidéosurveillance est une solution innovante qui peut leur permettre de vivre normalement dans un environnement sécurisé. L’idée serait de placer un réseau de caméras dans l’appartement de la personne pour détecter automatiquement une chute. En cas de problème, un message pourrait être envoyé suivant l’urgence aux secours ou à la famille via une connexion internet sécurisée. Pour un système bas coût, nous avons limité le nombre de caméras à une seule par pièce ce qui nous a poussé à explorer les méthodes monoculaires de détection de chutes. Nous avons d’abord exploré le problème d’un point de vue 2D (image) en nous intéressant aux changements importants de la silhouette de la personne lors d’une chute. Les données d’activités normales d’une personne âgée ont été modélisées par un mélange de gaussiennes nous permettant de détecter tout événement anormal. Notre méthode a été validée à l’aide d’une vidéothèque de chutes simulées et d’activités normales réalistes. Cependant, une information 3D telle que la localisation de la personne par rapport à son environnement peut être très intéressante pour un système d’analyse de comportement. Bien qu’il soit préférable d’utiliser un système multi-caméras pour obtenir une information 3D, nous avons prouvé qu’avec une seule caméra calibrée, il était possible de localiser une personne dans son environnement grâce à sa tête. Concrêtement, la tête de la personne, modélisée par une ellipsoide, est suivie dans la séquence d’images à l’aide d’un filtre à particules. La précision de la localisation 3D de la tête a été évaluée avec une bibliothèque de séquence vidéos contenant les vraies localisations 3D obtenues par un système de capture de mouvement (Motion Capture). Un exemple d’application utilisant la trajectoire 3D de la tête est proposée dans le cadre de la détection de chutes. En conclusion, un système de vidéosurveillance pour la détection de chutes avec une seule caméra par pièce est parfaitement envisageable. Pour réduire au maximum les risques de fausses alarmes, une méthode hybride combinant des informations 2D et 3D pourrait être envisagée.
Resumo:
Cette thése a été réalisée dans le cadre d'une cotutelle avec l'Institut National Polytechnique de Grenoble (France). La recherche a été effectuée au sein des laboratoires de vision 3D (DIRO, UdM) et PERCEPTION-INRIA (Grenoble).
Resumo:
L’expression faciale de la douleur occupe un rôle central dans la communication de la douleur et dans l’estimation de l’intensité de la douleur vécue par autrui. Les propriétés du visage d’une personne en souffrance ont été investiguées principalement à l’aide de méthodes descriptives (e.g. FACS). L’introduction fait le point sur les connaissances de l’expression faciale de douleur et de la communication de cette expérience sur les plans comportemental et cérébral et souligne que les mécanismes et stratégies visuels utilisés par l’observateur pour parvenir à détecter la douleur dans le visage d’autrui demeurent très peu connus. L’étude des processus impliqués dans la reconnaissance de l’expression de la douleur est essentielle pour comprendre la communication de la douleur et éventuellement expliquer des phénomènes ayant des impacts cliniques considérables, tel que l’effet classique de sous-estimation de la douleur d’autrui. L’article 1 vise à établir à l’aide d’une méthode directe (Bubbles) les informations visuelles utilisées efficacement par l’observateur lorsqu’il doit catégoriser la douleur parmi les émotions de base. Les résultats montrent que parmi l’ensemble des caractéristiques du visage typique de la douleur, peu d’informations sont vraiment efficaces pour parvenir à cette discrimination et que celles qui le sont encodent la partie affective- motivationnelle de l’expérience d’autrui. L’article 2 investigue le pouvoir de ces régions privilégiées du visage de la douleur dans la modulation d’une expérience nociceptive chez l’observateur afin de mieux comprendre les mécanismes impliqués dans une telle modulation. En effet, s’il est connu que des stimuli ayant une valence émotionnelle négative, y compris des expressions faciales de douleur, peuvent augmenter les réponses spinales (réflexes) et supra-spinales (ex.: perceptives) de la douleur, l’information visuelle suffisante pour permettre l’activation des voies modulatrices demeure inconnue. Les résultats montrent qu’en voyant les régions diagnostiques pour la reconnaissance de l’expression faciale de douleur, la douleur perçue par l’observateur suite à une stimulation nociceptive est plus grande que lorsqu’il voit les régions les moins corrélées avec une bonne reconnaissance de la douleur. L’exploration post-expérimentale des caractéristiques de nos stimuli suggère que cette modulation n’est pas explicable par l’induction d’un état émotionnel négatif, appuyant ainsi un rôle prépondérant de la communication de la douleur dans la modulation vicariante de l’expérience douloureuse de l’observateur. Les mesures spinales ne sont toutefois pas modulées par ces manipulations et suggèrent ainsi que ce ne sont pas des voies cérébro-spinale qui sont impliquées dans ce phénomène.
Resumo:
Thèse réalisée en cotutelle avec l'université de Franche-Comté, école doctorale Langage, espace, temps et société.
Resumo:
Le virus de l’hépatite C (VHC) est un virus à ARN simple brin positif (ssARN) qui se replique dans le foie. Deux cents millions de personnes sont infectées par le virus dans le monde et environ 80% d’entre elles progresseront vers un stade chronique de l’infection. Les thérapies anti-virales actuelles comme l’interféron (IFN) ou la ribavirin sont de plus en plus utilisées mais ne sont efficaces que dans la moitié des individus traités et sont souvent accompagnées d’une toxicité ou d’effets secondaires indésirables. Le système immunitaire inné est essentiel au contrôle des infections virales. Les réponses immunitaires innées sont activées suite à la reconnaissance par les Pathogen Recognition Receptors (PRRs), de motifs macromoléculaires dérivés du virus appelés Pathogen-Associated Molecular Patterns (PAMPs). Bien que l'activation du système immunitaire par l'ARN ou les protéines du VHC ait été largement étudiée, très peu de choses sont actuellement connues concernant la détection du virus par le système immunitaire inné. Et même si l’on peut très rapidement déceler des réponses immunes in vivo après infection par le VHC, l’augmentation progressive et continue de la charge virale met en évidence une incapacité du système immunitaire à contrôler l’infection virale. Une meilleure compréhension des mécanismes d’activation du système immunitaire par le VHC semble, par conséquent, essentielle au développement de stratégies antivirales plus efficaces. Dans le présent travail nous montrons, dans un modèle de cellule primaire, que le génome ARN du VHC contient des séquences riches en GU capables de stimuler spécifiquement les récepteurs de type Toll (TLR) 7 et 8. Cette stimulation a pour conséquence la maturation des cellules dendritiques plasmacytoïdes (pDCs), le production d’interféron de type I (IFN) ainsi que l’induction de chémokines et cytokines inflammatoires par les différentes types de cellules présentatrices d’antigènes (APCs). Les cytokines produites après stimulation de monocytes ou de pDCs par ces séquences ssARN virales, inhibent la production du virus de façon dépendante de l’IFN. En revanche, les cytokines produites après stimulation de cellules dendritiques myéloïdes (mDCs) ou de macrophages par ces mêmes séquences n’ont pas d’effet inhibiteur sur la production virale car les séquences ssARN virales n’induisent pas la production d’IFN par ces cellules. Les cytokines produites après stimulation des TLR 7/8 ont également pour effet de diminuer, de façon indépendante de l’IFN, l’expression du récepteur au VHC (CD81) sur la lignée cellulaire Huh7.5, ce qui pourrait avoir pour conséquence de restreindre l’infection par le VHC. Quoiqu’il en soit, même si les récepteurs au VHC comme le CD81 sont largement exprimés à la surface de différentes sous populations lymphocytaires, les DCs et les monocytes ne répondent pas aux VHC, Nos résultats indiquent que seuls les macrophages sont capables de reconnaître le VHC et de produire des cytokines inflammatoires en réponse à ce dernier. La reconnaissance du VHC par les macrophages est liée à l’expression membranaire de DC-SIGN et l’engagement des TLR 7/8 qui en résulte. Comme d’autres agonistes du TLR 7/8, le VHC stimule la production de cytokines inflammatoires (TNF-α, IL-8, IL-6 et IL-1b) mais n’induit pas la production d’interféron-beta par les macrophages. De manière attendue, la production de cytokines par des macrophages stimulés par les ligands du TLR 7/8 ou les séquences ssARN virales n’inhibent pas la réplication virale. Nos résultats mettent en évidence la capacité des séquences ssARN dérivées du VHC à stimuler les TLR 7/8 dans différentes populations de DC et à initier une réponse immunitaire innée qui aboutit à la suppression de la réplication virale de façon dépendante de l’IFN. Quoiqu’il en soit, le VHC est capable d’échapper à sa reconnaissance par les monocytes et les DCs qui ont le potentiel pour produire de l’IFN et inhiber la réplication virale après engagement des TLR 7/8. Les macrophages possèdent quant à eux la capacité de reconnaître le VHC grâce en partie à l’expression de DC-SIGN à leur surface, mais n’inhibent pas la réplication du virus car ils ne produisent pas d’IFN. L’échappement du VHC aux défenses antivirales pourrait ainsi expliquer l’échec du système immunitaire inné à contrôler l’infection par le VHC. De plus, la production de cytokines inflammatoires observée après stimulation in vitro des macrophages par le VHC suggère leur potentielle contribution dans l’inflammation que l’on retrouve chez les individus infectés par le VHC.
Resumo:
Dans cette dissertation, nous présentons plusieurs techniques d’apprentissage d’espaces sémantiques pour plusieurs domaines, par exemple des mots et des images, mais aussi à l’intersection de différents domaines. Un espace de représentation est appelé sémantique si des entités jugées similaires par un être humain, ont leur similarité préservée dans cet espace. La première publication présente un enchaînement de méthodes d’apprentissage incluant plusieurs techniques d’apprentissage non supervisé qui nous a permis de remporter la compétition “Unsupervised and Transfer Learning Challenge” en 2011. Le deuxième article présente une manière d’extraire de l’information à partir d’un contexte structuré (177 détecteurs d’objets à différentes positions et échelles). On montrera que l’utilisation de la structure des données combinée à un apprentissage non supervisé permet de réduire la dimensionnalité de 97% tout en améliorant les performances de reconnaissance de scènes de +5% à +11% selon l’ensemble de données. Dans le troisième travail, on s’intéresse à la structure apprise par les réseaux de neurones profonds utilisés dans les deux précédentes publications. Plusieurs hypothèses sont présentées et testées expérimentalement montrant que l’espace appris a de meilleures propriétés de mixage (facilitant l’exploration de différentes classes durant le processus d’échantillonnage). Pour la quatrième publication, on s’intéresse à résoudre un problème d’analyse syntaxique et sémantique avec des réseaux de neurones récurrents appris sur des fenêtres de contexte de mots. Dans notre cinquième travail, nous proposons une façon d’effectuer de la recherche d’image ”augmentée” en apprenant un espace sémantique joint où une recherche d’image contenant un objet retournerait aussi des images des parties de l’objet, par exemple une recherche retournant des images de ”voiture” retournerait aussi des images de ”pare-brises”, ”coffres”, ”roues” en plus des images initiales.