11 resultados para Automatic Speaker Recognition
em Université de Montréal, Canada
Resumo:
De plus en plus de recherches sur les Interactions Humain-Machine (IHM) tentent d’effectuer des analyses fines de l’interaction afin de faire ressortir ce qui influence les comportements des utilisateurs. Tant au niveau de l’évaluation de la performance que de l’expérience des utilisateurs, on note qu’une attention particulière est maintenant portée aux réactions émotionnelles et cognitives lors de l’interaction. Les approches qualitatives standards sont limitées, car elles se fondent sur l’observation et des entrevues après l’interaction, limitant ainsi la précision du diagnostic. L’expérience utilisateur et les réactions émotionnelles étant de nature hautement dynamique et contextualisée, les approches d’évaluation doivent l’être de même afin de permettre un diagnostic précis de l’interaction. Cette thèse présente une approche d’évaluation quantitative et dynamique qui permet de contextualiser les réactions des utilisateurs afin d’en identifier les antécédents dans l’interaction avec un système. Pour ce faire, ce travail s’articule autour de trois axes. 1) La reconnaissance automatique des buts et de la structure de tâches de l’utilisateur, à l’aide de mesures oculométriques et d’activité dans l’environnement par apprentissage machine. 2) L’inférence de construits psychologiques (activation, valence émotionnelle et charge cognitive) via l’analyse des signaux physiologiques. 3) Le diagnostic de l‘interaction reposant sur le couplage dynamique des deux précédentes opérations. Les idées et le développement de notre approche sont illustrés par leur application dans deux contextes expérimentaux : le commerce électronique et l’apprentissage par simulation. Nous présentons aussi l’outil informatique complet qui a été implémenté afin de permettre à des professionnels en évaluation (ex. : ergonomes, concepteurs de jeux, formateurs) d’utiliser l’approche proposée pour l’évaluation d’IHM. Celui-ci est conçu de manière à faciliter la triangulation des appareils de mesure impliqués dans ce travail et à s’intégrer aux méthodes classiques d’évaluation de l’interaction (ex. : questionnaires et codage des observations).
Resumo:
Affiliation: Centre Robert-Cedergren de l'Université de Montréal en bio-informatique et génomique & Département de biochimie, Université de Montréal
Resumo:
The traditional role of justice is to arbitrate where the good will of people is not enough, if even present, to settle a dispute between the concerned parties. It is a procedural approach that assumes a fractured relationship between those involved. Recognition, at first glance, would not seem to mirror these aspects of justice. Yet recognition is very much a subject of justice these days. The aim of this paper is to question the applicability of justice to the practice of recognition. The methodological orientation of this paper is a Kantian-style critique of the institution of justice, highlighting the limits of its reach and the dangers of overextension. The critique unfolds in the following three steps: 1) There is an immediate appeal to justice as a practice of recognition through its commitment to universality. This allure is shown to be deceptive in providing no prescription for the actual practice of this universality. 2) The interventionist character of justice is designed to address divided relationships. If recognition is only given expression through this channel, then we can only assume division as our starting ground. 3) The outcome of justice in respect to recognition is identification. This identification is left vulnerable to misrecognition itself, creating a cycle of injustice that demands recognition from anew. It seems to be well accepted that recognition is essentjustice, but less clear how to do justice to recognition. This paper is an effort in clarification.
Resumo:
L’objectif principal de cette thèse était de quantifier et comparer l’effort requis pour reconnaître la parole dans le bruit chez les jeunes adultes et les personnes aînées ayant une audition normale et une acuité visuelle normale (avec ou sans lentille de correction de la vue). L’effort associé à la perception de la parole est lié aux ressources attentionnelles et cognitives requises pour comprendre la parole. La première étude (Expérience 1) avait pour but d’évaluer l’effort associé à la reconnaissance auditive de la parole (entendre un locuteur), tandis que la deuxième étude (Expérience 2) avait comme but d’évaluer l’effort associé à la reconnaissance auditivo-visuelle de la parole (entendre et voir le visage d’un locuteur). L’effort fut mesuré de deux façons différentes. D’abord par une approche comportementale faisant appel à un paradigme expérimental nommé double tâche. Il s’agissait d’une tâche de reconnaissance de mot jumelée à une tâche de reconnaissance de patrons vibro-tactiles. De plus, l’effort fut quantifié à l’aide d’un questionnaire demandant aux participants de coter l’effort associé aux tâches comportementales. Les deux mesures d’effort furent utilisées dans deux conditions expérimentales différentes : 1) niveau équivalent – c'est-à-dire lorsque le niveau du bruit masquant la parole était le même pour tous les participants et, 2) performance équivalente – c'est-à-dire lorsque le niveau du bruit fut ajusté afin que les performances à la tâche de reconnaissance de mots soient identiques pour les deux groupes de participant. Les niveaux de performance obtenus pour la tâche vibro-tactile ont révélé que les personnes aînées fournissent plus d’effort que les jeunes adultes pour les deux conditions expérimentales, et ce, quelle que soit la modalité perceptuelle dans laquelle les stimuli de la parole sont présentés (c.-à.-d., auditive seulement ou auditivo-visuelle). Globalement, le ‘coût’ associé aux performances de la tâche vibro-tactile était au plus élevé pour les personnes aînées lorsque la parole était présentée en modalité auditivo-visuelle. Alors que les indices visuels peuvent améliorer la reconnaissance auditivo-visuelle de la parole, nos résultats suggèrent qu’ils peuvent aussi créer une charge additionnelle sur les ressources utilisées pour traiter l’information. Cette charge additionnelle a des conséquences néfastes sur les performances aux tâches de reconnaissance de mots et de patrons vibro-tactiles lorsque celles-ci sont effectuées sous des conditions de double tâche. Conformément aux études antérieures, les coefficients de corrélations effectuées à partir des données de l’Expérience 1 et de l’Expérience 2 soutiennent la notion que les mesures comportementales de double tâche et les réponses aux questionnaires évaluent différentes dimensions de l’effort associé à la reconnaissance de la parole. Comme l’effort associé à la perception de la parole repose sur des facteurs auditifs et cognitifs, une troisième étude fut complétée afin d’explorer si la mémoire auditive de travail contribue à expliquer la variance dans les données portant sur l’effort associé à la perception de la parole. De plus, ces analyses ont permis de comparer les patrons de réponses obtenues pour ces deux facteurs après des jeunes adultes et des personnes aînées. Pour les jeunes adultes, les résultats d’une analyse de régression séquentielle ont démontré qu’une mesure de la capacité auditive (taille de l’empan) était reliée à l’effort, tandis qu’une mesure du traitement auditif (rappel alphabétique) était reliée à la précision avec laquelle les mots étaient reconnus lorsqu’ils étaient présentés sous les conditions de double tâche. Cependant, ces mêmes relations n’étaient pas présentes dans les données obtenues pour le groupe de personnes aînées ni dans les données obtenues lorsque les tâches de reconnaissance de la parole étaient effectuées en modalité auditivo-visuelle. D’autres études sont nécessaires pour identifier les facteurs cognitifs qui sous-tendent l’effort associé à la perception de la parole, et ce, particulièrement chez les personnes aînées.
Resumo:
Question : Cette thèse comporte deux articles portant sur l’étude d’expressions faciales émotionnelles. Le processus de développement d’une nouvelle banque de stimuli émotionnels fait l’objet du premier article, alors que le deuxième article utilise cette banque pour étudier l’effet de l’anxiété de trait sur la reconnaissance des expressions statiques. Méthodes : Un total de 1088 clips émotionnels (34 acteurs X 8 émotions X 4 exemplaire) ont été alignés spatialement et temporellement de sorte que les yeux et le nez de chaque acteur occupent le même endroit dans toutes les vidéos. Les vidéos sont toutes d’une durée de 500ms et contiennent l’Apex de l’expression. La banque d’expressions statiques fut créée à partir de la dernière image des clips. Les stimuli ont été soumis à un processus de validation rigoureux. Dans la deuxième étude, les expressions statiques sont utilisées conjointement avec la méthode Bubbles dans le but d’étudier la reconnaissance des émotions chez des participants anxieux. Résultats : Dans la première étude, les meilleurs stimuli ont été sélectionnés [2 (statique & dynamique) X 8 (expressions) X 10 (acteurs)] et forment la banque d’expressions STOIC. Dans la deuxième étude, il est démontré que les individus présentant de l'anxiété de trait utilisent préférentiellement les basses fréquences spatiales de la région buccale du visage et ont une meilleure reconnaissance des expressions de peur. Discussion : La banque d’expressions faciales STOIC comporte des caractéristiques uniques qui font qu’elle se démarque des autres. Elle peut être téléchargée gratuitement, elle contient des vidéos naturelles et tous les stimuli ont été alignés, ce qui fait d’elle un outil de choix pour la communauté scientifique et les cliniciens. Les stimuli statiques de STOIC furent utilisés pour franchir une première étape dans la recherche sur la perception des émotions chez des individus présentant de l’anxiété de trait. Nous croyons que l’utilisation des basses fréquences est à la base des meilleures performances de ces individus, et que l’utilisation de ce type d’information visuelle désambigüise les expressions de peur et de surprise. Nous pensons également que c’est la névrose (chevauchement entre l'anxiété et la dépression), et non l’anxiété même qui est associée à de meilleures performances en reconnaissance d’expressions faciales de la peur. L’utilisation d’instruments mesurant ce concept devrait être envisagée dans de futures études.
Resumo:
L'apprentissage machine (AM) est un outil important dans le domaine de la recherche d'information musicale (Music Information Retrieval ou MIR). De nombreuses tâches de MIR peuvent être résolues en entraînant un classifieur sur un ensemble de caractéristiques. Pour les tâches de MIR se basant sur l'audio musical, il est possible d'extraire de l'audio les caractéristiques pertinentes à l'aide de méthodes traitement de signal. Toutefois, certains aspects musicaux sont difficiles à extraire à l'aide de simples heuristiques. Afin d'obtenir des caractéristiques plus riches, il est possible d'utiliser l'AM pour apprendre une représentation musicale à partir de l'audio. Ces caractéristiques apprises permettent souvent d'améliorer la performance sur une tâche de MIR donnée. Afin d'apprendre des représentations musicales intéressantes, il est important de considérer les aspects particuliers à l'audio musical dans la conception des modèles d'apprentissage. Vu la structure temporelle et spectrale de l'audio musical, les représentations profondes et multiéchelles sont particulièrement bien conçues pour représenter la musique. Cette thèse porte sur l'apprentissage de représentations de l'audio musical. Des modèles profonds et multiéchelles améliorant l'état de l'art pour des tâches telles que la reconnaissance d'instrument, la reconnaissance de genre et l'étiquetage automatique y sont présentés.
Resumo:
L’objectif à moyen terme de ce travail est d’explorer quelques formulations des problèmes d’identification de forme et de reconnaissance de surface à partir de mesures ponctuelles. Ces problèmes ont plusieurs applications importantes dans les domaines de l’imagerie médicale, de la biométrie, de la sécurité des accès automatiques et dans l’identification de structures cohérentes lagrangiennes en mécanique des fluides. Par exemple, le problème d’identification des différentes caractéristiques de la main droite ou du visage d’une population à l’autre ou le suivi d’une chirurgie à partir des données générées par un numériseur. L’objectif de ce mémoire est de préparer le terrain en passant en revue les différents outils mathématiques disponibles pour appréhender la géométrie comme variable d’optimisation ou d’identification. Pour l’identification des surfaces, on explore l’utilisation de fonctions distance ou distance orientée, et d’ensembles de niveau comme chez S. Osher et R. Fedkiw ; pour la comparaison de surfaces, on présente les constructions des métriques de Courant par A. M. Micheletti en 1972 et le point de vue de R. Azencott et A. Trouvé en 1995 qui consistent à générer des déformations d’une surface de référence via une famille de difféomorphismes. L’accent est mis sur les fondations mathématiques sous-jacentes que l’on a essayé de clarifier lorsque nécessaire, et, le cas échéant, sur l’exploration d’autres avenues.
Resumo:
1er Prix du concours d'initiation à la recherche organisé par le Regroupement Droit et Changements. La Loi sur les Indiens institutionnalise toujours de nombreuses facettes de ce qu’est être « Indien » pour beaucoup d’individus au Canada et un changement de perspective doit être opéré. Cet essai puise dans la pensée du philosophe Theodor Adorno pour réfléchir aux tentatives de reconnaissance juridique par le Canada des individus et sociétés autochtones en vertu de l’article 35 de la Constitution. L’auteur présente la théorie de la dialectique négative d’Adorno de 1966 sur le rapport à l’altérité, à partir de l’analyse de la professeure Drucilla Cornell, afin d’identifier ce que sa pensée prescrit pour établir des rapports non-oppressants entre Autochtones et non-Autochtones et leurs gouvernements aujourd’hui. La dialectique négative est particulièrement appropriée à la tentative de reconnaissance juridique de l’existence des sociétés autochtones par le Canada, du fait de leur statut marginalisé et de leurs revendications à la spécificité. Après avoir établi un tel cadre, l’auteur souligne que des précédentes tentatives de reconnaissances se sont soldées par des échecs en raison des désaccords au niveau des valeurs impliquées et des concepts utilisés auxquels elles ont donné lieu. Le processus de signature des traités numérotés de 1871-1921 est employé comme illustration en raison de son résultat souvent décrit aujourd’hui comme coercitif et injuste en dépit du discours de négociation sur un pied d’égalité l’ayant accompagné. Les critiques contemporaines de la politique en vigueur de mise en œuvre de l’autonomie gouvernementale autochtone par des accords négociés sont également présentées, afin d’illustrer que des désaccords quant à la manière dont l’État canadien entend reconnaître les peuples autochtones persistent à ce jour. L’auteur ajoute que, du point de vue de la dialectique négative, de tels désaccords doivent nécessairement être résolus pour que des rapports moins oppressifs puissent être établis. L’auteur conclut que la dialectique négative impose à la fois de se considérer soi-même (« je est un autre ») et de considérer l’autre comme au-delà des limites de sa propre pensée. La Cour suprême a déjà reconnu que la seule perspective de la common law n’est pas suffisante pour parvenir à une réconciliation des souverainetés des Autochtones et de la Couronne en vertu de la Constitution. Le concept de common law de fiduciaire présente un véhicule juridique intéressant pour une reconfiguration plus profonde par le gouvernement canadien de son rapport avec les peuples autochtones, priorisant processus plutôt que résultats et relations plutôt que certitude. Il doit toutefois être gardé à l’esprit que la reconnaissance de ces peuples par l’État canadien par le prisme de la pensée d’Adorno présente non seulement le défi d’inclure de nouvelles perspectives, mais également de remettre en cause les prémisses fondamentales à partir desquelles on considère la communauté canadienne en général.
Resumo:
Les humains communiquent via différents types de canaux: les mots, la voix, les gestes du corps, des émotions, etc. Pour cette raison, un ordinateur doit percevoir ces divers canaux de communication pour pouvoir interagir intelligemment avec les humains, par exemple en faisant usage de microphones et de webcams. Dans cette thèse, nous nous intéressons à déterminer les émotions humaines à partir d’images ou de vidéo de visages afin d’ensuite utiliser ces informations dans différents domaines d’applications. Ce mémoire débute par une brève introduction à l'apprentissage machine en s’attardant aux modèles et algorithmes que nous avons utilisés tels que les perceptrons multicouches, réseaux de neurones à convolution et autoencodeurs. Elle présente ensuite les résultats de l'application de ces modèles sur plusieurs ensembles de données d'expressions et émotions faciales. Nous nous concentrons sur l'étude des différents types d’autoencodeurs (autoencodeur débruitant, autoencodeur contractant, etc) afin de révéler certaines de leurs limitations, comme la possibilité d'obtenir de la coadaptation entre les filtres ou encore d’obtenir une courbe spectrale trop lisse, et étudions de nouvelles idées pour répondre à ces problèmes. Nous proposons également une nouvelle approche pour surmonter une limite des autoencodeurs traditionnellement entrainés de façon purement non-supervisée, c'est-à-dire sans utiliser aucune connaissance de la tâche que nous voulons finalement résoudre (comme la prévision des étiquettes de classe) en développant un nouveau critère d'apprentissage semi-supervisé qui exploite un faible nombre de données étiquetées en combinaison avec une grande quantité de données non-étiquetées afin d'apprendre une représentation adaptée à la tâche de classification, et d'obtenir une meilleure performance de classification. Finalement, nous décrivons le fonctionnement général de notre système de détection d'émotions et proposons de nouvelles idées pouvant mener à de futurs travaux.
Resumo:
Le virus de l’hépatite C (VHC) est un virus à ARN simple brin positif (ssARN) qui se replique dans le foie. Deux cents millions de personnes sont infectées par le virus dans le monde et environ 80% d’entre elles progresseront vers un stade chronique de l’infection. Les thérapies anti-virales actuelles comme l’interféron (IFN) ou la ribavirin sont de plus en plus utilisées mais ne sont efficaces que dans la moitié des individus traités et sont souvent accompagnées d’une toxicité ou d’effets secondaires indésirables. Le système immunitaire inné est essentiel au contrôle des infections virales. Les réponses immunitaires innées sont activées suite à la reconnaissance par les Pathogen Recognition Receptors (PRRs), de motifs macromoléculaires dérivés du virus appelés Pathogen-Associated Molecular Patterns (PAMPs). Bien que l'activation du système immunitaire par l'ARN ou les protéines du VHC ait été largement étudiée, très peu de choses sont actuellement connues concernant la détection du virus par le système immunitaire inné. Et même si l’on peut très rapidement déceler des réponses immunes in vivo après infection par le VHC, l’augmentation progressive et continue de la charge virale met en évidence une incapacité du système immunitaire à contrôler l’infection virale. Une meilleure compréhension des mécanismes d’activation du système immunitaire par le VHC semble, par conséquent, essentielle au développement de stratégies antivirales plus efficaces. Dans le présent travail nous montrons, dans un modèle de cellule primaire, que le génome ARN du VHC contient des séquences riches en GU capables de stimuler spécifiquement les récepteurs de type Toll (TLR) 7 et 8. Cette stimulation a pour conséquence la maturation des cellules dendritiques plasmacytoïdes (pDCs), le production d’interféron de type I (IFN) ainsi que l’induction de chémokines et cytokines inflammatoires par les différentes types de cellules présentatrices d’antigènes (APCs). Les cytokines produites après stimulation de monocytes ou de pDCs par ces séquences ssARN virales, inhibent la production du virus de façon dépendante de l’IFN. En revanche, les cytokines produites après stimulation de cellules dendritiques myéloïdes (mDCs) ou de macrophages par ces mêmes séquences n’ont pas d’effet inhibiteur sur la production virale car les séquences ssARN virales n’induisent pas la production d’IFN par ces cellules. Les cytokines produites après stimulation des TLR 7/8 ont également pour effet de diminuer, de façon indépendante de l’IFN, l’expression du récepteur au VHC (CD81) sur la lignée cellulaire Huh7.5, ce qui pourrait avoir pour conséquence de restreindre l’infection par le VHC. Quoiqu’il en soit, même si les récepteurs au VHC comme le CD81 sont largement exprimés à la surface de différentes sous populations lymphocytaires, les DCs et les monocytes ne répondent pas aux VHC, Nos résultats indiquent que seuls les macrophages sont capables de reconnaître le VHC et de produire des cytokines inflammatoires en réponse à ce dernier. La reconnaissance du VHC par les macrophages est liée à l’expression membranaire de DC-SIGN et l’engagement des TLR 7/8 qui en résulte. Comme d’autres agonistes du TLR 7/8, le VHC stimule la production de cytokines inflammatoires (TNF-α, IL-8, IL-6 et IL-1b) mais n’induit pas la production d’interféron-beta par les macrophages. De manière attendue, la production de cytokines par des macrophages stimulés par les ligands du TLR 7/8 ou les séquences ssARN virales n’inhibent pas la réplication virale. Nos résultats mettent en évidence la capacité des séquences ssARN dérivées du VHC à stimuler les TLR 7/8 dans différentes populations de DC et à initier une réponse immunitaire innée qui aboutit à la suppression de la réplication virale de façon dépendante de l’IFN. Quoiqu’il en soit, le VHC est capable d’échapper à sa reconnaissance par les monocytes et les DCs qui ont le potentiel pour produire de l’IFN et inhiber la réplication virale après engagement des TLR 7/8. Les macrophages possèdent quant à eux la capacité de reconnaître le VHC grâce en partie à l’expression de DC-SIGN à leur surface, mais n’inhibent pas la réplication du virus car ils ne produisent pas d’IFN. L’échappement du VHC aux défenses antivirales pourrait ainsi expliquer l’échec du système immunitaire inné à contrôler l’infection par le VHC. De plus, la production de cytokines inflammatoires observée après stimulation in vitro des macrophages par le VHC suggère leur potentielle contribution dans l’inflammation que l’on retrouve chez les individus infectés par le VHC.
Resumo:
La présente étude porte sur les effets de la familiarité dans l’identification d’individus en situation de parade vocale. La parade vocale est une technique inspirée d’une procédure paralégale d’identification visuelle d’individus. Elle consiste en la présentation de plusieurs voix avec des aspects acoustiques similaires définis selon des critères reconnus dans la littérature. L’objectif principal de la présente étude était de déterminer si la familiarité d’une voix dans une parade vocale peut donner un haut taux d’identification correcte (> 99 %) de locuteurs. Cette étude est la première à quantifier le critère de familiarité entre l’identificateur et une personne associée à « une voix-cible » selon quatre paramètres liés aux contacts (communications) entre les individus, soit la récence du contact (à quand remonte la dernière rencontre avec l’individu), la durée et la fréquence moyenne du contact et la période pendant laquelle avaient lieu les contacts. Trois différentes parades vocales ont été élaborées, chacune contenant 10 voix d’hommes incluant une voix-cible pouvant être très familière; ce degré de familiarité a été établi selon un questionnaire. Les participants (identificateurs, n = 44) ont été sélectionnés selon leur niveau de familiarité avec la voix-cible. Toutes les voix étaient celles de locuteurs natifs du franco-québécois et toutes avaient des fréquences fondamentales moyennes similaires à la voix-cible (à un semi-ton près). Aussi, chaque parade vocale contenait des énoncés variant en longueur selon un nombre donné de syllabes (1, 4, 10, 18 syll.). Les résultats démontrent qu’en contrôlant le degré de familiarité et avec un énoncé de 4 syllabes ou plus, on obtient un taux d’identification avec une probabilité exacte d’erreur de p < 1 x 10-12. Ces taux d’identification dépassent ceux obtenus actuellement avec des systèmes automatisés.