27 resultados para Audio-Visual Automatic Speech Recognition
Resumo:
Cette version de la thèse a été tronquée des certains éléments protégés par le droit d’auteur. Une version plus complète est disponible en ligne pour les membres de la communauté de l’Université de Montréal et peut aussi être consultée dans une des bibliothèques UdeM.
Resumo:
Ce mémoire de maîtrise porte principalement sur la question de la réappropriation historique et musicale des Tziganes dans le docu-fiction Latcho Drom (1993) de Tony Gatlif. Dans un premier chapitre, il s’agit de comparer l’histoire écrite sur les Tziganes avec leur mise en image afin de déterminer comment le cinéaste apporte dans le langage audiovisuel de Latcho Drom un total renouveau dans le discours dominant. Dans cette perspective, l’appareil cinématographique se révèle être un médium de revendication et de réappropriation de l’être tzigane et de son histoire. Dans un deuxième chapitre, il est question de démontrer avec des études basées sur l’ethnomusicologie comment les musiques tziganes, sont rapidement assimilées au patrimoine culturel des sociétés européennes. Latcho Drom qui traduit avec justesse des expressions musicales très encrées de la vie de ces communautés, s’inscrit en contradiction avec la conception territorialiste de musicologues et ethnomusicologues qui refusent d’accorder à la musique tzigane légitimité et autonomie. Dans un troisième chapitre, il s’agit de déterminer comment le cinéaste cherche à faire entrer son spectateur dans un rapport de proximité avec les communautés de Latcho Drom afin de susciter en lui reconnaissance et empathie.
Resumo:
But: La perte unilatérale du cortex visuel postérieur engendre une cécité corticale controlatérale à la lésion, qu’on appelle hémianopsie homonyme (HH). Celle-ci est notamment accompagnée de problèmes d’exploration visuelle dans l’hémichamp aveugle dus à des stratégies oculaires déficitaires, qui ont été la cible des thérapies de compensation. Or, cette perte de vision peut s’accompagner d’une perception visuelle inconsciente, appelée blindsight. Notre hypothèse propose que le blindsight soit médié par la voie rétino-colliculaire extrastriée, recrutant le colliculus supérieur (CS), une structure multisensorielle. Notre programme a pour objectif d’évaluer l’impact d’un entraînement multisensoriel (audiovisuel) sur la performance visuelle inconsciente des personnes hémianopsiques et les stratégies oculaires. Nous essayons, ainsi, de démontrer l’implication du CS dans le phénomène de blindsight et la pertinence de la technique de compensation multisensorielle comme thérapie de réadaptation. Méthode: Notre participante, ML, atteinte d’une HH droite a effectué un entraînement d’intégration audiovisuel pour une période de 10 jours. Nous avons évalué la performance visuelle en localisation et en détection ainsi que les stratégies oculaires selon trois comparaisons principales : (1) entre l’hémichamp normal et l’hémichamp aveugle; (2) entre la condition visuelle et les conditions audiovisuelles; (3) entre les sessions de pré-entraînement, post-entraînement et 3 mois post-entraînement. Résultats: Nous avons démontré que (1) les caractéristiques des saccades et des fixations sont déficitaires dans l’hémichamp aveugle; (2) les stratégies saccadiques diffèrent selon les excentricités et les conditions de stimulations; (3) une adaptation saccadique à long terme est possible dans l’hémichamp aveugle si l’on considère le bon cadre de référence; (4) l’amélioration des mouvements oculaires est liée au blindsight. Conclusion(s): L’entraînement multisensoriel conduit à une amélioration de la performance visuelle pour des cibles non perçues, tant en localisation qu’en détection, ce qui est possiblement induit par le développement de la performance oculomotrice.
Resumo:
Cette thèse contribue a la recherche vers l'intelligence artificielle en utilisant des méthodes connexionnistes. Les réseaux de neurones récurrents sont un ensemble de modèles séquentiels de plus en plus populaires capable en principe d'apprendre des algorithmes arbitraires. Ces modèles effectuent un apprentissage en profondeur, un type d'apprentissage machine. Sa généralité et son succès empirique en font un sujet intéressant pour la recherche et un outil prometteur pour la création de l'intelligence artificielle plus générale. Le premier chapitre de cette thèse donne un bref aperçu des sujets de fonds: l'intelligence artificielle, l'apprentissage machine, l'apprentissage en profondeur et les réseaux de neurones récurrents. Les trois chapitres suivants couvrent ces sujets de manière de plus en plus spécifiques. Enfin, nous présentons quelques contributions apportées aux réseaux de neurones récurrents. Le chapitre \ref{arxiv1} présente nos travaux de régularisation des réseaux de neurones récurrents. La régularisation vise à améliorer la capacité de généralisation du modèle, et joue un role clé dans la performance de plusieurs applications des réseaux de neurones récurrents, en particulier en reconnaissance vocale. Notre approche donne l'état de l'art sur TIMIT, un benchmark standard pour cette tâche. Le chapitre \ref{cpgp} présente une seconde ligne de travail, toujours en cours, qui explore une nouvelle architecture pour les réseaux de neurones récurrents. Les réseaux de neurones récurrents maintiennent un état caché qui représente leurs observations antérieures. L'idée de ce travail est de coder certaines dynamiques abstraites dans l'état caché, donnant au réseau une manière naturelle d'encoder des tendances cohérentes de l'état de son environnement. Notre travail est fondé sur un modèle existant; nous décrivons ce travail et nos contributions avec notamment une expérience préliminaire.
Resumo:
Les parents à travers le monde chantent et parlent à leurs bébés. Ces deux types de vocalisations aux enfants préverbaux partagent plusieurs similarités de même que des différences, mais leurs conséquences sur les bébés demeurent méconnues. L’objectif de cette thèse était de documenter l’efficacité relative du chant et de la parole à capter l’attention des bébés sur de courtes périodes de temps (Étude 1) ainsi qu’à réguler l’affect des bébés en maintenant un état de satisfaction sur une période de temps prolongée (Étude 2). La première étude a exploré les réactions attentionnelles des bébés exposés à des enregistrements audio non familiers de chant et de parole. Lors de l’expérience 1, des bébés de 4 à 13 mois ont été exposés à de la parole joyeuse s’adressant au bébé (séquences de syllabes) et des berceuses fredonnées par la même femme. Ils ont écouté significativement plus longtemps la parole, qui contenait beaucoup plus de variabilité acoustique et d’expressivité que les berceuses. Dans l’expérience 2, des bébés d’âges comparables n’ont montré aucune écoute différentielle face à une version parlée ou chantée d’une chanson pour enfant turque, les deux versions étant exprimées de façon joyeuse / heureuse. Les bébés de l’expérience 3, ayant entendu la version chantée de la chanson turque ainsi qu’une version parlée de façon affectivement neutre ou s’adressant à l’adulte, ont écouté significativement plus longtemps la version chantée. Dans l’ensemble, la caractéristique vocale joyeuse plutôt que le mode vocal (chanté versus parlé) était le principal déterminant de l’attention du bébé, indépendamment de son âge. Dans la seconde étude, la régulation affective des bébés a été explorée selon l’exposition à des enregistrements audio non familiers de chant ou de parole. Les bébés ont été exposés à du chant ou de la parole jusqu’à ce qu’ils rencontrent un critère d’insatisfaction exprimée dans le visage. Lors de l’expérience 1, des bébés de 7 à 10 mois ont écouté des enregistrements de paroles s’adressant au bébé, de paroles s’adressant à l’adulte ou du chant dans une langue non familière (turque). Les bébés ont écouté le chant près de deux fois plus longtemps que les paroles avant de manifester de l’insatisfaction. Lors de l’expérience 2, des bébés ont été exposés à des enregistrements de paroles ou de chants issus d’interactions naturelles entre la mère et son bébé, dans une langue familière. Comme dans l’expérience 1, le chant s’adressant au bébé était considérablement plus efficace que les paroles pour retarder l’apparition du mécontentement. La construction temporelle du chant, avec notamment son rythme régulier, son tempo stable et ses répétitions, pourrait jouer un rôle important dans la régulation affective, afin de soutenir l’attention, rehausser la familiarité ou promouvoir l’écoute prédictive et l’entraînement. En somme, les études présentées dans cette thèse révèlent, pour la première fois, que le chant est un outil parental puissant, tout aussi efficace que la parole pour capter l’attention et plus efficace que la parole pour maintenir les bébés dans un état paisible. Ces découvertes soulignent l’utilité du chant dans la vie quotidienne et l’utilité potentielle du chant dans des contextes thérapeutiques variés impliquant des bébés.
Resumo:
Nous proposons, dans ce mémoire, d’explorer les possibilités pratiques et pédagogiques d’une approche autopoïétique de la création sonore au cinéma. Notre principal souci sera de saisir les modalités de l’ascèse propre aux artistes qui se livrent à une telle activité, comprise comme un « apprentissage de soi par soi » (Foucault), afin de faire celui qui peut faire l’œuvre (processus de subjectivation), et le rôle descriptif et opératoire de cet exercice - en tant qu’effort pour penser de façon critique son propre savoir-faire -, dans le faire-œuvre et l’invention de possibles dans l’écriture audio-visuelle cinématographique. Pour ce faire, d’une part, nous étudierons, à partir de témoignages autopoïétiques, le rapport réflexif de trois créateurs sonores à leur pratique et leur effort pour penser (et mettre en place) les conditions d’une pratique et d’une esthétique du son filmique comme forme d’art sonore dans un contexte audio-visuel, alors qu’ils travaillent dans un cadre normalisant : Randy Thom, Walter Murch et Franck Warner. D’autre part, nous recourrons à différentes considérations théoriques (la théorie de l’art chez Deleuze et Guattari, la « surécoute » chez Szendy, l’histoire de la poïétique à partir de Valéry, etc.) et pratiques (la recherche musicale chez Schaeffer, la relation maître-apprenti, les rapports entre automatisme et pensée dans le cinéma moderne chez Artaud et Godard, etc.), afin de contextualiser et d’analyser ces expériences de création, avec l’objectif de problématiser la figure de l’artiste-poïéticien sur un plan éthique dans le sillage de la théorie des techniques de soi chez Foucault.
Resumo:
Pour respecter les droits d’auteur, la version électronique de ce mémoire a été dépouillée de ses documents visuels et audio-visuels. La version intégrale du mémoire a été déposée au Service de la gestion des documents et des archives de l'Université de Montréal
Resumo:
Lors d'une intervention conversationnelle, le langage est supporté par une communication non-verbale qui joue un rôle central dans le comportement social humain en permettant de la rétroaction et en gérant la synchronisation, appuyant ainsi le contenu et la signification du discours. En effet, 55% du message est véhiculé par les expressions faciales, alors que seulement 7% est dû au message linguistique et 38% au paralangage. L'information concernant l'état émotionnel d'une personne est généralement inférée par les attributs faciaux. Cependant, on ne dispose pas vraiment d'instruments de mesure spécifiquement dédiés à ce type de comportements. En vision par ordinateur, on s'intéresse davantage au développement de systèmes d'analyse automatique des expressions faciales prototypiques pour les applications d'interaction homme-machine, d'analyse de vidéos de réunions, de sécurité, et même pour des applications cliniques. Dans la présente recherche, pour appréhender de tels indicateurs observables, nous essayons d'implanter un système capable de construire une source consistante et relativement exhaustive d'informations visuelles, lequel sera capable de distinguer sur un visage les traits et leurs déformations, permettant ainsi de reconnaître la présence ou absence d'une action faciale particulière. Une réflexion sur les techniques recensées nous a amené à explorer deux différentes approches. La première concerne l'aspect apparence dans lequel on se sert de l'orientation des gradients pour dégager une représentation dense des attributs faciaux. Hormis la représentation faciale, la principale difficulté d'un système, qui se veut être général, est la mise en œuvre d'un modèle générique indépendamment de l'identité de la personne, de la géométrie et de la taille des visages. La démarche qu'on propose repose sur l'élaboration d'un référentiel prototypique à partir d'un recalage par SIFT-flow dont on démontre, dans cette thèse, la supériorité par rapport à un alignement conventionnel utilisant la position des yeux. Dans une deuxième approche, on fait appel à un modèle géométrique à travers lequel les primitives faciales sont représentées par un filtrage de Gabor. Motivé par le fait que les expressions faciales sont non seulement ambigües et incohérentes d'une personne à une autre mais aussi dépendantes du contexte lui-même, à travers cette approche, on présente un système personnalisé de reconnaissance d'expressions faciales, dont la performance globale dépend directement de la performance du suivi d'un ensemble de points caractéristiques du visage. Ce suivi est effectué par une forme modifiée d'une technique d'estimation de disparité faisant intervenir la phase de Gabor. Dans cette thèse, on propose une redéfinition de la mesure de confiance et introduisons une procédure itérative et conditionnelle d'estimation du déplacement qui offrent un suivi plus robuste que les méthodes originales.
Resumo:
L'apprentissage machine (AM) est un outil important dans le domaine de la recherche d'information musicale (Music Information Retrieval ou MIR). De nombreuses tâches de MIR peuvent être résolues en entraînant un classifieur sur un ensemble de caractéristiques. Pour les tâches de MIR se basant sur l'audio musical, il est possible d'extraire de l'audio les caractéristiques pertinentes à l'aide de méthodes traitement de signal. Toutefois, certains aspects musicaux sont difficiles à extraire à l'aide de simples heuristiques. Afin d'obtenir des caractéristiques plus riches, il est possible d'utiliser l'AM pour apprendre une représentation musicale à partir de l'audio. Ces caractéristiques apprises permettent souvent d'améliorer la performance sur une tâche de MIR donnée. Afin d'apprendre des représentations musicales intéressantes, il est important de considérer les aspects particuliers à l'audio musical dans la conception des modèles d'apprentissage. Vu la structure temporelle et spectrale de l'audio musical, les représentations profondes et multiéchelles sont particulièrement bien conçues pour représenter la musique. Cette thèse porte sur l'apprentissage de représentations de l'audio musical. Des modèles profonds et multiéchelles améliorant l'état de l'art pour des tâches telles que la reconnaissance d'instrument, la reconnaissance de genre et l'étiquetage automatique y sont présentés.
Resumo:
Pour la plupart des gens, la lecture est une activité automatique, inhérente à leur vie quotidienne et ne demandant que peu d’effort. Chez les individus souffrant d’épilepsie réflexe à la lecture, le simple fait de lire déclenche des crises épileptiques et les personnes doivent alors renoncer à la lecture. Les facteurs responsables du déclenchement de l’activité épileptique dans l’épilepsie réflexe à la lecture demeurent encore mal définis. Certains auteurs suggèrent que le nombre ainsi que la localisation des pointes épileptiques seraient en lien avec la voie de lecture impliquée. Des études en imagerie cérébrale, menées auprès de populations sans trouble neurologique, ont dévoilé que la lecture active un réseau étendu incluant les cortex frontaux, temporo-pariétaux et occipito-temporaux bilatéralement avec des différences dans les patrons d’activation pour les voies de lecture lexicale et phonologique. La majorité des études ont eu recours à des tâches de lecture silencieuse qui ne permettent pas d'évaluer la performance des participants. Dans la première étude de cette thèse, qui porte sur une étude de cas d'un patient avec épilepsie réflexe à la lecture, nous avons déterminé les tâches langagières et les caractéristiques des stimuli qui influencent l'activité épileptique. Les résultats ont confirmé que la lecture était la principale tâche responsable du déclenchement de l’activité épileptique chez ce patient. En particulier, la fréquence des pointes épileptiques était significativement plus élevée lorsque le patient avait recours au processus de conversion grapho-phonémique. Les enregistrements électroencéphalographiques (EEG) ont révélé que les pointes épileptiques étaient localisées dans le gyrus précentral gauche, indépendamment de la voie de lecture. La seconde étude avait comme objectif de valider un protocole de lecture à voix haute ayant recours à la spectroscopie près du spectre de l’infrarouge (SPIR) pour investiguer les circuits neuronaux qui sous-tendent la lecture chez les normo-lecteurs. Douze participants neurologiquement sains ont lu à voix haute des mots irréguliers et des non-mots lors d’enregistrements en SPIR. Les résultats ont montré que la lecture des deux types de stimuli impliquait des régions cérébrales bilatérales communes incluant le gyrus frontal inférieur, le gyrus prémoteur et moteur, le cortex somatosensoriel associatif, le gyrus temporal moyen et supérieur, le gyrus supramarginal, le gyrus angulaire et le cortex visuel. Les concentrations totales d’hémoglobine (HbT) dans les gyri frontaux inférieurs bilatéraux étaient plus élevées dans la lecture des non-mots que dans celle des mots irréguliers. Ce résultat suggère que le gyrus frontal inférieur joue un rôle dans la conversion grapho-phonémique, qui caractérise la voie de lecture phonologique. Cette étude a confirmé le potentiel de la SPIR pour l’investigation des corrélats neuronaux des deux voies de lecture. Une des retombées importantes de cette thèse consiste en l’utilisation du protocole de lecture en SPIR pour investiguer les troubles de la lecture. Ces investigations pourraient aider à mieux établir les liens entre le fonctionnement cérébral et la lecture dans les dyslexies développementales et acquises.
Resumo:
Cette recherche exploratoire vise à documenter, du point de vue des intervenants, les conditions nécessaires à la mise en place de projets utilisant des outils de narrativité numérique, de même que les principaux apports de ces outils à l’intervention. Ces outils peuvent être des récits numériques qui sont de courtes vidéos (deux à cinq minutes) intégrant images, musique, texte, voix et animation, ou encore de courts fichiers audio, aussi appelés podcasting ou baladodiffusion. Il peut aussi s’agir de jeux vidéo interactifs ou d’un montage vidéo à partir d’extraits de témoignages. Dans un contexte où les pratiques d’intervention, dans les services publics en particulier, sont de plus en plus normées et standardisées, une recherche qui explore des outils d’intervention recourant à la créativité s’avère des plus pertinentes. Par ailleurs, ce champ n’a été que très peu exploré en service social jusqu’à maintenant. Des entrevues semi-dirigées ont été menées auprès de huit intervenants ayant utilisé ces outils dans leur pratique. L’analyse de leurs propos met d’abord en lumière les conditions nécessaires à la réalisation de ce type de projet, de même que les questions éthiques qui les accompagnent. Ensuite, du côté des principaux apports de ces outils, ils se situent, d’une part, dans le processus créatif collaboratif. Celui-ci permet d’enrichir l’intervention en donnant un espace de parole plus libre où intervenants et usagers créent des liens qui modifient le rapport hiérarchique entre aidant et aidé. D’autre part, l’attention professionnelle accordée à la réalisation des produits et à leur diffusion contribue à donner une plus grande visibilité à des personnes souvent exclues de l’espace public. Ainsi, en plus d’explorer les apports d’un outil artistique à l’intervention, cette recherche permet également d’analyser les enjeux de visibilité et de reconnaissance associés à l’utilisation de médias participatifs.
Resumo:
La perception de mouvements est associée à une augmentation de l’excitabilité du cortex moteur humain. Ce système appelé « miroir » sous-tendrait notre habileté à comprendre les gestes posés par une tierce personne puisqu’il est impliqué dans la reconnaissance, la compréhension et l’imitation de ces gestes. Dans cette étude, nous examinons de quelle façon ce système miroir s’implique et se latéralise dans la perception du chant et de la parole. Une stimulation magnétique transcrânienne (TMS) à impulsion unique a été appliquée sur la représentation de la bouche du cortex moteur de 11 participants. La réponse motrice engendrée a été mesurée sous la forme de potentiels évoqués moteurs (PÉMs), enregistrés à partir du muscle de la bouche. Ceux-ci ont été comparés lors de la perception de chant et de parole, dans chaque hémisphère cérébral. Afin d’examiner l’activation de ce système moteur dans le temps, les impulsions de la TMS ont été envoyées aléatoirement à l’intérieur de 7 fenêtres temporelles (500-3500 ms). Les stimuli pour la tâche de perception du chant correspondaient à des vidéos de 4 secondes dans lesquelles une chanteuse produisait un intervalle ascendant de deux notes que les participants devaient juger comme correspondant ou non à un intervalle écrit. Pour la tâche de perception de la parole, les participants regardaient des vidéos de 4 secondes montrant une personne expliquant un proverbe et devaient juger si cette explication correspondait bien à un proverbe écrit. Les résultats de cette étude montrent que les amplitudes des PÉMs recueillis dans la tâche de perception de chant étaient plus grandes après stimulation de l’hémisphère droit que de l’hémisphère gauche, surtout lorsque l’impulsion était envoyée entre 1000 et 1500 ms. Aucun effet significatif n’est ressorti de la condition de perception de la parole. Ces résultats suggèrent que le système miroir de l’hémisphère droit s’active davantage après une présentation motrice audio-visuelle, en comparaison de l’hémisphère gauche.