6 resultados para Audio-Visual Automatic Speech Recognition
em Université de Montréal
Resumo:
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
Resumo:
Notre mémoire prend en charge de re-conceptualiser notre nouvel environnement audio-visuel et l’expérience que nous en faisons. À l’ère du numérique et de la dissémination généralisée des images animées, nous circonscrivons une catégorie d’images que nous concevons comme la plus à même d’avoir un impact sur le développement humain. Nous les appelons des images-sons synchrono-photo-temporalisées. Plus spécifiquement, nous cherchons à mettre en lumière leur puissance d’affection et de contrôle en démontrant qu’elles ont une influence certaine sur le processus d’individuation, influence qui est grandement facilitée par l’isotopie structurelle qui existe entre le flux de conscience et leur flux d’écoulement. Par le biais des recherches de Bernard Stiegler, nous remarquons également l’important rôle que jouent l’attention et la mémoire dans le processus d’individuation. L’ensemble de notre réflexion nous fait réaliser à quel point le système d’éducation actuel québécois manque à sa tâche de formation citoyenne en ne dispensant pas un enseignement adéquat des images animées.
Resumo:
But: La perte unilatérale du cortex visuel postérieur engendre une cécité corticale controlatérale à la lésion, qu’on appelle hémianopsie homonyme (HH). Celle-ci est notamment accompagnée de problèmes d’exploration visuelle dans l’hémichamp aveugle dus à des stratégies oculaires déficitaires, qui ont été la cible des thérapies de compensation. Or, cette perte de vision peut s’accompagner d’une perception visuelle inconsciente, appelée blindsight. Notre hypothèse propose que le blindsight soit médié par la voie rétino-colliculaire extrastriée, recrutant le colliculus supérieur (CS), une structure multisensorielle. Notre programme a pour objectif d’évaluer l’impact d’un entraînement multisensoriel (audiovisuel) sur la performance visuelle inconsciente des personnes hémianopsiques et les stratégies oculaires. Nous essayons, ainsi, de démontrer l’implication du CS dans le phénomène de blindsight et la pertinence de la technique de compensation multisensorielle comme thérapie de réadaptation. Méthode: Notre participante, ML, atteinte d’une HH droite a effectué un entraînement d’intégration audiovisuel pour une période de 10 jours. Nous avons évalué la performance visuelle en localisation et en détection ainsi que les stratégies oculaires selon trois comparaisons principales : (1) entre l’hémichamp normal et l’hémichamp aveugle; (2) entre la condition visuelle et les conditions audiovisuelles; (3) entre les sessions de pré-entraînement, post-entraînement et 3 mois post-entraînement. Résultats: Nous avons démontré que (1) les caractéristiques des saccades et des fixations sont déficitaires dans l’hémichamp aveugle; (2) les stratégies saccadiques diffèrent selon les excentricités et les conditions de stimulations; (3) une adaptation saccadique à long terme est possible dans l’hémichamp aveugle si l’on considère le bon cadre de référence; (4) l’amélioration des mouvements oculaires est liée au blindsight. Conclusion(s): L’entraînement multisensoriel conduit à une amélioration de la performance visuelle pour des cibles non perçues, tant en localisation qu’en détection, ce qui est possiblement induit par le développement de la performance oculomotrice.
Resumo:
Cette thèse contribue a la recherche vers l'intelligence artificielle en utilisant des méthodes connexionnistes. Les réseaux de neurones récurrents sont un ensemble de modèles séquentiels de plus en plus populaires capable en principe d'apprendre des algorithmes arbitraires. Ces modèles effectuent un apprentissage en profondeur, un type d'apprentissage machine. Sa généralité et son succès empirique en font un sujet intéressant pour la recherche et un outil prometteur pour la création de l'intelligence artificielle plus générale. Le premier chapitre de cette thèse donne un bref aperçu des sujets de fonds: l'intelligence artificielle, l'apprentissage machine, l'apprentissage en profondeur et les réseaux de neurones récurrents. Les trois chapitres suivants couvrent ces sujets de manière de plus en plus spécifiques. Enfin, nous présentons quelques contributions apportées aux réseaux de neurones récurrents. Le chapitre \ref{arxiv1} présente nos travaux de régularisation des réseaux de neurones récurrents. La régularisation vise à améliorer la capacité de généralisation du modèle, et joue un role clé dans la performance de plusieurs applications des réseaux de neurones récurrents, en particulier en reconnaissance vocale. Notre approche donne l'état de l'art sur TIMIT, un benchmark standard pour cette tâche. Le chapitre \ref{cpgp} présente une seconde ligne de travail, toujours en cours, qui explore une nouvelle architecture pour les réseaux de neurones récurrents. Les réseaux de neurones récurrents maintiennent un état caché qui représente leurs observations antérieures. L'idée de ce travail est de coder certaines dynamiques abstraites dans l'état caché, donnant au réseau une manière naturelle d'encoder des tendances cohérentes de l'état de son environnement. Notre travail est fondé sur un modèle existant; nous décrivons ce travail et nos contributions avec notamment une expérience préliminaire.
Resumo:
Les parents à travers le monde chantent et parlent à leurs bébés. Ces deux types de vocalisations aux enfants préverbaux partagent plusieurs similarités de même que des différences, mais leurs conséquences sur les bébés demeurent méconnues. L’objectif de cette thèse était de documenter l’efficacité relative du chant et de la parole à capter l’attention des bébés sur de courtes périodes de temps (Étude 1) ainsi qu’à réguler l’affect des bébés en maintenant un état de satisfaction sur une période de temps prolongée (Étude 2). La première étude a exploré les réactions attentionnelles des bébés exposés à des enregistrements audio non familiers de chant et de parole. Lors de l’expérience 1, des bébés de 4 à 13 mois ont été exposés à de la parole joyeuse s’adressant au bébé (séquences de syllabes) et des berceuses fredonnées par la même femme. Ils ont écouté significativement plus longtemps la parole, qui contenait beaucoup plus de variabilité acoustique et d’expressivité que les berceuses. Dans l’expérience 2, des bébés d’âges comparables n’ont montré aucune écoute différentielle face à une version parlée ou chantée d’une chanson pour enfant turque, les deux versions étant exprimées de façon joyeuse / heureuse. Les bébés de l’expérience 3, ayant entendu la version chantée de la chanson turque ainsi qu’une version parlée de façon affectivement neutre ou s’adressant à l’adulte, ont écouté significativement plus longtemps la version chantée. Dans l’ensemble, la caractéristique vocale joyeuse plutôt que le mode vocal (chanté versus parlé) était le principal déterminant de l’attention du bébé, indépendamment de son âge. Dans la seconde étude, la régulation affective des bébés a été explorée selon l’exposition à des enregistrements audio non familiers de chant ou de parole. Les bébés ont été exposés à du chant ou de la parole jusqu’à ce qu’ils rencontrent un critère d’insatisfaction exprimée dans le visage. Lors de l’expérience 1, des bébés de 7 à 10 mois ont écouté des enregistrements de paroles s’adressant au bébé, de paroles s’adressant à l’adulte ou du chant dans une langue non familière (turque). Les bébés ont écouté le chant près de deux fois plus longtemps que les paroles avant de manifester de l’insatisfaction. Lors de l’expérience 2, des bébés ont été exposés à des enregistrements de paroles ou de chants issus d’interactions naturelles entre la mère et son bébé, dans une langue familière. Comme dans l’expérience 1, le chant s’adressant au bébé était considérablement plus efficace que les paroles pour retarder l’apparition du mécontentement. La construction temporelle du chant, avec notamment son rythme régulier, son tempo stable et ses répétitions, pourrait jouer un rôle important dans la régulation affective, afin de soutenir l’attention, rehausser la familiarité ou promouvoir l’écoute prédictive et l’entraînement. En somme, les études présentées dans cette thèse révèlent, pour la première fois, que le chant est un outil parental puissant, tout aussi efficace que la parole pour capter l’attention et plus efficace que la parole pour maintenir les bébés dans un état paisible. Ces découvertes soulignent l’utilité du chant dans la vie quotidienne et l’utilité potentielle du chant dans des contextes thérapeutiques variés impliquant des bébés.
Resumo:
Nous proposons, dans ce mémoire, d’explorer les possibilités pratiques et pédagogiques d’une approche autopoïétique de la création sonore au cinéma. Notre principal souci sera de saisir les modalités de l’ascèse propre aux artistes qui se livrent à une telle activité, comprise comme un « apprentissage de soi par soi » (Foucault), afin de faire celui qui peut faire l’œuvre (processus de subjectivation), et le rôle descriptif et opératoire de cet exercice - en tant qu’effort pour penser de façon critique son propre savoir-faire -, dans le faire-œuvre et l’invention de possibles dans l’écriture audio-visuelle cinématographique. Pour ce faire, d’une part, nous étudierons, à partir de témoignages autopoïétiques, le rapport réflexif de trois créateurs sonores à leur pratique et leur effort pour penser (et mettre en place) les conditions d’une pratique et d’une esthétique du son filmique comme forme d’art sonore dans un contexte audio-visuel, alors qu’ils travaillent dans un cadre normalisant : Randy Thom, Walter Murch et Franck Warner. D’autre part, nous recourrons à différentes considérations théoriques (la théorie de l’art chez Deleuze et Guattari, la « surécoute » chez Szendy, l’histoire de la poïétique à partir de Valéry, etc.) et pratiques (la recherche musicale chez Schaeffer, la relation maître-apprenti, les rapports entre automatisme et pensée dans le cinéma moderne chez Artaud et Godard, etc.), afin de contextualiser et d’analyser ces expériences de création, avec l’objectif de problématiser la figure de l’artiste-poïéticien sur un plan éthique dans le sillage de la théorie des techniques de soi chez Foucault.