Biblioteca Digital

7 resultados para Automatic speech recognition (ASR)

em Université de Montréal, Canada

Weighted finite-state transducers in speech recognition : a compaction algorithm for non-determinizable transducers

Relevância:

100.00% 100.00%

Publicador:

Resumo:

M��moire num��ris�� par la Direction des biblioth��ques de l'Universit�� de Montr��al.

Veja mais

Implications fonctionnelles du collicule inf��rieur chez l'humain

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Le r��le du collicule inf��rieur dans les divers processus auditif demeure �� ce jour m��connu chez l��humain. �� l��aide d��valuations comportementales et ��lectrophysiologiques, le but des ��tudes consiste �� examiner l��int��grit�� fonctionnelle du syst��me nerveux auditif chez une personne ayant une l��sion unilat��rale du collicule inf��rieur. Les r��sultats de ces ��tudes sugg��rent que le collicule inf��rieur n��est pas impliqu�� dans la d��tection de sons purs, la reconnaissance de la parole dans le silence et l��interaction binaurale. Cependant, ces donn��es sugg��rent que le collicule inf��rieur est impliqu�� dans la reconnaissance de mots dans le bruit pr��sent��s monauralement, la discrimination de la fr��quence, la reconnaissance de la dur��e, la s��paration binaurale, l��int��gration binaurale, la localisation de sources sonores et, finalement, l��int��gration multisensorielle de la parole.

Veja mais

Probl��mes de perception de la parole dans le bruit chez les enfants pr��sentant un trouble de traitement auditif

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Il est bien connu que les enfants qui pr��sentent un trouble de traitement auditif (TTA) ont de la difficult�� percevoir la parole en pr��sence de bruit de fond. Cependant, il n��existe aucun consensus quant �� l��origine de ces difficult��s d��coute. Ce programme de recherche est consacr�� l��tude des incapacit��s sous-jacentes aux probl��mes de perception de la parole dans le bruit chez les enfants pr��sentant un TTA. Le Test de Phrases dans le Bruit (TPB) a ��t�� d��velopp�� afin d��examiner si les difficult��s de perception de la parole dans le bruit d��enfants ayant un TTA rel��vent d��incapacit��s auditives, d��incapacit��s cognitivo-linguistiques ou des deux �� la fois. Il comprend cinq listes de 40 phrases, compos��es de 20 phrases hautement pr��visibles (HP) et de 20 phrases faiblement pr��visibles (FP), de m��me qu��un bruit de verbiage. Le niveau de connaissance du mot cl�� (mot final) de chaque phrase a ��t�� v��rifi�� aupr��s d��un groupe d��enfants ��g��s entre 5 et 7 ans. De plus, le degr�� d��intelligibilit�� des phrases dans le bruit et le niveau de pr��visibilit�� ont ��t�� mesur��es aupr��s d��adultes pour assurer l��quivalence entre les listes. Enfin, le TPB a ��t�� test�� aupr��s d��un groupe de 15 adultes et d��un groupe de 69 enfants sans trouble auditif avant de l��administrer �� des enfants ayant un TTA. Pour r��pondre �� l��objectif g��n��ral du programme de recherche, dix enfants pr��sentant un TTA (groupe TTA) et dix enfants jumel��s selon le genre et l��ge sans difficult�� auditive (groupe t��moin) ont ��t�� soumis aux listes de phrases du TPB selon diff��rentes conditions sonores. Le groupe TTA a obtenu des performances significativement plus faibles comparativement au groupe t��moin �� la t��che de reconnaissance du mot final des phrases pr��sent��es en m��me temps qu��un bruit de verbiage comp��titif, aux rapports signal-sur-bruit de 0, +3 et +4 dB. La moyenne de la diff��rence des scores obtenue entre les phrases HP et FP �� chaque condition exp��rimentale de bruit ��tait similaire entre les deux groupes. Ces r��sultats sugg��rent que les enfants ayant un TTA ne se distinguent pas des enfants du groupe t��moin au plan de la comp��tence cognitivo-linguistique. L��origine des difficult��s d��coute de la parole dans le bruit dans le cas de TTA serait de nature auditive. Toutefois, les r��sultats des analyses de groupe diff��rent de ceux des analyses individuelles. Les divers profils de difficult��s d��coute identifi��s aupr��s de cette cohorte appuient l��importance de continuer les investigations afin de mieux comprendre l��origine des probl��mes de perception de la parole dans le bruit dans le cas de TTA. En connaissant mieux la nature de ces difficult��s, il sera possible d��identifier les strat��gies d��intervention de r��adaptation sp��cifiques et efficaces.

Veja mais

L'effort associ�� la reconnaissance de la parole chez les adultes et les personnes a��n��es

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L��objectif principal de cette th��se ��tait de quantifier et comparer l��effort requis pour reconna��tre la parole dans le bruit chez les jeunes adultes et les personnes a��n��es ayant une audition normale et une acuit�� visuelle normale (avec ou sans lentille de correction de la vue). L��effort associ�� la perception de la parole est li�� aux ressources attentionnelles et cognitives requises pour comprendre la parole. La premi��re ��tude (Exp��rience 1) avait pour but d��valuer l��effort associ�� la reconnaissance auditive de la parole (entendre un locuteur), tandis que la deuxi��me ��tude (Exp��rience 2) avait comme but d��valuer l��effort associ�� la reconnaissance auditivo-visuelle de la parole (entendre et voir le visage d��un locuteur). L��effort fut mesur�� de deux fa��ons diff��rentes. D��abord par une approche comportementale faisant appel �� un paradigme exp��rimental nomm�� double t��che. Il s��agissait d��une t��che de reconnaissance de mot jumel��e �� une t��che de reconnaissance de patrons vibro-tactiles. De plus, l��effort fut quantifi�� l��aide d��un questionnaire demandant aux participants de coter l��effort associ�� aux t��ches comportementales. Les deux mesures d��effort furent utilis��es dans deux conditions exp��rimentales diff��rentes : 1) niveau ��quivalent �� c'est-��-dire lorsque le niveau du bruit masquant la parole ��tait le m��me pour tous les participants et, 2) performance ��quivalente �� c'est-��-dire lorsque le niveau du bruit fut ajust�� afin que les performances �� la t��che de reconnaissance de mots soient identiques pour les deux groupes de participant. Les niveaux de performance obtenus pour la t��che vibro-tactile ont r��v��l�� que les personnes a��n��es fournissent plus d��effort que les jeunes adultes pour les deux conditions exp��rimentales, et ce, quelle que soit la modalit�� perceptuelle dans laquelle les stimuli de la parole sont pr��sent��s (c.-��.-d., auditive seulement ou auditivo-visuelle). Globalement, le ��co��t�� associ�� aux performances de la t��che vibro-tactile ��tait au plus ��lev�� pour les personnes a��n��es lorsque la parole ��tait pr��sent��e en modalit�� auditivo-visuelle. Alors que les indices visuels peuvent am��liorer la reconnaissance auditivo-visuelle de la parole, nos r��sultats sugg��rent qu��ils peuvent aussi cr��er une charge additionnelle sur les ressources utilis��es pour traiter l��information. Cette charge additionnelle a des cons��quences n��fastes sur les performances aux t��ches de reconnaissance de mots et de patrons vibro-tactiles lorsque celles-ci sont effectu��es sous des conditions de double t��che. Conform��ment aux ��tudes ant��rieures, les coefficients de corr��lations effectu��es �� partir des donn��es de l��Exp��rience 1 et de l��Exp��rience 2 soutiennent la notion que les mesures comportementales de double t��che et les r��ponses aux questionnaires ��valuent diff��rentes dimensions de l��effort associ�� la reconnaissance de la parole. Comme l��effort associ�� la perception de la parole repose sur des facteurs auditifs et cognitifs, une troisi��me ��tude fut compl��t��e afin d��explorer si la m��moire auditive de travail contribue �� expliquer la variance dans les donn��es portant sur l��effort associ�� la perception de la parole. De plus, ces analyses ont permis de comparer les patrons de r��ponses obtenues pour ces deux facteurs apr��s des jeunes adultes et des personnes a��n��es. Pour les jeunes adultes, les r��sultats d��une analyse de r��gression s��quentielle ont d��montr�� qu��une mesure de la capacit�� auditive (taille de l��empan) ��tait reli��e �� l��effort, tandis qu��une mesure du traitement auditif (rappel alphab��tique) ��tait reli��e �� la pr��cision avec laquelle les mots ��taient reconnus lorsqu��ils ��taient pr��sent��s sous les conditions de double t��che. Cependant, ces m��mes relations n��taient pas pr��sentes dans les donn��es obtenues pour le groupe de personnes a��n��es ni dans les donn��es obtenues lorsque les t��ches de reconnaissance de la parole ��taient effectu��es en modalit�� auditivo-visuelle. D��autres ��tudes sont n��cessaires pour identifier les facteurs cognitifs qui sous-tendent l��effort associ�� la perception de la parole, et ce, particuli��rement chez les personnes a��n��es.

Veja mais

Un outil d��valuation neurocognitive des interactions humain-machine

Relevância:

100.00% 100.00%

Publicador:

Resumo:

De plus en plus de recherches sur les Interactions Humain-Machine (IHM) tentent d��effectuer des analyses fines de l��interaction afin de faire ressortir ce qui influence les comportements des utilisateurs. Tant au niveau de l��valuation de la performance que de l��exp��rience des utilisateurs, on note qu��une attention particuli��re est maintenant port��e aux r��actions ��motionnelles et cognitives lors de l��interaction. Les approches qualitatives standards sont limit��es, car elles se fondent sur l��observation et des entrevues apr��s l��interaction, limitant ainsi la pr��cision du diagnostic. L��exp��rience utilisateur et les r��actions ��motionnelles ��tant de nature hautement dynamique et contextualis��e, les approches d��valuation doivent l��tre de m��me afin de permettre un diagnostic pr��cis de l��interaction. Cette th��se pr��sente une approche d��valuation quantitative et dynamique qui permet de contextualiser les r��actions des utilisateurs afin d��en identifier les ant��c��dents dans l��interaction avec un syst��me. Pour ce faire, ce travail s��articule autour de trois axes. 1) La reconnaissance automatique des buts et de la structure de t��ches de l��utilisateur, �� l��aide de mesures oculom��triques et d��activit�� dans l��environnement par apprentissage machine. 2) L��inf��rence de construits psychologiques (activation, valence ��motionnelle et charge cognitive) via l��analyse des signaux physiologiques. 3) Le diagnostic de l��interaction reposant sur le couplage dynamique des deux pr��c��dentes op��rations. Les id��es et le d��veloppement de notre approche sont illustr��s par leur application dans deux contextes exp��rimentaux : le commerce ��lectronique et l��apprentissage par simulation. Nous pr��sentons aussi l��outil informatique complet qui a ��t�� impl��ment�� afin de permettre �� des professionnels en ��valuation (ex. : ergonomes, concepteurs de jeux, formateurs) d��utiliser l��approche propos��e pour l��valuation d��IHM. Celui-ci est con��u de mani��re �� faciliter la triangulation des appareils de mesure impliqu��s dans ce travail et �� s��int��grer aux m��thodes classiques d��valuation de l��interaction (ex. : questionnaires et codage des observations).

Veja mais

Modeling High-Dimensional Audio Sequences with Recurrent Neural Networks

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Cette th��se ��tudie des mod��les de s��quences de haute dimension bas��s sur des r��seaux de neurones r��currents (RNN) et leur application �� la musique et �� la parole. Bien qu'en principe les RNN puissent repr��senter les d��pendances �� long terme et la dynamique temporelle complexe propres aux s��quences d'int��r��t comme la vid��o, l'audio et la langue naturelle, ceux-ci n'ont pas ��t�� utilis��s �� leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficult�� de les entra��ner efficacement par descente de gradient. R��cemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entra��nement avanc��es ont entra��n�� la recrudescence de leur utilisation dans plusieurs syst��mes de l'��tat de l'art. Le travail de cette th��se prend part �� ce d��veloppement. L'id��e centrale consiste �� exploiter la flexibilit�� des RNN pour apprendre une description probabiliste de s��quences de symboles, c'est-��-dire une information de haut niveau associ��e aux signaux observ��s, qui en retour pourra servir d'�� priori pour am��liorer la pr��cision de la recherche d'information. Par exemple, en mod��lisant l'��volution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phon��mes dans un ��nonc�� oral ou encore de sources individuelles dans un m��lange audio, nous pouvons am��liorer significativement les m��thodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de s��paration de sources audio respectivement. L'application pratique de nos mod��les �� ces t��ches est d��taill��e dans les quatre derniers articles pr��sent��s dans cette th��se. Dans le premier article, nous rempla��ons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour d��crire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxi��me article, nous ��valuons et proposons des m��thodes avanc��es pour entra��ner les RNN. Dans les quatre derniers articles, nous examinons diff��rentes fa��ons de combiner nos mod��les symboliques �� des r��seaux profonds et �� la factorisation matricielle non-n��gative, notamment par des produits d'experts, des architectures entr��e/sortie et des cadres g��n��ratifs g��n��ralisant les mod��les de Markov cach��s. Nous proposons et analysons ��galement des m��thodes d'inf��rence efficaces pour ces mod��les, telles la recherche vorace chronologique, la recherche en faisceau �� haute dimension, la recherche en faisceau ��lagu�� et la descente de gradient. Finalement, nous abordons les questions de l'��tiquette biais��e, du ma��tre imposant, du lissage temporel, de la r��gularisation et du pr��-entra��nement.

Veja mais

Designing Regularizers and Architectures for Recurrent Neural Networks

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Cette th��se contribue a la recherche vers l'intelligence artificielle en utilisant des m��thodes connexionnistes. Les r��seaux de neurones r��currents sont un ensemble de mod��les s��quentiels de plus en plus populaires capable en principe d'apprendre des algorithmes arbitraires. Ces mod��les effectuent un apprentissage en profondeur, un type d'apprentissage machine. Sa g��n��ralit�� et son succ��s empirique en font un sujet int��ressant pour la recherche et un outil prometteur pour la cr��ation de l'intelligence artificielle plus g��n��rale. Le premier chapitre de cette th��se donne un bref aper��u des sujets de fonds: l'intelligence artificielle, l'apprentissage machine, l'apprentissage en profondeur et les r��seaux de neurones r��currents. Les trois chapitres suivants couvrent ces sujets de mani��re de plus en plus sp��cifiques. Enfin, nous pr��sentons quelques contributions apport��es aux r��seaux de neurones r��currents. Le chapitre \ref{arxiv1} pr��sente nos travaux de r��gularisation des r��seaux de neurones r��currents. La r��gularisation vise �� am��liorer la capacit�� de g��n��ralisation du mod��le, et joue un role cl�� dans la performance de plusieurs applications des r��seaux de neurones r��currents, en particulier en reconnaissance vocale. Notre approche donne l'��tat de l'art sur TIMIT, un benchmark standard pour cette t��che. Le chapitre \ref{cpgp} pr��sente une seconde ligne de travail, toujours en cours, qui explore une nouvelle architecture pour les r��seaux de neurones r��currents. Les r��seaux de neurones r��currents maintiennent un ��tat cach�� qui repr��sente leurs observations ant��rieures. L'id��e de ce travail est de coder certaines dynamiques abstraites dans l'��tat cach��, donnant au r��seau une mani��re naturelle d'encoder des tendances coh��rentes de l'��tat de son environnement. Notre travail est fond�� sur un mod��le existant; nous d��crivons ce travail et nos contributions avec notamment une exp��rience pr��liminaire.

Veja mais

7 resultados para Automatic speech recognition (ASR)

em Université de Montréal, Canada

Filtro por publicador

Weighted finite-state transducers in speech recognition : a compaction algorithm for non-determinizable transducers

Implications fonctionnelles du collicule inf��rieur chez l'humain

Probl��mes de perception de la parole dans le bruit chez les enfants pr��sentant un trouble de traitement auditif

L'effort associ�� �� la reconnaissance de la parole chez les adultes et les personnes a��n��es

Un outil d�����valuation neurocognitive des interactions humain-machine

Modeling High-Dimensional Audio Sequences with Recurrent Neural Networks

Designing Regularizers and Architectures for Recurrent Neural Networks

L'effort associ�� la reconnaissance de la parole chez les adultes et les personnes a��n��es

Un outil d��valuation neurocognitive des interactions humain-machine