951 resultados para Visual Speech Recognition, Multiple Views, Frontal View, Profile View
Resumo:
Here we adopt a novel strategy to investigate phonological assembly. Participants performed a visual lexical decision task in English in which the letters in words and letterstrings were delivered either sequentially (promoting phonological assembly) or simultaneously (not promoting phonological assembly). A region of interest analysis confirmed that regions previously associated with phonological assembly, in studies contrasting different word types (e.g. words versus pseudowords), were also identified using our novel task that controls for a number of confounding variables. Specifically, the left pars opercularis, the superior part of the ventral precentral gyrus and the supramarginal gyrus were all recruited more during sequential delivery than simultaneous delivery, even when various psycholinguistic characteristics of the stimuli were controlled. This suggests that sequential delivery of orthographic stimuli is a useful tool to explore how readers, with various levels of proficiency, use sublexical phonological processing during visual word recognition.
Redox dysregulation in schizophrenia : effect on myelination of cortical structures and connectivity
Resumo:
Cette thèse traite du rôle qu'un facteur de risque génétique développé chez les patients souffrant de schizophrénie, à savoir un déficit de la synthèse du glutathion, peut jouer dans les anomalies de la connectivité cérébrale trouvées chez ces patients. L'essentiel du travail a été consacré à évaluer la structure de la substance blanche dans l'ensemble du cerveau chez un modèle animal par une méthode similaire à celle utilisée en recherche clinique avec l'imagerie par résonance magnétique (IRM). Cette approche de translation inverse chez la souris knock-out de glutamate-cystéine ligase modulateur sous-unité (Gclm KO), avait l'objectif d'étudier l'effet des défenses redox déficientes sur le développement des connexions cérébrales, tout en excluant celui des facteurs non liés au génotype. Après avoir établi le protocole de recherche, l'influence d'une manipulation environnementale a également été étudiée. Pour effectuer une analyse statistique fiable des données d'IRM obtenues, nous .avons d'abord créé un atlas du cerveau de la souris afin de l'utiliser comme modèle pour une segmentation précise des différentes régions du cerveau sur les images IRM obtenues in vivo. Les données provenant de chaque région d'intérêt ont ensuite été étudiées séparément. La qualité de cette méthode a été évaluée dans une expérience de simulation pour déduire la puissance statistique réalisable dans chaque région en fonction du nombre d'animaux utilisés. Ces outils d'analyse nous ont permis d'évaluer l'intégrité de la substance blanche dans le cerveau des souris durant le développement grâce à une expérience longitudinale, en utilisant l'imagerie du tenseur de diffusion (DTI). Nous avons ainsi observé des anomalies dans les paramètres dérivés du tenseur (diffusivité et anisotropie) dans la Commissure Antérieure et le Fimbria/Fornix des souris Gclm KO, par rapport aux animaux contrôles. Ces résultats suggèrent une substance blanche endommagée dans ces régions. Dans une expérience électrophysiologique, Pascal Steullet a montré que ces anomalies ont des conséquences fonctionnelles caractérisées par une réduction de la vitesse de conduction dans les fibres nerveuses. Ces données renforcent les conclusions des analyses d'imagerie. Le mécanisme par lequel une dérégulation redox affecte la structure de la substance blanche reste encore à définir, car une analyse immunohistochimique des protéines constituantes de la couche de myéline des fibres concernées n'a pas donné de résultats concluants. Nous avons également constaté un élargissement des ventricules dans les jeunes souris Gclm KO, mais pas chez les adultes et des anomalies neurochimiques déjà connues chez ces animaux (Duarte et al. 2011), à savoir une réduction du Glutathion et une augmentation de l'acide N-acétylaspartique, de l'Alanine et du ratio Glutamine/Glutamate. Nous avons ensuite testé l'effet d'un stress environnemental supplémentaire, l'élevage en isolement social, sur le phénotype. Ce stress n'a eu aucun effet sur la structure de la substance blanche évaluée par DTI, mais a réduit la concentration de myo-Inositol et augmenté le ratio de Glutamine/Glutamate dans le cortex frontal. Nous avons aussi reproduit dans ce groupe indépendant d'animaux les effets du génotype sur le profil neurochimique, sur la taille des ventricules et aussi sur les paramètres dérivés du tenseur de diffusion dans le Fimbria/Fornix, mais pas dans la Commissure Antérieure. Nos résultats montrent qu'une dérégulation redox d'origine génétique perturbe la structure et la fonction de la substance blanche dans des régions spécifiques, causant ainsi l'élargissement des ventricules. Ces phénotypes rassemblent certaines caractéristiques neuro-anatomiques de la schizophrénie, mais les mécanismes qui en sont responsables demeurent encore inconnus. L'isolement social n'a pas d'effet sur la structure de la substance blanche évaluée par DTI, alors qu'il est prouvé qu'il affecte la maturation des oligodendrocytes. La neurochimie corticale et en particulier le rapport Glutamine/Glutamate a été affecté par le dérèglement redox ainsi que par l'isolement social. En conséquence, ce ratio représente un indice prometteur dans la recherche sur l'interaction du stress environnemental avec le déséquilibre redox dans le domaine de la schizophrénie. -- The present doctoral thesis is concerned with the role that a genetic risk factor for the development of schizophrenia, namely a deficit in Glutathione synthesis, may play in the anomalies of brain connectivity found in patients. Most of the effort was devoted to perform a whole-brain assessment of white matter structure in the Glutamate-Cysteine ligase modulatory knockout mouse model (Gclm KO) using Magnetic Resonance Imaging (MRI) techniques similar to those used in state-of-the-art clinical research. Such reverse translational approach taking brain imaging from the bedside to the bench aimed to investigate the role that deficient redox defenses may play in the development of brain connections while excluding all influencing factors beside the genotype. After establishing the protocol, the influence of further environmental manipulations was also studied. Analysis of MRI images acquired in vivo was one of the main challenges of the project. Our strategy consisted in creating an atlas of the mouse brain to use as segmentation guide and then analyze the data from each region of interest separately. The quality of the method was assessed in a simulation experiment by calculating the statistical power achievable in each brain region at different sample sizes. This analysis tool enabled us to assess white matter integrity in the mouse brain along development in a longitudinal experiment using Diffusion Tensor Imaging (DTI). We discovered anomalies in diffusivity parameters derived from the tensor in the Anterior Commissure and Fimbria/Fornix of Gclm KO mice when compared to wild-type animals, which suggest that the structure of these tracts is compromised in the KO mice. In an elegant electrophysiological experiment, Pascal Steullet has provided evidence that these anomalies have functional consequences in form of reduced conduction velocity in the concerned tracts, thus supporting the DTI findings. The mechanism by which redox dysregulation affects WM structure remains unknown, for the immunohistochemical analysis of myelin constituent proteins in the concerned tracts produced inconclusive results. Our experiments also detected an enlargement of the lateral ventricles in young but not adult Gclm KO mice and confirmed neurochemical anomalies already known to affect this animals (Duarte et al. 2011), namely a reduction in Glutathione and an increase in Glutamine/Glutamate ratio, N-acetylaspartate and Alanine. Using the same methods, we tested the effect of an additional environmental stress on the observed phenotype: rearing in social isolation had no effect on white matter structure as assessed by DTI, but it reduced the concentration of myo-Inositol and increased the Glutamine/Glutamate ratio in the frontal cortex. We could also replicate in this separate group of animals the effects of genotype on the frontal neurochemical profile, ventricular size and diffusivity parameters in the Fimbria/Fornix but not in the Anterior Commissure. Our data show that a redox dysregulation of genetic origin may disrupt white matter structure and function in specific tracts and cause a ventricular enlargement, phenotypes that resemble some neuroanatomical features of schizophrenia. The mechanism responsible remains however unknown. We have also demonstrated that environmental stress in form of social isolation does not affect white matter structure as assessed by DTI even though it is known to affect oligodendrocyte maturation. Cortical neurochemistry, and specifically the Glutamine to Glutamate balance was affected both by redox dysregulation and social isolation, and is thus a good target for further research on the interaction of redox imbalance and environmental stress in schizophrenia.
Resumo:
La interacció home-màquina per mitjà de la veu cobreix moltes àrees d’investigació. Es destaquen entre altres, el reconeixement de la parla, la síntesis i identificació de discurs, la verificació i identificació de locutor i l’activació per veu (ordres) de sistemes robòtics. Reconèixer la parla és natural i simple per a les persones, però és un treball complex per a les màquines, pel qual existeixen diverses metodologies i tècniques, entre elles les Xarxes Neuronals. L’objectiu d’aquest treball és desenvolupar una eina en Matlab per al reconeixement i identificació de paraules pronunciades per un locutor, entre un conjunt de paraules possibles, i amb una bona fiabilitat dins d’uns marges preestablerts. El sistema és independent del locutor que pronuncia la paraula, és a dir, aquest locutor no haurà intervingut en el procés d’entrenament del sistema. S’ha dissenyat una interfície que permet l’adquisició del senyal de veu i el seu processament mitjançant xarxes neuronals i altres tècniques. Adaptant una part de control al sistema, es podria utilitzar per donar ordres a un robot com l’Alfa6Uvic o qualsevol altre dispositiu.
Resumo:
Monitoring of sewage sludge has proved the presence of many polar anthropogenic pollutants since LC/MS techniques came into routine use. While advanced techniques may improve characterizations, flawed sample processing procedures, however, may disturb or disguise the presence and fate of many target compounds present in this type of complex matrix before analytical process starts. Freeze-drying or oven-drying, in combination with centrifugation or filtration as sample processing techniques were performed followed by visual pattern recognition of target compounds for assessment of pretreatment processes. The results shown that oven-drying affected the sludge characterization, while freeze-drying led to less analytical misinterpretations.
Resumo:
The role of animals in the philosophy of mind is primarily to help understand the human mind by serving as practical examples of cognition that differs from ours either in kind or in degree. Kant regarded animals as beings that only have the faculty of sensibility. By examining what Kant writes about animal experience we gain knowledge concerning the role of sensibility in experience, free from the influence of understanding and reason. I look at Kant’s view of animals in the historical context of alternative views presented by Descartes’ and Hume’s views. Kant’s view can be seen as a counterargument against Descartes’ doctrine of animal machines according to which animals do not have minds and they do not think. I suggest that while it can be argued that some kind of elementary experience could be possible in the physiological level, this only makes sense when it is possible to become conscious of the unconscious sensation, and this requires a mind. A further option is to claim that there is only a difference in degree between human and animal cognitive capacities. This is Hume’s view. I argue that even though Kant’s and Hume’s view on the cognitive capacities of animals seems to depart from each other to a considerable extent, the differences between them diminish when the focus is on the experience these capacities enable. I also briefly discuss the relation of the metaphysics of animal minds to animal ethics.
Resumo:
Based on the theoretical framework of Dressler and Dziubalska-Kołaczyk (2006a,b), the Strong Morphonotactic Hypothesis will be tested. It assumes that phonotactics helps in decomposition of words into morphemes: if a certain sequence occurs only or only by default over a morpheme boundary and is thus a prototypical morphonotactic sequence, it should be processed faster and more accurately than a purely phonotactic sequence. Studies on typical and atypical first language acquisition in English, Lithuanian and Polish have shown significant differences between the acquisition of morphonotactic and phonotactic consonant clusters: Morphonotactic clusters are acquired earlier and faster by typically developing children, but are more problematic for children with Specific Language Impairment. However, results on acquisition are less clear for German. The focus of this contribution is whether and how German-speaking adults differentiate between morphonotactic and phonotactic consonant clusters and vowel-consonant sequences in visual word recognition. It investigates whether sub-lexical letter sequences are found faster when the target sequence is separated from the word stem by a morphological boundary than when it is a part of a morphological root. An additional factor that is addressed concerns the position of the target cluster in the word. Due to the bathtub effect, sequences in peripheral positions in a word are more salient and thus facilitate processing more than word-internal positions. Moreover, for adults the primacy effect most favors word-initial position (whereas for young children the recency effect most favors word- final position). Our study discusses effects of phonotactic vs. morphonotactic cluster status and of position within the word.
Resumo:
Le rôle du collicule inférieur dans les divers processus auditif demeure à ce jour méconnu chez l’humain. À l’aide d’évaluations comportementales et électrophysiologiques, le but des études consiste à examiner l’intégrité fonctionnelle du système nerveux auditif chez une personne ayant une lésion unilatérale du collicule inférieur. Les résultats de ces études suggèrent que le collicule inférieur n’est pas impliqué dans la détection de sons purs, la reconnaissance de la parole dans le silence et l’interaction binaurale. Cependant, ces données suggèrent que le collicule inférieur est impliqué dans la reconnaissance de mots dans le bruit présentés monauralement, la discrimination de la fréquence, la reconnaissance de la durée, la séparation binaurale, l’intégration binaurale, la localisation de sources sonores et, finalement, l’intégration multisensorielle de la parole.
Resumo:
Les temps de réponse dans une tache de reconnaissance d’objets visuels diminuent de façon significative lorsque les cibles peuvent être distinguées à partir de deux attributs redondants. Le gain de redondance pour deux attributs est un résultat commun dans la littérature, mais un gain causé par trois attributs redondants n’a été observé que lorsque ces trois attributs venaient de trois modalités différentes (tactile, auditive et visuelle). La présente étude démontre que le gain de redondance pour trois attributs de la même modalité est effectivement possible. Elle inclut aussi une investigation plus détaillée des caractéristiques du gain de redondance. Celles-ci incluent, outre la diminution des temps de réponse, une diminution des temps de réponses minimaux particulièrement et une augmentation de la symétrie de la distribution des temps de réponse. Cette étude présente des indices que ni les modèles de course, ni les modèles de coactivation ne sont en mesure d’expliquer l’ensemble des caractéristiques du gain de redondance. Dans ce contexte, nous introduisons une nouvelle méthode pour évaluer le triple gain de redondance basée sur la performance des cibles doublement redondantes. Le modèle de cascade est présenté afin d’expliquer les résultats de cette étude. Ce modèle comporte plusieurs voies de traitement qui sont déclenchées par une cascade d’activations avant de satisfaire un seul critère de décision. Il offre une approche homogène aux recherches antérieures sur le gain de redondance. L’analyse des caractéristiques des distributions de temps de réponse, soit leur moyenne, leur symétrie, leur décalage ou leur étendue, est un outil essentiel pour cette étude. Il était important de trouver un test statistique capable de refléter les différences au niveau de toutes ces caractéristiques. Nous abordons la problématique d’analyser les temps de réponse sans perte d’information, ainsi que l’insuffisance des méthodes d’analyse communes dans ce contexte, comme grouper les temps de réponses de plusieurs participants (e. g. Vincentizing). Les tests de distributions, le plus connu étant le test de Kolmogorov- Smirnoff, constituent une meilleure alternative pour comparer des distributions, celles des temps de réponse en particulier. Un test encore inconnu en psychologie est introduit : le test d’Anderson-Darling à deux échantillons. Les deux tests sont comparés, et puis nous présentons des indices concluants démontrant la puissance du test d’Anderson-Darling : en comparant des distributions qui varient seulement au niveau de (1) leur décalage, (2) leur étendue, (3) leur symétrie, ou (4) leurs extrémités, nous pouvons affirmer que le test d’Anderson-Darling reconnait mieux les différences. De plus, le test d’Anderson-Darling a un taux d’erreur de type I qui correspond exactement à l’alpha tandis que le test de Kolmogorov-Smirnoff est trop conservateur. En conséquence, le test d’Anderson-Darling nécessite moins de données pour atteindre une puissance statistique suffisante.
Resumo:
Il est bien connu que les enfants qui présentent un trouble de traitement auditif (TTA) ont de la difficulté à percevoir la parole en présence de bruit de fond. Cependant, il n’existe aucun consensus quant à l’origine de ces difficultés d’écoute. Ce programme de recherche est consacré à l’étude des incapacités sous-jacentes aux problèmes de perception de la parole dans le bruit chez les enfants présentant un TTA. Le Test de Phrases dans le Bruit (TPB) a été développé afin d’examiner si les difficultés de perception de la parole dans le bruit d’enfants ayant un TTA relèvent d’incapacités auditives, d’incapacités cognitivo-linguistiques ou des deux à la fois. Il comprend cinq listes de 40 phrases, composées de 20 phrases hautement prévisibles (HP) et de 20 phrases faiblement prévisibles (FP), de même qu’un bruit de verbiage. Le niveau de connaissance du mot clé (mot final) de chaque phrase a été vérifié auprès d’un groupe d’enfants âgés entre 5 et 7 ans. De plus, le degré d’intelligibilité des phrases dans le bruit et le niveau de prévisibilité ont été mesurées auprès d’adultes pour assurer l’équivalence entre les listes. Enfin, le TPB a été testé auprès d’un groupe de 15 adultes et d’un groupe de 69 enfants sans trouble auditif avant de l’administrer à des enfants ayant un TTA. Pour répondre à l’objectif général du programme de recherche, dix enfants présentant un TTA (groupe TTA) et dix enfants jumelés selon le genre et l’âge sans difficulté auditive (groupe témoin) ont été soumis aux listes de phrases du TPB selon différentes conditions sonores. Le groupe TTA a obtenu des performances significativement plus faibles comparativement au groupe témoin à la tâche de reconnaissance du mot final des phrases présentées en même temps qu’un bruit de verbiage compétitif, aux rapports signal-sur-bruit de 0, +3 et +4 dB. La moyenne de la différence des scores obtenue entre les phrases HP et FP à chaque condition expérimentale de bruit était similaire entre les deux groupes. Ces résultats suggèrent que les enfants ayant un TTA ne se distinguent pas des enfants du groupe témoin au plan de la compétence cognitivo-linguistique. L’origine des difficultés d’écoute de la parole dans le bruit dans le cas de TTA serait de nature auditive. Toutefois, les résultats des analyses de groupe diffèrent de ceux des analyses individuelles. Les divers profils de difficultés d’écoute identifiés auprès de cette cohorte appuient l’importance de continuer les investigations afin de mieux comprendre l’origine des problèmes de perception de la parole dans le bruit dans le cas de TTA. En connaissant mieux la nature de ces difficultés, il sera possible d’identifier les stratégies d’intervention de réadaptation spécifiques et efficaces.
Resumo:
Ce mémoire propose une analyse de la collaboration à l’intérieur de projets cinématographiques dans l’œuvre de Pierre Perrault. Comme la collaboration entre cinéaste et participants soulève des questions éthiques, cette recherche étudie deux films pivots dans la carrière de ce cinéaste soit Pour la suite du monde et La bête lumineuse. Tout en contrastant le discours du cinéaste avec celui d’un protagoniste nommé Stéphane-Albert Boulais, cette étude détaille les dynamiques de pouvoir liées à la représentation et analyse l’éthique du créateur. Ce mémoire présente une description complète de la pensée de Pierre Perrault, ainsi que sa pratique tant au niveau du tournage que du montage. Cette étude se consacre à deux terrains cinématographiques pour soulever les pratiques tant au niveau de l’avant, pendant, et après tournage. Ce mémoire se penche ensuite sur Stéphane-Albert Boulais, qui grâce à ses nombreux écrits sur ses expériences cinématographiques, permet de multiplier les regards sur la collaboration. Après une analyse comparative entre les deux terrains cinématographiques, ce mémoire conclut sur une analyse détaillée de l’éthique du créateur à l’intérieur de projets collaboratifs.
Resumo:
Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement.
Resumo:
Lorsqu’un site ou un bien est protégé par un statut patrimonial, tant national que local, les règlements d’urbanisme sont un des principaux outils d’encadrement des modifications de l’environnement bâti. Comment ces règlements participent-ils à la conservation des valeurs patrimoniales ? Pour explorer cette question, nous avons choisi le cas de l’arrondissement historique et naturel du Mont-Royal (AHNMR, renommé en 2012 site patrimonial du Mont-Royal), un site majeur pour l’identité de Montréal. Nous avons recensé les valeurs patrimoniales attribuées au site et analysé le processus de gestion des projets dans les quatre arrondissements qui se répartissent la partie montréalaise du territoire de l’AHNMR; nous avons également analysé quelques demandes de permis. Le processus est complexe, d’autant plus que l’évaluation est en bonne partie discrétionnaire, incluant des analyses de fonctionnaires et de comités consultatifs de même que des exercices de consultation publique. La recherche a permis de mettre en lumière que les règlements d’urbanisme ont tendance à se concentrer sur les valeurs dont la matérialité est connue (valeurs architecturales et paysagères notamment) et à délaisser les valeurs immatérielles (valeurs d’usage, valeurs identitaires et emblématiques). La juxtaposition des valeurs peut atténuer ce déséquilibre en protégeant une valeur immatérielle par l’entremise d’une valeur matérielle. La documentation des valeurs patrimoniales et de leur incarnation dans l’aménagement d’un site revêt une importance majeure pour l’application des critères d’évaluation. De plus, l’évaluation discrétionnaire apporte de multiple points de vue sur un projet, des opinions d’acteurs, experts en patrimoine ou non, généralement absents de l’évaluation des projets, ce qui contribue à l’évolution de ces derniers. Les consultations publiques donnent lieu à la réévaluation des valeurs patrimoniales ainsi qu’à l’approfondissement des connaissances.
Resumo:
Motivation for Speaker recognition work is presented in the first part of the thesis. An exhaustive survey of past work in this field is also presented. A low cost system not including complex computation has been chosen for implementation. Towards achieving this a PC based system is designed and developed. A front end analog to digital convertor (12 bit) is built and interfaced to a PC. Software to control the ADC and to perform various analytical functions including feature vector evaluation is developed. It is shown that a fixed set of phrases incorporating evenly balanced phonemes is aptly suited for the speaker recognition work at hand. A set of phrases are chosen for recognition. Two new methods are adopted for the feature evaluation. Some new measurements involving a symmetry check method for pitch period detection and ACE‘ are used as featured. Arguments are provided to show the need for a new model for speech production. Starting from heuristic, a knowledge based (KB) speech production model is presented. In this model, a KB provides impulses to a voice producing mechanism and constant correction is applied via a feedback path. It is this correction that differs from speaker to speaker. Methods of defining measurable parameters for use as features are described. Algorithms for speaker recognition are developed and implemented. Two methods are presented. The first is based on the model postulated. Here the entropy on the utterance of a phoneme is evaluated. The transitions of voiced regions are used as speaker dependent features. The second method presented uses features found in other works, but evaluated differently. A knock—out scheme is used to provide the weightage values for the selection of features. Results of implementation are presented which show on an average of 80% recognition. It is also shown that if there are long gaps between sessions, the performance deteriorates and is speaker dependent. Cross recognition percentages are also presented and this in the worst case rises to 30% while the best case is 0%. Suggestions for further work are given in the concluding chapter.
Resumo:
Speech signals are one of the most important means of communication among the human beings. In this paper, a comparative study of two feature extraction techniques are carried out for recognizing speaker independent spoken isolated words. First one is a hybrid approach with Linear Predictive Coding (LPC) and Artificial Neural Networks (ANN) and the second method uses a combination of Wavelet Packet Decomposition (WPD) and Artificial Neural Networks. Voice signals are sampled directly from the microphone and then they are processed using these two techniques for extracting the features. Words from Malayalam, one of the four major Dravidian languages of southern India are chosen for recognition. Training, testing and pattern recognition are performed using Artificial Neural Networks. Back propagation method is used to train the ANN. The proposed method is implemented for 50 speakers uttering 20 isolated words each. Both the methods produce good recognition accuracy. But Wavelet Packet Decomposition is found to be more suitable for recognizing speech because of its multi-resolution characteristics and efficient time frequency localizations
Resumo:
Speech is a natural mode of communication for people and speech recognition is an intensive area of research due to its versatile applications. This paper presents a comparative study of various feature extraction methods based on wavelets for recognizing isolated spoken words. Isolated words from Malayalam, one of the four major Dravidian languages of southern India are chosen for recognition. This work includes two speech recognition methods. First one is a hybrid approach with Discrete Wavelet Transforms and Artificial Neural Networks and the second method uses a combination of Wavelet Packet Decomposition and Artificial Neural Networks. Features are extracted by using Discrete Wavelet Transforms (DWT) and Wavelet Packet Decomposition (WPD). Training, testing and pattern recognition are performed using Artificial Neural Networks (ANN). The proposed method is implemented for 50 speakers uttering 20 isolated words each. The experimental results obtained show the efficiency of these techniques in recognizing speech