873 resultados para Audio-visual Speech Recognition, Visual Feature Extraction, Free-parts, Monolithic, ROI
Resumo:
Remote sensing techniques involving hyperspectral imagery have applications in a number of sciences that study some aspects of the surface of the planet. The analysis of hyperspectral images is complex because of the large amount of information involved and the noise within that data. Investigating images with regard to identify minerals, rocks, vegetation and other materials is an application of hyperspectral remote sensing in the earth sciences. This thesis evaluates the performance of two classification and clustering techniques on hyperspectral images for mineral identification. Support Vector Machines (SVM) and Self-Organizing Maps (SOM) are applied as classification and clustering techniques, respectively. Principal Component Analysis (PCA) is used to prepare the data to be analyzed. The purpose of using PCA is to reduce the amount of data that needs to be processed by identifying the most important components within the data. A well-studied dataset from Cuprite, Nevada and a dataset of more complex data from Baffin Island were used to assess the performance of these techniques. The main goal of this research study is to evaluate the advantage of training a classifier based on a small amount of data compared to an unsupervised method. Determining the effect of feature extraction on the accuracy of the clustering and classification method is another goal of this research. This thesis concludes that using PCA increases the learning accuracy, and especially so in classification. SVM classifies Cuprite data with a high precision and the SOM challenges SVM on datasets with high level of noise (like Baffin Island).
Resumo:
Studies have demonstrated that the oxysterol binding protein (OSBP) acts as a phosphatidylinositol phosphate (PIP)-sterol exchanger at membrane contact sites (MCS) of the endoplasmic reticulum (ER) and Golgi. OSBP is known to pick up phosphatidylinositol-4-phosphate (PI(4)P) from the ER, transfer it to the trans-Golgi in exchange for a cholesterol molecule that is then transferred from the trans-Golgi to the ER. Upon further examination of this pathway by Ridgway et al. (1), it appeared that phosphorylation of OSBP played a role in the localization of OSBP. The dephosphorylation state of OSBP was linked to Golgi localization and the depletion of cholesterol at the ER. To mimic the phosphorylated state of OSBP, the mutant OSBP-S5E was designed by Ridgway et al. (1). The lipid and sterol recognition by wt-OSBP and its phosphomimic mutant OSBP-S5E were investigated using immobilized lipid bilayers and dual polarization interferometry (DPI). DPI is a technique in which the protein binding affinity to immobilized lipid bilayers is measured and the binding behavior is examined through real time. Lipid bilayers containing 1,2-dioleoyl-sn-glycero-3-phosphocholine (DOPC) and varying concentrations of PI(4)Ps or sterols (cholesterol or 25-hydroxycholesterol) were immobilized on a silicon nitride chip. It was determined that wt-OSBP binds differently to PI(4)P-containing bilayers compared to OSBP-S5E. The binding behavior suggested that wt-OSBP extracts PI(4)P and the change in the binding behavior, in the case of OSBP-S5E, suggested that the phosphorylation of OSBP may prevent the recognition and/or extraction of PI(4)P. In the presence of sterols, the overall binding behavior of OSBP, regardless of phosphorylation state, was fairly similar. The maximum specific bound mass of OSBP to sterols did not differ as the concentration of sterols increased. However, comparing the maximum specific bound mass of OSBP to cholesterol with oxysterol (25-hydroxycholesterol), OSBP displayed nearly a 2-fold increase in bound mass. With the absence of the wt-OSBP-PI(4)P binding behavior, it can be speculated that the sterols were not extracted. In addition, the binding behavior of OSBP was further tested using a fluorescence based binding assay. Using 22-(N-(7-nitrobenz-2-oxa-1,3-diazol-4-yl)amino)-23,24-bisnor-5-cholen-3β-ol (22-NBD cholesterol), wt-OSBP a one site binding dissociation constant Kd, of 15 ± 1.4 nM was determined. OSBP-S5E did not bind to 22-NBD cholesterol and Kd value was not obtained.
Resumo:
Cette thèse porte sur l’émergence sur la scène chilienne d’un nouvel acteur dans la production du livre, acteur qui s’organise à la fin des années 1990 en se définissant lui-même en tant qu’éditeur indépendant et qui, au cours des premières années du XXIe siècle, élargit cette définition pour inclure le phénomène de l’édition autonome et le domaine de l’édition universitaire. Le point de ralliement de ces acteurs, organisés autour de l’association Editores de Chile, est la reprise et l’affirmation d’un rôle moderne des éditeurs de livres, au sens des Lumières. On peut constater l’articulation entre les revendications spécifiques du secteur et ses positions politiques sur la valeur symbolique de la production culturelle, sur son rôle en tant que facteur de construction identitaire et démocratique car l’accès aux livres ne peut pas être restreint par l’action sans contrepoids du marché. L’angle théorique que nous proposons est celui des théories des industries culturelles tout en intégrant aussi les contributions des études culturelles. En nous situant dans une perspective de l’économie politique des industries culturelles, nous chercherons à redéfinir le concept d’indépendance par le biais d’une analyse des stratégies d’unités économiques (les maisons d’édition) et des rapports entre ces unités et leurs contextes géographiques, politiques et culturels spécifiques. Nous tenons aussi en considération des éléments macrostructurels, mais en considérant que leur capacité d’influence est toujours relative et, en conséquence, doit faire l’objet d’une réévaluation en fonction des rapports de forces et des conjonctures politiques, économiques et sociales spécifiques. Nous pensons que l’indépendance n’est pas un phénomène qui n’est pas exclusif au monde de l’édition. Nous avons fait le constat qu’il existe aussi au sein des industries de l’enregistrement sonore, de l’audiovisuel et des médias comme la presse, la radio et, en moindre proportion, la télévision. En termes méthodologiques, nous proposons une approche qui combine des méthodes et des instruments quantitatifs et qualitatifs, c’est-à-dire, l’analyse des statistiques de l’édition au Chili (fréquences des titres, genres et auteurs), des entrevues semi-structurées et une analyse documentaire. Avant d’aborder la description et l’analyse de la production de livres au Chili et du sens que les éditeurs donnent à l’indépendance et à leurs prises de position dans le champ culturel, nous proposons une description historique et industrielle de l’édition du livre chilien. Cette description permet de comprendre la naissance et le développement du secteur en regard des processus politiques, économiques et sociaux du Chili et de l’Amérique latine, ainsi que sa situation actuelle en regard des nouvelles conditions politiques et économiques qui résultent du processus de globalisation et des transformations néolibérales locales et internationales. La recherche examine ensuite le caractère de la production de livres publiés au Chili entre les années 2000 et 2005 en considérant les titres produits, les auteurs et les genres. Cette analyse permet aussi d’établir des différences entre ces maisons d’édition et celles qui relèvent des grands conglomérats transnationaux de l’édition de livres. Cette analyse comparative nous permet d’établir de manière concluante des différences quant au nombre et á la diversité et l’intérêt culturel des livres publiés entre les éditeurs transnationaux et les éditeurs indépendants regroupés sous le nom de Editores de Chile. Cette analyse permet aussi d’établir des liens précis entre la production des éditeurs indépendants et leurs objectifs culturels et politiques explicites. Nous faisons ensuite état, par le biais de l’exposition et de l’analyse des entrevues réalisées avec les éditeurs, des trajectoires de ces organisations en tenant compte des périodes historiques spécifiques qui ont servi de contexte à leur création et à leur développement. Nous mettons ici en rapport ces trajectoires des éditeurs, les définitions de leurs missions et les stratégies mobilisées. Nous tenons aussi compte des dimensions internationales de ces définitions qui s’expriment dans leur participation au sein d’organisations internationales telle que l’Alliance internationale d’éditeurs indépendants (Gijón 2000 et Dakar 2003) et, spécifiquement, leur expression dans la coopération avec des maisons d’édition latino-américaines. Les entrevues et l’analyse documentaire nous permettent d‘entrevoir les tensions entre la politique culturelle de l’État chilien, en contraste avec des définitions, des objectifs et des actions politiques de Editores de Chile. Nous relions donc dans l’analyse, l’émergence de l’édition indépendante et les résistances qu’engendrent la globalisation des marchés culturels et les mouvements de concentration de la propriété, ainsi que les effets et réponses aux transformations néolibérales au plan des politiques culturelles publiques. Nous concluons alors à la nécessité d’une économie politique critique des industries culturelles qui puisse se pencher sur ces phénomènes et rendre compte non seulement de rapports entre conglomérats et indépendants et du développement des filières de la production culturelle, mais aussi du déploiement des logiques culturelles et politiques sous-jacentes, voire des projets historiques, qui se confrontent dans le champ des industries culturelles.
Resumo:
Le brossage des dents, la mastication des aliments et toutes autres activités orales quotidiennes peuvent provoquer une bactériémie transitoire. Cette bactériémie transitoire a le potentiel de causer une endocardite infectieuse en présence de certains facteurs de risque. Les cardiopathies congénitales chez les enfants font partie de ces facteurs de risque. Le contrôle de la plaque dentaire et une bonne santé buccodentaire permettent de réduire le risque d’endocardite infectieuse. Les objectifs du présent projet de recherche visent à évaluer les connaissances des parents d’enfants atteints de cardiopathies congénitales sur l’endocardite infectieuse et son lien avec la santé buccodentaire et de connaître les habitudes d’hygiène orale personnelles et professionnelles adoptées par les enfants atteints de cardiopathies congénitales. Le projet de recherche vise également à évaluer l’efficacité de deux méthodes d’enseignement d’hygiène orale chez les enfants atteints de cardiopathies congénitales. La procédure expérimentale implique que tous les parents ou gardiens légaux d’enfants atteints de cardiopathies congénitales, âgés entre 6 et 12 ans qui visitent le service de cardiologie du CHU Sainte-Justine sont sollicités à participer au projet de recherche. Un formulaire d’information et de consentement ainsi qu’un questionnaire sont remis aux parents. Le questionnaire vise à évaluer la connaissance des parents d’enfants atteints de cardiopathies congénitales sur ce qu’est l’endocardite infectieuse et son lien avec la santé buccodentaire ainsi que de connaître les habitudes d’hygiène orale personnelles et professionnelles des enfants atteints de cardiopathies congénitales. L’examen clinique nécessaire au projet de recherche implique le prélèvement d’un indice de plaque Quigley & Hein, Turesky modifié avant et après que l’enfant participant au projet de recherche ait appliqué les instructions d’hygiène orale reçues. L’enfant est assigné à l’une des deux méthodes d’instructions d’hygiène orale avec l’aide d’une table de randomisation. La méthode d’instructions d’hygiène orale du groupe 1 correspond à des instructions transmises par le cardiologue tandis que la méthode d’instructions d’hygiène orale du groupe 2 correspond aux instructions transmises par l’intermédiaire d’un document audio visuel. Des analyses chi-carré et des tests de T pairé ainsi que des analyses de variance univariée (one-way ANOVA) et des analyses de corrélation de Pearson entre le questionnaire et les données cliniques ont été effectuées pour analyser les données recueillies. Les résultats démontrent que les parents d’enfants « à risque élevé » d’effet adverse d’une endocardite infectieuse ne connaissent pas davantage le risque d’endocardite infectieuse d’origine buccodentaire que les parents d’enfants « de moindre risque » (p=0,104). Les résultats démontrent toutefois que les parents d’enfants atteints de cardiopathies congénitales qui connaissent le risque d’endocardite infectieuse et son lien avec la santé buccodentaire adhèrent à des comportements dans le but de maintenir une bonne santé buccodentaire chez leur enfant. Les résultats qui proviennent de l’examen clinique démontrent que l’application des instructions d’hygiène orale faites par le cardiologue et par l’intermédiaire d’un document audio visuel permettent d’observer une différence statistiquement significative (p=0,000) au niveau du contrôle de la plaque dans chacun de ces groupes. Toutefois, aucune différence statistiquement significative (p=0,668) n’a pu être démontrée entre les deux méthodes d’instructions d’hygiène orale. Les parents qui connaissent le lien entre la santé buccodentaire et le risque d’endocardite infectieuse pour leur enfant atteint de cardiopathie congénitale adoptent un comportement pour optimiser la santé buccodentaire de leur enfant. Les instructions d’hygiène orale par l’intermédiaire d’un document audio visuel sont équivalentes aux instructions d’hygiène orale prodiguées par le cardiologue.
Resumo:
La maladie rénale peut se manifester avec différents types de pathologies buccales pouvant augmenter les risques de bactériémie. Bien que l’endocardite infectieuse soit une condition rare chez les patients atteints de maladie rénale, elle peut toutefois être retrouvée suite à des infections nosocomiales. Dans le passé, une antibiothérapie prophylactique était prescrite aux patients hémodialysés pour les protéger de l’endocardite infectieuse et de l’infection de l’accès d’hémodialyse. Aujourd’hui, cette recommandation est révolue. Afin de contrer les risques de bactériémie transitoire, une attention particulière doit être apportée aux soins d’hygiène orale à la maison. Le but de l’étude est d’évaluer l’efficacité de deux méthodes d’enseignement d’hygiène orale chez les patients atteints de maladie rénale. Objectifs de recherche Les trois objectifs de recherche sont a) d’évaluer les connaissances des parents de patients atteints de maladies rénales sur l’endocardite infectieuse et le lien avec la santé buccodentaire; b) d’évaluer la perception des parents par rapport à la santé buccodentaire de leur enfant et leurs habitudes d’hygiène orale; et c) de comparer l’influence de deux méthodes d’hygiène orale sur l’indice de plaque chez les enfants atteints de maladies rénales. Hypothèses Les deux hypothèses de recherche sont que a) les parents d’enfants atteints de maladies rénales connaissent et adhèrent aux recommandations émises par l’American Heart Association; et que b) l’amélioration de l’indice de plaque chez les patients atteints de maladies rénales est plus grande pour le groupe recevant des instructions par le matériel audiovisuel par rapport à ceux qui les reçoivent par le néphrologue. Méthodologie Suite à l’obtention d’un certificat d’éthique à la recherche du Centre Hospitalier Universitaire Sainte-Justine, 37 des 38 sujets recrutés âgés entre 6 et 16 ans (19 filles et 18 garçons) ont participé à cette étude transversale. Suite à la signature d’un consentement éclairé, les sujets sont assignés par randomisation à l’un des deux groupes d’instructions d’hygiène orale, soit celui sans instructions spécifiques (groupe 1) ou par matériel audiovisuel (groupe 2). Un questionnaire portant sur les connaissances des parents en rapport avec la santé buccodentaire est remis aux parents. Un indice de plaque initial est noté avant l’application des instructions d’hygiène orale reçues. Un indice de plaque final mis en évidence à l’aide de pastilles révélatrices est documenté avec des photographies intra-orales et mesuré par deux observateurs, testés pour la fiabilité intra et inter-observateurs. Résultats Les analyses statistiques ne démontrent aucune différence significative entre les deux groupes d’instructions d’hygiène orale. Les variables à l’étude (âge, sexe, suivi dentaire, fréquence des soins à la maison, connaissances et motivation) ne montrent aucune influence significative sur la qualité de l’hygiène orale des sujets. Seul l’indice de plaque initial est inversement relié à la perception des parents face à la santé buccodentaire de leur enfant : plus le relevé de plaque est bas, plus la santé buccodentaire est perçue comme bonne. Conclusion Selon les résultats de notre étude, il n’existe pas de différence statistiquement significative entre les deux méthodes d’instructions d’hygiène orale. Néanmoins, les deux techniques permettent de diminuer significativement l’indice de plaque chez les enfants atteints de maladies rénales et de conscientiser cette population à l’importance du maintien d’une bonne santé buccodentaire.
Resumo:
Il est avant-tout question, dans ce mémoire, de la modélisation du timbre grâce à des algorithmes d'apprentissage machine. Plus précisément, nous avons essayé de construire un espace de timbre en extrayant des caractéristiques du son à l'aide de machines de Boltzmann convolutionnelles profondes. Nous présentons d'abord un survol de l'apprentissage machine, avec emphase sur les machines de Boltzmann convolutionelles ainsi que les modèles dont elles sont dérivées. Nous présentons aussi un aperçu de la littérature concernant les espaces de timbre, et mettons en évidence quelque-unes de leurs limitations, dont le nombre limité de sons utilisés pour les construire. Pour pallier à ce problème, nous avons mis en place un outil nous permettant de générer des sons à volonté. Le système utilise à sa base des plug-ins qu'on peut combiner et dont on peut changer les paramètres pour créer une gamme virtuellement infinie de sons. Nous l'utilisons pour créer une gigantesque base de donnée de timbres générés aléatoirement constituée de vrais instruments et d'instruments synthétiques. Nous entrainons ensuite les machines de Boltzmann convolutionnelles profondes de façon non-supervisée sur ces timbres, et utilisons l'espace des caractéristiques produites comme espace de timbre. L'espace de timbre ainsi obtenu est meilleur qu'un espace semblable construit à l'aide de MFCC. Il est meilleur dans le sens où la distance entre deux timbres dans cet espace est plus semblable à celle perçue par un humain. Cependant, nous sommes encore loin d'atteindre les mêmes capacités qu'un humain. Nous proposons d'ailleurs quelques pistes d'amélioration pour s'en approcher.
Resumo:
L’aptitude à reconnaitre les expressions faciales des autres est cruciale au succès des interactions sociales. L’information visuelle nécessaire à la catégorisation des expressions faciales d’émotions de base présentées de manière statique est relativement bien connue. Toutefois, l’information utilisée pour discriminer toutes les expressions faciales de base entre elle demeure encore peu connue, et ce autant pour les expressions statiques que dynamiques. Plusieurs chercheurs assument que la région des yeux est particulièrement importante pour arriver à « lire » les émotions des autres. Le premier article de cette thèse vise à caractériser l’information utilisée par le système visuel pour discriminer toutes les expressions faciales de base entre elles, et à vérifier l’hypothèse selon laquelle la région des yeux est cruciale pour cette tâche. La méthode des Bulles (Gosselin & Schyns, 2001) est utilisée avec des expressions faciales statiques (Exp. 1) et dynamiques (Exp. 2) afin de trouver quelles régions faciales sont utilisées (Exps. 1 et 2), ainsi que l’ordre temporel dans lequel elles sont utilisées (Exp. 2). Les résultats indiquent que, contrairement à la croyance susmentionnée, la région de la bouche est significativement plus utile que la région des yeux pour discriminer les expressions faciales de base. Malgré ce rôle prépondérant de la bouche, c’est toute de même la région des yeux qui est sous-utilisée chez plusieurs populations cliniques souffrant de difficultés à reconnaitre les expressions faciales. Cette observation pourrait suggérer que l’utilisation de la région des yeux varie en fonction de l’habileté pour cette tâche. Le deuxième article de cette thèse vise donc à vérifier comment les différences individuelles en reconnaissance d’expressions faciales sont reliées aux stratégies d’extraction de l’information visuelle pour cette tâche. Les résultats révèlent une corrélation positive entre l’utilisation de la région de la bouche et l’habileté, suggérant la présence de différences qualitatives entre la stratégie des patients et celle des normaux. De plus, une corrélation positive est retrouvée entre l’utilisation de l’œil gauche et l’habileté des participants, mais aucune corrélation n’est retrouvée entre l’utilisation de l’œil droit et l’habileté. Ces résultats indiquent que la stratégie des meilleurs participants ne se distingue pas de celle des moins bons participants simplement par une meilleure utilisation de l’information disponible dans le stimulus : des différences qualitatives semblent exister même au sein des stratégies des participants normaux.
Resumo:
Cet article présente une entrevue inédite d’Hubert Aquin avec l’écrivain britannique Aldous Huxley, réalisée dans le cadre de l’émission "Premier plan" du 12 juin 1960 à la télévision de Radio-Canada. L’analyse des contextes de production, de diffusion et de réception de l’entrevue, située dans le corpus des grands entretiens réalisés en 1960 par Hubert Aquin, permet de mieux saisir l’impact de la carrière journalistique sur la formation intellectuelle de l’écrivain, du militant politique et de l’homme des médias. La réémergence du patrimoine médiatique aquinien, grâce à la nouvelle accessibilité de plusieurs dizaines de documents audiovisuels à l’Université de Montréal, est finalement soulignée, laissant entrevoir de nouvelles perspectives d’études de l’œuvre.
Resumo:
Cet essai envisage le deuil du point de vue d’un homme endeuillé. Sur la base de ma propre expérience de deuil, j’ai questionné les théories freudiennes sur le sujet. Face aux théories derridiennes sur l’archive, je me positionne non pas comme un archiviste professionnel mais comme une personne endeuillée trouvée engagée dans un processus d’archivage. Au regard de la psychanalyse et de l’archive, ce texte n’entend ni ne prétend avancer de nouvelles théories sans prendre en compte leurs histoires respectives. Ce texte propose une étude comparée pour une tentative de définitions à la lumière d’une expérience personnelle. Ces questions seront finalement mises à l’épreuve dans le monument performatif audio-visuel Dylan Walsh – dance.
Resumo:
Cette version de la thèse a été tronquée des certains éléments protégés par le droit d’auteur. Une version plus complète est disponible en ligne pour les membres de la communauté de l’Université de Montréal et peut aussi être consultée dans une des bibliothèques UdeM.
Resumo:
Ce mémoire de maîtrise porte principalement sur la question de la réappropriation historique et musicale des Tziganes dans le docu-fiction Latcho Drom (1993) de Tony Gatlif. Dans un premier chapitre, il s’agit de comparer l’histoire écrite sur les Tziganes avec leur mise en image afin de déterminer comment le cinéaste apporte dans le langage audiovisuel de Latcho Drom un total renouveau dans le discours dominant. Dans cette perspective, l’appareil cinématographique se révèle être un médium de revendication et de réappropriation de l’être tzigane et de son histoire. Dans un deuxième chapitre, il est question de démontrer avec des études basées sur l’ethnomusicologie comment les musiques tziganes, sont rapidement assimilées au patrimoine culturel des sociétés européennes. Latcho Drom qui traduit avec justesse des expressions musicales très encrées de la vie de ces communautés, s’inscrit en contradiction avec la conception territorialiste de musicologues et ethnomusicologues qui refusent d’accorder à la musique tzigane légitimité et autonomie. Dans un troisième chapitre, il s’agit de déterminer comment le cinéaste cherche à faire entrer son spectateur dans un rapport de proximité avec les communautés de Latcho Drom afin de susciter en lui reconnaissance et empathie.
Resumo:
But: La perte unilatérale du cortex visuel postérieur engendre une cécité corticale controlatérale à la lésion, qu’on appelle hémianopsie homonyme (HH). Celle-ci est notamment accompagnée de problèmes d’exploration visuelle dans l’hémichamp aveugle dus à des stratégies oculaires déficitaires, qui ont été la cible des thérapies de compensation. Or, cette perte de vision peut s’accompagner d’une perception visuelle inconsciente, appelée blindsight. Notre hypothèse propose que le blindsight soit médié par la voie rétino-colliculaire extrastriée, recrutant le colliculus supérieur (CS), une structure multisensorielle. Notre programme a pour objectif d’évaluer l’impact d’un entraînement multisensoriel (audiovisuel) sur la performance visuelle inconsciente des personnes hémianopsiques et les stratégies oculaires. Nous essayons, ainsi, de démontrer l’implication du CS dans le phénomène de blindsight et la pertinence de la technique de compensation multisensorielle comme thérapie de réadaptation. Méthode: Notre participante, ML, atteinte d’une HH droite a effectué un entraînement d’intégration audiovisuel pour une période de 10 jours. Nous avons évalué la performance visuelle en localisation et en détection ainsi que les stratégies oculaires selon trois comparaisons principales : (1) entre l’hémichamp normal et l’hémichamp aveugle; (2) entre la condition visuelle et les conditions audiovisuelles; (3) entre les sessions de pré-entraînement, post-entraînement et 3 mois post-entraînement. Résultats: Nous avons démontré que (1) les caractéristiques des saccades et des fixations sont déficitaires dans l’hémichamp aveugle; (2) les stratégies saccadiques diffèrent selon les excentricités et les conditions de stimulations; (3) une adaptation saccadique à long terme est possible dans l’hémichamp aveugle si l’on considère le bon cadre de référence; (4) l’amélioration des mouvements oculaires est liée au blindsight. Conclusion(s): L’entraînement multisensoriel conduit à une amélioration de la performance visuelle pour des cibles non perçues, tant en localisation qu’en détection, ce qui est possiblement induit par le développement de la performance oculomotrice.
Resumo:
Motivation for Speaker recognition work is presented in the first part of the thesis. An exhaustive survey of past work in this field is also presented. A low cost system not including complex computation has been chosen for implementation. Towards achieving this a PC based system is designed and developed. A front end analog to digital convertor (12 bit) is built and interfaced to a PC. Software to control the ADC and to perform various analytical functions including feature vector evaluation is developed. It is shown that a fixed set of phrases incorporating evenly balanced phonemes is aptly suited for the speaker recognition work at hand. A set of phrases are chosen for recognition. Two new methods are adopted for the feature evaluation. Some new measurements involving a symmetry check method for pitch period detection and ACE‘ are used as featured. Arguments are provided to show the need for a new model for speech production. Starting from heuristic, a knowledge based (KB) speech production model is presented. In this model, a KB provides impulses to a voice producing mechanism and constant correction is applied via a feedback path. It is this correction that differs from speaker to speaker. Methods of defining measurable parameters for use as features are described. Algorithms for speaker recognition are developed and implemented. Two methods are presented. The first is based on the model postulated. Here the entropy on the utterance of a phoneme is evaluated. The transitions of voiced regions are used as speaker dependent features. The second method presented uses features found in other works, but evaluated differently. A knock—out scheme is used to provide the weightage values for the selection of features. Results of implementation are presented which show on an average of 80% recognition. It is also shown that if there are long gaps between sessions, the performance deteriorates and is speaker dependent. Cross recognition percentages are also presented and this in the worst case rises to 30% while the best case is 0%. Suggestions for further work are given in the concluding chapter.
Resumo:
Development of Malayalam speech recognition system is in its infancy stage; although many works have been done in other Indian languages. In this paper we present the first work on speaker independent Malayalam isolated speech recognizer based on PLP (Perceptual Linear Predictive) Cepstral Coefficient and Hidden Markov Model (HMM). The performance of the developed system has been evaluated with different number of states of HMM (Hidden Markov Model). The system is trained with 21 male and female speakers in the age group ranging from 19 to 41 years. The system obtained an accuracy of 99.5% with the unseen data
Resumo:
A primary medium for the human beings to communicate through language is Speech. Automatic Speech Recognition is wide spread today. Recognizing single digits is vital to a number of applications such as voice dialling of telephone numbers, automatic data entry, credit card entry, PIN (personal identification number) entry, entry of access codes for transactions, etc. In this paper we present a comparative study of SVM (Support Vector Machine) and HMM (Hidden Markov Model) to recognize and identify the digits used in Malayalam speech.