925 resultados para Key feature
Resumo:
L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.
Resumo:
Contexte: Plusieurs études ont démontré que les indices environnementaux associés à la cigarette peuvent provoquer des envies de consommer (« cravings ») chez les fumeurs, ce qui nuit aux efforts d’abandon de la substance et favorise le maintien du tabagisme. Un bon nombre d’études en imagerie cérébrale ont examiné les bases neurophysiologiques de cette caractéristique clinique. Le tabagisme se caractérise aussi par l’incapacité des représentations négatives de la consommation (méfaits médicaux et sociaux) d’influencer la consommation des fumeurs. Étonnamment toutefois, très peu de travaux de recherche se sont intéressés à examiner les bases neurophysiologiques de cette insouciance envers les méfaits de la cigarette chez les fumeurs. En utilisant l'imagerie cérébrale fonctionnelle, l'objectif de cette étude était: d’examiner la réponse neurophysiologique des fumeurs chroniques à des images qui illustrent les effets négatifs de la cigarette (campagne anti-tabac); d’examiner le caractère affectif de cette réactivité utilisant des conditions contrôles (c.-à-d., images aversives non-liées au tabac et appétitives liées au tabac); d'examiner la connectivité fonctionnelle durant cette tâche entre les systèmes affectifs et exécutifs (une interaction qui peut favoriser ou entraver l'impact des évènements aversifs). Méthodes: 30 fumeurs chroniques ont passé une session de neuroimagerie durant laquelle ils devaient regarder des images appétitives et aversives de cigarettes, des images aversives non-reliées au tabac et des images neutres. Résultats: Les images aversives liés au tabagisme suscitent une plus grande activation dans le cortex médial préfrontal, l'amygdale, le gyrus frontal inférieur et le cortex orbitofrontal latéral en comparaison avec les images neutres, mais une moins grande activation dans des structures médiaux / sous-corticales comparé aux images aversives non-reliés et images appétitives reliées aux tabac. L’activité du système exécutif présente une connectivité fonctionnelle négative avec le système affectif lorsque les images aversives sont liées au tabac, mais pas quand elles ne le sont pas. Conclusions: Le modèle d'activation du cerveau observé suggère qu’il y a un biais dans la réactivité des fumeurs chroniques lorsqu’ils observent des représentations négatives de la consommation du tabac. L’activité du système exécutif cérébral semble promouvoir chez les fumeurs une baisse d’activité dans des régions impliquées dans la genèse d’une réponse physiologique affective; il s’agit d’un mécanisme qui permettrait de réduire l’impact persuasif de ces représentations des méfaits de la cigarette sur la consommation des fumeurs.
Resumo:
Les enjeux liés aux politiques éducatives ont considérablement changé au cours des dernières décennies. Ces changements sont liés, entre autres, à l’accroissement de l’imputabilité et de la reddition de compte qui est devenue une caractéristique importante des réformes curriculaires et pédagogiques. Les politiques à enjeux élevés exercent une pression énorme sur les districts et les écoles états-unienne afin qu’ils augmentent le rendement des élèves en utilisant des systèmes de conséquences (Hall & Ryan, 2011; Loeb & Strunk, 2007). Ces politiques envoient de puissants messages sur l'importance de certaines matières scolaires au détriment d'autres - circonscrivant les exigences en termes de compétences et de connaissances. La langue maternelle d’enseignement et les mathématiques sont devenues des mesures centrales sur lesquelles reposent l’évaluation et le degré de performance des districts et des écoles. Conséquemment, les administrateurs de districts et les directions d’écoles ont souvent recours à des réformes curriculaires et pédagogiques comme moyen d'augmenter le rendement des élèves dans les matières scolaires visées par ces politiques. Les politiques contraignent les acteurs scolaires de concentrer les ressources sur les programmes curriculaires et les évaluations, le développement professionnel, et la prise de décision pilotée par les données (Anagnostopoulos & Ruthledge, 2007; Honig & Hatch, 2004; Spillane, Diamond, et al., 2002; Weitz White & Rosenbaum, 2008). Cette thèse examine la manière dont les politiques à enjeux élevés opèrent quotidiennement dans les interactions et les pratiques au sein des écoles. Nous analysons plus particulièrement les différents messages provenant de la politique transmis aux acteurs scolaires sur les manières d'apporter des changements substantiels dans le curriculum et l'enseignement. Nous élargissons l’analyse en prenant en compte le rôle des administrateurs de district ainsi que des partenaires universitaires qui façonnent également la manière dont certains aspects des messages provenant des politiques sont transmis, négociés et/ou débattus et d’autres sont ignorés (Coburn & Woulfin, 2012). En utilisant l’analyse de discours, nous examinons le rôle du langage comme constituant et médiateur des interactions sociales entre les acteurs scolaires et d’autres parties prenantes. De telles analyses impliquent une investigation approfondie d’un nombre d’étude de cas limité. Les données utilisées dans cette thèse ont été colligées dans une école primaire états-unienne du mid-West. Cette étude de cas fait partie d’une étude longitudinale de quatre ans qui comprenait huit écoles dans les milieux urbains entre 1999 et 2003 (Distributed Leadership Studies, http://www.distributedleadership.org). La base de données analysée inclut des observations de réunions formelles et des entrevues auprès des administrateurs du district, des partenaires universitaires, de la direction d’école et des enseignants. En plus de l’introduction et de la problématique (chapitre 1) et de discussion et conclusion (chapitre 5), cette thèse comprend un ensemble de trois articles interdépendants. Dans le premier article (chapitre 2), nous effectuons une recension des écrits portant sur le domaine de l’implantation de politiques (policy implementation) et la complexité des relations locales, nationales et internationales dans les systèmes éducatifs. Pour démystifier cette complexité, nous portons une attention particulière à la construction de sens des acteurs scolaires comme étant une dimension clé du processus de mise en œuvre des réformes. Dans le deuxième article (chapitre 3), nous cherchons à comprendre les processus sociaux qui façonnent les réponses stratégiques des acteurs scolaires à l’égard des politiques du district et de l’état et en lien avec la mise en œuvre d’un curriculum prescrit en mathématiques. Plus particulièrement, nous explorons les différentes situations dans lesquelles les acteurs scolaires argumentent au sujet des changements curriculaires et pédagogiques proposés par les administrateurs de district et des partenaires universitaires afin d’augmenter les résultats scolaires en mathématiques dans une école à faible performance. Dans le troisième article (chapitre 4), nous cherchons à démystifier les complexités liées à l’amélioration de l’enseignement dans un environnement de politiques à enjeux élevés. Pour ce faire, nous utilisons l'interaction entre les notions d'agentivité et la structure afin d'analyser la manière dont les conceptions d’imputabilité et les idées qui découlent de l'environnement politique et les activités quotidiennes jouent dans les interactions entre les acteurs scolaires concernant sur l’enseignement de la langue maternelle. Nous explorons trois objectifs spécifiques : 1) la manière dont les politiques à enjeux élevés façonnent les éléments de l’enseignement qui sont reproduits et ceux qui sont transformés au fil du temps ; 2) la manière dont la compréhension des leaders de l’imputabilité façonne les aspects des messages politiques que les acteurs scolaires remarquent à travers les interactions et les conversations et 3) la manière les acteurs scolaires portent une attention particulière à certaines messages au détriment d’autres. Dans le dernier chapitre de cette thèse, nous discutons les forces et les limites de l’analyse secondaire de données qualitatives, les implications des résultats pour le domaine d’études de l’implantation de politiques et les pistes futures de recherches.
Resumo:
Injectable drug nanocarriers have greatly benefited in their clinical development from the addition of a superficial hydrophilic corona to improve their cargo pharmacokinetics. The most studied and used polymer for this purpose is poly(ethylene glycol), PEG. However, in spite of its wide use for over two decades now, there is no general consensus on the optimum PEG chain coverage-density and size required to escape from the mononuclear phagocyte system and to extend the circulation time. Moreover, cellular uptake and active targeting may have conflicting requirements in terms of surface properties of the nanocarriers which complicates even more the optimization process. These persistent issues can be largely attributed to the lack of straightforward characterization techniques to assess the coverage-density, the conformation or the thickness of a PEG layer grafted or adsorbed on a particulate drug carrier and is certainly one of the main reasons why so few clinical applications involving PEG coated particle-based drug delivery systems are under clinical trial so far. The objective of this review is to provide the reader with a brief description of the most relevant techniques used to assess qualitatively or quantitatively PEG chain coverage-density, conformation and layer thickness on polymeric nanoparticles. Emphasis has been made on polymeric particle (solid core) either made of copolymers containing PEG chains or modified after particle formation. Advantages and limitations of each technique are presented as well as methods to calculate PEG coverage-density and to investigate PEG chains conformation on the NP surface.
Resumo:
La documentation scientifique fait état de la présence, chez l’adulte, de cellules souches et progénitrices neurales (CSPN) endogènes dans les zones sous-ventriculaire et sous-granulaire du cerveau ainsi que dans le gyrus denté de l’hippocampe. De plus, un postulat selon lequel il serait également possible de retrouver ce type de cellules dans la moelle épinière et le néocortex des mammifères adultes a été énoncé. L’encéphalopathie de Wernicke, un trouble neurologique grave toutefois réversible qui entraîne un dysfonctionnement, voire une défaillance du cerveau, est causée principalement par une carence importante en thiamine (CT). Des observations récentes laissent envisager que les facteurs en cause dans la prolifération et la différenciation des CSPN pourraient également jouer un rôle important lors d’un épisode de CT. L’hypothèse, selon laquelle l’identification de nouveaux métabolites entrant dans le mécanisme ou la séquence de réactions se soldant en une CT pourraient en faciliter la compréhension, a été émise au moyen d'une démarche en cours permettant d’établir le profil des modifications métaboliques qui surviennent en de telles situations. Cette approche a été utilisée pour constater les changements métaboliques survenus au niveau du foyer cérébral dans un modèle de rats déficients en thiamine (rats DT), particulièrement au niveau du thalamus et du colliculus inférieur (CI). La greffe de CSPN a quant à elle été envisagée afin d’apporter de nouvelles informations sur la participation des CSPN lors d’un épisode de CT et de déterminer les bénéfices thérapeutiques potentiels offerts par cette intervention. Les sujets de l’étude étaient répartis en quatre groupes expérimentaux : un premier groupe constitué de rats dont la CT était induite par la pyrithiamine (rats DTiP), un deuxième groupe constitué de rats-contrôles nourris ensemble (« pair-fed control rats » ou rats PFC) ainsi que deux groupes de rats ayant subi une greffe de CSPN, soit un groupe de rats DTiP greffés et un dernier groupe constitué de rats-contrôles (rats PFC) greffés. Les échantillons de foyers cérébraux (thalamus et CI) des quatre groupes de rats ont été prélevés et soumis à des analyses métabolomiques non ciblées ainsi qu’à une analyse visuelle par microscopie à balayage électronique (SEM). Une variété de métabolites-clés a été observée chez les groupes de rats déficients en thiamine (rats DTiP) en plus de plusieurs métabolites dont la documentation ne faisait pas mention. On a notamment constaté la présence d’acides biliaires, d’acide cynurénique et d’acide 1,9— diméthylurique dans le thalamus, alors que la présence de taurine et de carnosine a été observée dans le colliculus inférieur. L’étude a de plus démontré une possible implication des CSPN endogènes dans les foyers cérébraux du thalamus et du colliculus inférieur en identifiant les métabolites-clés ciblant les CSPN. Enfin, les analyses par SEM ont montré une amélioration notable des tissus à la suite de la greffe de CSPN. Ces constatations suggèrent que l’utilisation de CSPN pourrait s’avérer une avenue thérapeutique intéressante pour soulager la dégénérescence symptomatique liée à une grave carence en thiamine chez l’humain.
Resumo:
In this thesis, the applications of the recurrence quantification analysis in metal cutting operation in a lathe, with specific objective to detect tool wear and chatter, are presented.This study is based on the discovery that process dynamics in a lathe is low dimensional chaotic. It implies that the machine dynamics is controllable using principles of chaos theory. This understanding is to revolutionize the feature extraction methodologies used in condition monitoring systems as conventional linear methods or models are incapable of capturing the critical and strange behaviors associated with the metal cutting process.As sensor based approaches provide an automated and cost effective way to monitor and control, an efficient feature extraction methodology based on nonlinear time series analysis is much more demanding. The task here is more complex when the information has to be deduced solely from sensor signals since traditional methods do not address the issue of how to treat noise present in real-world processes and its non-stationarity. In an effort to get over these two issues to the maximum possible, this thesis adopts the recurrence quantification analysis methodology in the study since this feature extraction technique is found to be robust against noise and stationarity in the signals.The work consists of two different sets of experiments in a lathe; set-I and set-2. The experiment, set-I, study the influence of tool wear on the RQA variables whereas the set-2 is carried out to identify the sensitive RQA variables to machine tool chatter followed by its validation in actual cutting. To obtain the bounds of the spectrum of the significant RQA variable values, in set-i, a fresh tool and a worn tool are used for cutting. The first part of the set-2 experiments uses a stepped shaft in order to create chatter at a known location. And the second part uses a conical section having a uniform taper along the axis for creating chatter to onset at some distance from the smaller end by gradually increasing the depth of cut while keeping the spindle speed and feed rate constant.The study concludes by revealing the dependence of certain RQA variables; percent determinism, percent recurrence and entropy, to tool wear and chatter unambiguously. The performances of the results establish this methodology to be viable for detection of tool wear and chatter in metal cutting operation in a lathe. The key reason is that the dynamics of the system under study have been nonlinear and the recurrence quantification analysis can characterize them adequately.This work establishes that principles and practice of machining can be considerably benefited and advanced from using nonlinear dynamics and chaos theory.
Resumo:
n the recent years protection of information in digital form is becoming more important. Image and video encryption has applications in various fields including Internet communications, multimedia systems, medical imaging, Tele-medicine and military communications. During storage as well as in transmission, the multimedia information is being exposed to unauthorized entities unless otherwise adequate security measures are built around the information system. There are many kinds of security threats during the transmission of vital classified information through insecure communication channels. Various encryption schemes are available today to deal with information security issues. Data encryption is widely used to protect sensitive data against the security threat in the form of “attack on confidentiality”. Secure transmission of information through insecure communication channels also requires encryption at the sending side and decryption at the receiving side. Encryption of large text message and image takes time before they can be transmitted, causing considerable delay in successive transmission of information in real-time. In order to minimize the latency, efficient encryption algorithms are needed. An encryption procedure with adequate security and high throughput is sought in multimedia encryption applications. Traditional symmetric key block ciphers like Data Encryption Standard (DES), Advanced Encryption Standard (AES) and Escrowed Encryption Standard (EES) are not efficient when the data size is large. With the availability of fast computing tools and communication networks at relatively lower costs today, these encryption standards appear to be not as fast as one would like. High throughput encryption and decryption are becoming increasingly important in the area of high-speed networking. Fast encryption algorithms are needed in these days for high-speed secure communication of multimedia data. It has been shown that public key algorithms are not a substitute for symmetric-key algorithms. Public key algorithms are slow, whereas symmetric key algorithms generally run much faster. Also, public key systems are vulnerable to chosen plaintext attack. In this research work, a fast symmetric key encryption scheme, entitled “Matrix Array Symmetric Key (MASK) encryption” based on matrix and array manipulations has been conceived and developed. Fast conversion has been achieved with the use of matrix table look-up substitution, array based transposition and circular shift operations that are performed in the algorithm. MASK encryption is a new concept in symmetric key cryptography. It employs matrix and array manipulation technique using secret information and data values. It is a block cipher operated on plain text message (or image) blocks of 128 bits using a secret key of size 128 bits producing cipher text message (or cipher image) blocks of the same size. This cipher has two advantages over traditional ciphers. First, the encryption and decryption procedures are much simpler, and consequently, much faster. Second, the key avalanche effect produced in the ciphertext output is better than that of AES.
Resumo:
Perhaps the most characteristic feature of our timesis that economic development has become the goal and ambition of people. The needs which this desire creates are immense they are of course urgent everywhere and they cannot be postponded. Consequently there was a frantic search for formulae of rapid economic development. It was claimed that agrarian reform is the indispensable condition for the development of productive forces and industrialization of the state.A key element in the land reform policy is the provision for ownership of land .Measures taken include redistribution of large estates ,assistance to tenants or labourers to acquire holdings and settlement schemes to establish new farming units on reclaimed or developed lands.In this thesis an attempt is made to evaluate the impact of these reforms on the agrarian structure in general and the scheduled caste in particular.
Resumo:
Magnetic Resonance Imaging (MRI) is a multi sequence medical imaging technique in which stacks of images are acquired with different tissue contrasts. Simultaneous observation and quantitative analysis of normal brain tissues and small abnormalities from these large numbers of different sequences is a great challenge in clinical applications. Multispectral MRI analysis can simplify the job considerably by combining unlimited number of available co-registered sequences in a single suite. However, poor performance of the multispectral system with conventional image classification and segmentation methods makes it inappropriate for clinical analysis. Recent works in multispectral brain MRI analysis attempted to resolve this issue by improved feature extraction approaches, such as transform based methods, fuzzy approaches, algebraic techniques and so forth. Transform based feature extraction methods like Independent Component Analysis (ICA) and its extensions have been effectively used in recent studies to improve the performance of multispectral brain MRI analysis. However, these global transforms were found to be inefficient and inconsistent in identifying less frequently occurred features like small lesions, from large amount of MR data. The present thesis focuses on the improvement in ICA based feature extraction techniques to enhance the performance of multispectral brain MRI analysis. Methods using spectral clustering and wavelet transforms are proposed to resolve the inefficiency of ICA in identifying small abnormalities, and problems due to ICA over-completeness. Effectiveness of the new methods in brain tissue classification and segmentation is confirmed by a detailed quantitative and qualitative analysis with synthetic and clinical, normal and abnormal, data. In comparison to conventional classification techniques, proposed algorithms provide better performance in classification of normal brain tissues and significant small abnormalities.
Resumo:
“At resale stores I have seen brand new clothes with original price tag still hanging from the sleeve. Some children have so many toys that they stay frustrated, not knowing which one to pick up for their next amusement. Presumably sensible adults trade in perfectly good cars just to have something shinier and newer. Didn’t us once live productive normal lives, without all these gadgets” [Cunningham (2005)]. During late eighties, nearly forty four percent of the participants, who took part in a consumer survey conducted in the US, responded positively to the question “My closets are filled with still 2 unopened items” [Faber and O’Guinn (1988)]. Reading such excerpts does not greatly surprise us anymore; as such reports have become common now. For many people shopping has moved beyond something that caters to their needs and wants and has become a hobby [Cunningham (2005)], an activity that they engage in to satisfy their hedonistic or pleasure-seeking goals [Ramnathan and Menon(2006), O’Cass and McEween (2004), Faber and O’Guinn (1989)]. Others look at their new possession as something that fills a void in their lives [Belk (1985), Diener et al. (1993)].
Resumo:
Cooperative caching in mobile ad hoc networks aims at improving the efficiency of information access by reducing access latency and bandwidth usage. Cache replacement policy plays a vital role in improving the performance of a cache in a mobile node since it has limited memory. In this paper we propose a new key based cache replacement policy called E-LRU for cooperative caching in ad hoc networks. The proposed scheme for replacement considers the time interval between the recent references, size and consistency as key factors for replacement. Simulation study shows that the proposed replacement policy can significantly improve the cache performance in terms of cache hit ratio and query delay
Resumo:
Speech signals are one of the most important means of communication among the human beings. In this paper, a comparative study of two feature extraction techniques are carried out for recognizing speaker independent spoken isolated words. First one is a hybrid approach with Linear Predictive Coding (LPC) and Artificial Neural Networks (ANN) and the second method uses a combination of Wavelet Packet Decomposition (WPD) and Artificial Neural Networks. Voice signals are sampled directly from the microphone and then they are processed using these two techniques for extracting the features. Words from Malayalam, one of the four major Dravidian languages of southern India are chosen for recognition. Training, testing and pattern recognition are performed using Artificial Neural Networks. Back propagation method is used to train the ANN. The proposed method is implemented for 50 speakers uttering 20 isolated words each. Both the methods produce good recognition accuracy. But Wavelet Packet Decomposition is found to be more suitable for recognizing speech because of its multi-resolution characteristics and efficient time frequency localizations
Effectiveness Of Feature Detection Operators On The Performance Of Iris Biometric Recognition System
Resumo:
Iris Recognition is a highly efficient biometric identification system with great possibilities for future in the security systems area.Its robustness and unobtrusiveness, as opposed tomost of the currently deployed systems, make it a good candidate to replace most of thesecurity systems around. By making use of the distinctiveness of iris patterns, iris recognition systems obtain a unique mapping for each person. Identification of this person is possible by applying appropriate matching algorithm.In this paper, Daugman’s Rubber Sheet model is employed for irisnormalization and unwrapping, descriptive statistical analysis of different feature detection operators is performed, features extracted is encoded using Haar wavelets and for classification hammingdistance as a matching algorithm is used. The system was tested on the UBIRIS database. The edge detection algorithm, Canny, is found to be the best one to extract most of the iris texture. The success rate of feature detection using canny is 81%, False Accept Rate is 9% and False Reject Rate is 10%.
Resumo:
Speech processing and consequent recognition are important areas of Digital Signal Processing since speech allows people to communicate more natu-rally and efficiently. In this work, a speech recognition system is developed for re-cognizing digits in Malayalam. For recognizing speech, features are to be ex-tracted from speech and hence feature extraction method plays an important role in speech recognition. Here, front end processing for extracting the features is per-formed using two wavelet based methods namely Discrete Wavelet Transforms (DWT) and Wavelet Packet Decomposition (WPD). Naive Bayes classifier is used for classification purpose. After classification using Naive Bayes classifier, DWT produced a recognition accuracy of 83.5% and WPD produced an accuracy of 80.7%. This paper is intended to devise a new feature extraction method which produces improvements in the recognition accuracy. So, a new method called Dis-crete Wavelet Packet Decomposition (DWPD) is introduced which utilizes the hy-brid features of both DWT and WPD. The performance of this new approach is evaluated and it produced an improved recognition accuracy of 86.2% along with Naive Bayes classifier.
Resumo:
Speech is a natural mode of communication for people and speech recognition is an intensive area of research due to its versatile applications. This paper presents a comparative study of various feature extraction methods based on wavelets for recognizing isolated spoken words. Isolated words from Malayalam, one of the four major Dravidian languages of southern India are chosen for recognition. This work includes two speech recognition methods. First one is a hybrid approach with Discrete Wavelet Transforms and Artificial Neural Networks and the second method uses a combination of Wavelet Packet Decomposition and Artificial Neural Networks. Features are extracted by using Discrete Wavelet Transforms (DWT) and Wavelet Packet Decomposition (WPD). Training, testing and pattern recognition are performed using Artificial Neural Networks (ANN). The proposed method is implemented for 50 speakers uttering 20 isolated words each. The experimental results obtained show the efficiency of these techniques in recognizing speech