929 resultados para Veu, Processament de
Resumo:
Report for the scientific sojourn carried out at the Music Technology Area (Sound Processing and Control Lab), Faculty of Music, McGill University, Montreal, Canada, from October to December 2005.The aim of this research is to study the singing voice for controlling virtual musical instrument synthesis. It includes analysis and synthesis algorithms based on spectral audio processing. After digitalising the acoustic voice signal in the computer, a number of expressive descriptors of the singer are extracted. This process is achieved synchronously, thus all the nuance of the singer performance have been tracked. In a second stage, the extracted parameters are mapped to a sound synthesizer, the so-called digital musical instruments. In order achieve it, several tests with music students of the Faculty of Music, McGill University have been developed. These experiments have contributed to evaluate the system and to derive new control strategies to integrate: clarinet synthesis, bass guitar, visual representation of voice signals.
Resumo:
S’ha optimitzat un motor de veu natural per a dispositius mòbils com una PDA o un telèfon mòbil basat en un sistema operatiu Windows. La finalitat d’aquest treball és la d’ajudar a fer més fàcil la utilització d’aquests aparells a gent invident i que pugui acabar sent una donació a la ONCE.
Resumo:
Automatización de una vivienda consistente en un sistema capaz de reconocer una serie de comandos únicamente teniendo como entrada la señal acústica emitida por el usuario. Se ha optado por realizar un entorno de simulación 3D en el que se recrea una vivienda y el movimiento de un usuario. Los resultados obtenidos de la ejecución de órdenes de voz se pueden apreciar en el propio simulador, viendo en pantalla el resultado que producirían en una casa inteligente con el mismo sistema.
Resumo:
Biometric system performance can be improved by means of data fusion. Several kinds of information can be fused in order to obtain a more accurate classification (identification or verification) of an input sample. In this paper we present a method for computing the weights in a weighted sum fusion for score combinations, by means of a likelihood model. The maximum likelihood estimation is set as a linear programming problem. The scores are derived from a GMM classifier working on a different feature extractor. Our experimental results assesed the robustness of the system in front a changes on time (different sessions) and robustness in front a change of microphone. The improvements obtained were significantly better (error bars of two standard deviations) than a uniform weighted sum or a uniform weighted product or the best single classifier. The proposed method scales computationaly with the number of scores to be fussioned as the simplex method for linear programming.
Resumo:
In this paper we propose the inversion of nonlinear distortions in order to improve the recognition rates of a speaker recognizer system. We study the effect of saturations on the test signals, trying to take into account real situations where the training material has been recorded in a controlled situation but the testing signals present some mismatch with the input signal level (saturations). The experimental results for speaker recognition shows that a combination of several strategies can improve the recognition rates with saturated test sentences from 80% to 89.39%, while the results with clean speech (without saturation) is 87.76% for one microphone, and for speaker identification can reduce the minimum detection cost function with saturated test sentences from 6.42% to 4.15%, while the results with clean speech (without saturation) is 5.74% for one microphone and 7.02% for the other one.
Resumo:
This paper deals with non-linear transformations for improving the performance of an entropy-based voice activity detector (VAD). The idea to use a non-linear transformation has already been applied in the field of speech linear prediction, or linear predictive coding (LPC), based on source separation techniques, where a score function is added to classical equations in order to take into account the true distribution of the signal. We explore the possibility of estimating the entropy of frames after calculating its score function, instead of using original frames. We observe that if the signal is clean, the estimated entropy is essentially the same; if the signal is noisy, however, the frames transformed using the score function may give entropy that is different in voiced frames as compared to nonvoiced ones. Experimental evidence is given to show that this fact enables voice activity detection under high noise, where the simple entropy method fails.
Resumo:
In this paper we propose an endpoint detection system based on the use of several features extracted from each speech frame, followed by a robust classifier (i.e Adaboost and Bagging of decision trees, and a multilayer perceptron) and a finite state automata (FSA). We present results for four different classifiers. The FSA module consisted of a 4-state decision logic that filtered false alarms and false positives. We compare the use of four different classifiers in this task. The look ahead of the method that we propose was of 7 frames, which are the number of frames that maximized the accuracy of the system. The system was tested with real signals recorded inside a car, with signal to noise ratio that ranged from 6 dB to 30dB. Finally we present experimental results demonstrating that the system yields robust endpoint detection.
Resumo:
In this paper we propose the inversion of nonlinear distortions in order to improve the recognition rates of a speaker recognizer system. We study the effect of saturations on the test signals, trying to take into account real situations where the training material has been recorded in a controlled situation but the testing signals present some mismatch with the input signal level (saturations). The experimental results shows that a combination of several strategies can improve the recognition rates with saturated test sentences from 80% to 89.39%, while the results with clean speech (without saturation) is 87.76% for one microphone.
Resumo:
tThis paper deals with the potential and limitations of using voice and speech processing to detect Obstruc-tive Sleep Apnea (OSA). An extensive body of voice features has been extracted from patients whopresent various degrees of OSA as well as healthy controls. We analyse the utility of a reduced set offeatures for detecting OSA. We apply various feature selection and reduction schemes (statistical rank-ing, Genetic Algorithms, PCA, LDA) and compare various classifiers (Bayesian Classifiers, kNN, SupportVector Machines, neural networks, Adaboost). S-fold crossvalidation performed on 248 subjects showsthat in the extreme cases (that is, 127 controls and 121 patients with severe OSA) voice alone is able todiscriminate quite well between the presence and absence of OSA. However, this is not the case withmild OSA and healthy snoring patients where voice seems to play a secondary role. We found that thebest classification schemes are achieved using a Genetic Algorithm for feature selection/reduction.
Resumo:
La interacció home-màquina per mitjà de la veu cobreix moltes àrees d’investigació. Es destaquen entre altres, el reconeixement de la parla, la síntesis i identificació de discurs, la verificació i identificació de locutor i l’activació per veu (ordres) de sistemes robòtics. Reconèixer la parla és natural i simple per a les persones, però és un treball complex per a les màquines, pel qual existeixen diverses metodologies i tècniques, entre elles les Xarxes Neuronals. L’objectiu d’aquest treball és desenvolupar una eina en Matlab per al reconeixement i identificació de paraules pronunciades per un locutor, entre un conjunt de paraules possibles, i amb una bona fiabilitat dins d’uns marges preestablerts. El sistema és independent del locutor que pronuncia la paraula, és a dir, aquest locutor no haurà intervingut en el procés d’entrenament del sistema. S’ha dissenyat una interfície que permet l’adquisició del senyal de veu i el seu processament mitjançant xarxes neuronals i altres tècniques. Adaptant una part de control al sistema, es podria utilitzar per donar ordres a un robot com l’Alfa6Uvic o qualsevol altre dispositiu.
Resumo:
La interacció home-màquina per mitjà de la veu cobreix moltes àrees d’investigació. Es destaquen entre altres, el reconeixement de la parla, la síntesis i identificació de discurs, la verificació i identificació de locutor i l’activació per veu (ordres) de sistemes robòtics. Reconèixer la parla és natural i simple per a les persones, però és un treball complex per a les màquines, pel qual existeixen diverses metodologies i tècniques, entre elles les Xarxes Neuronals. L’objectiu d’aquest treball és desenvolupar una eina en Matlab per al reconeixement i identificació de paraules pronunciades per un locutor, entre un conjunt de paraules possibles, i amb una bona fiabilitat dins d’uns marges preestablerts. El sistema és independent del locutor que pronuncia la paraula, és a dir, aquest locutor no haurà intervingut en el procés d’entrenament del sistema. S’ha dissenyat una interfície que permet l’adquisició del senyal de veu i el seu processament mitjançant xarxes neuronals i altres tècniques. Adaptant una part de control al sistema, es podria utilitzar per donar ordres a un robot com l’Alfa6Uvic o qualsevol altre dispositiu.
Resumo:
L’objectiu d’aquest treball de recerca és indagar sobre l’existència d’una possible relació entre la reactivitat a l’estrès i els problemes de veu en el col•lectiu docent. S’ha utilitzat una mostra de 447 persones, entre estudiants de magisteri i docents, donat que són una població que presenten un elevat índex de patologia vocal, així com d’estrès. Per recollir la informació necessària s’utilitza el qüestionari VHI-10 (Voice Handicap Index) i el test IRE-32 (Índice de Reactividad al Estrés). En els resultats obtinguts es troben indicis que ens permeten afirmar que les persones amb problemes de veu tenen una major reactivitat a l’estrès, i dins d’aquesta reactivitat, s’observen també respostes que són més representatives del grup de persones disfòniques, la majoria de les quals estan vinculades, directa o indirectament, a aspectes relacionats amb la emissió vocal.
Resumo:
La majoria de sistemes biològics són complexes, formats per diverses parts connectades mitjançant vincles que contenen informació addicional i oculta a l’observador. Actualment, les aplicacions clíniques enregistren molts i diversos senyals les interaccions dels quals poden ésser estudiades mitjançant diferents tècniques: mètodes clàssics, generalment lineals, com ara la correlació i la coherència espectral; i mètodes no lineals que han estat definits i desenvolupats l’última dècada, com la predicció no lineal, la informació mútua i les entropies. Aquest projecte proposava l’obtenció d’eines pera l’anàlisi de: a) la coordinació dels músculs respiratoris en individus sans i pacients amb patologies respiratòries sotmesos a protocols d’esforç ventilatori, ja que es desconeix com es relacionen les activitats del diafragma i dels músculs accessoris de les vies aèries superiors; b)l’efecte de fàrmacs sobre la connectivitat funcional del cervell, ja que les eines i mètodes estàndard sovint no permeten extreure prou informació. Els resultats aconseguits han permès avaluar l’activitat muscular respiratòria mitjançant la funció d’informació mútua creuada (FIMC), demostrant que existeix un acoblament no lineal entre les activitats de diferents músculs. Aquesta coordinació muscular es veu afectada per una malaltia respiratòria com la Síndrome d’Apnea Obstructiva de la Son (SAOS), i s’han trobat diferències estadísticament significatives entre els pacients amb SAOS i els individus sans, especialment a nivells mitjans i alts d’esforç respiratori.
Resumo:
El poeta Agustí Bartra va publicar la novel•la Xabola (Mèxic, 1943), la qual narra l'estada de quatre comapnys al camp de concentració francès d'Argelers. El 1958 un editor li'n demanà una traducció castellana, però Bartra optà per reescriure de dalt a baix la narració i en resultà la novel•la Cristo de 200.000 brazos, que es publicà en català el 1968 i, en una edicó definitiva, el 1974. El procés de revisió i de redacció (supressió de fragments, incoporació de textos, altereació de capítols, revisions estilístiques) que Bartra aplica al text són notables i permeten analitzar l'evolució literària de l'autor.
Resumo:
Hoy en día los sistemas ERP's son muy importantes para el aumento de la productividad, control y eficacia de las empresas. Con este estudio se ve la importancia de estos sistemas y cómo cubren las necesidades de una empresa textil que hemos analizado. Para lograrlo, en este estudio se ve la importancia de los sistemas ERP's y su historia, para una mejor compresión; se exponen las características de la empresa, para una visión clara de su funcionamiento y se observa con más detalle los diferentes sistemas ERP's elegidos, sectoriales o no, para elegir cual de ellos es el que mejor se adaptaría a la empresa según unos criterios fijados.