Biblioteca Digital

Reconhecimento de voz através de unidades menores do que a palavra, utilizando Wavelet Packet e SVM, em uma nova estrutura hierárquica de decisão

**Autoria(s):** Bresolin, Adriano de Andrade
Contribuinte(s)	Dória Neto, Adrião Duarte CPF:66195136972 http://lattes.cnpq.br/8862209760730631 CPF:10749896434 http://lattes.cnpq.br/1987295209521433 Alsina, Pablo Javier CPF:42487455420 http://lattes.cnpq.br/3653597363789712 Seixas, José Manoel de CPF:36078107704 http://lattes.cnpq.br/1404632471755241 Fechine, Joseana Macêdo CPF:71349324434 http://lattes.cnpq.br/7179691582151907
Data(s)	17/12/2014 20/02/2009 17/12/2014 02/12/2008
Resumo	The automatic speech recognition by machine has been the target of researchers in the past five decades. In this period have been numerous advances, such as in the field of recognition of isolated words (commands), which has very high rates of recognition, currently. However, we are still far from developing a system that could have a performance similar to the human being (automatic continuous speech recognition). One of the great challenges of searches for continuous speech recognition is the large amount of pattern. The modern languages such as English, French, Spanish and Portuguese have approximately 500,000 words or patterns to be identified. The purpose of this study is to use smaller units than the word such as phonemes, syllables and difones units as the basis for the speech recognition, aiming to recognize any words without necessarily using them. The main goal is to reduce the restriction imposed by the excessive amount of patterns. In order to validate this proposal, the system was tested in the isolated word recognition in dependent-case. The phonemes characteristics of the Brazil s Portuguese language were used to developed the hierarchy decision system. These decisions are made through the use of neural networks SVM (Support Vector Machines). The main speech features used were obtained from the Wavelet Packet Transform. The descriptors MFCC (Mel-Frequency Cepstral Coefficient) are also used in this work. It was concluded that the method proposed in this work, showed good results in the steps of recognition of vowels, consonants (syllables) and words when compared with other existing methods in literature O reconhecimento automático da voz por máquinas inteligentes tem sido a meta de muitos pesquisadores nas últimas cinco décadas. Neste período, inúmeros avanços foram alcançados, como por exemplo no campo de reconhecimento de palavras isoladas (comandos), o qual atualmente apresenta taxas de reconhecimento muito altas. No entanto, ainda se está longe de desenvolver um sistema que possa ter um desempenho parecido com o ser humano, ou seja, reconhecimento automático de voz em modo contínuo. Um dos grandes desafios das pesquisas de reconhecimento de voz contínuo é a grande quantidade de padrões existentes, pois as linguagens modernas tais como: Inglês, Francês, Espanhol e Português possuem aproximadamente 500.000 palavras ou padrões a serem identificados. A proposta deste trabalho é utilizar unidades menores do que a palavra tais como: fonemas, difones e sílabas como unidades base para o reconhecimento da voz, visando o reconhecimento quaisquer palavras sem necessariamente utilizá-las. O objetivo principal deste trabalho é reduzir a restrição imposta pela quantidade excessiva de padrões existentes, ou seja, a quantidade excessiva de palavras. Com o objetivo de validar esta proposta, o sistema foi desenvolvido e testado para o reconhecimento de palavras isoladas no modo dependente do locutor. O sistema apresentado neste trabalho foi desenvolvido com uma lógica de reconhecimento hierárquica baseada nas características de produção dos fonemas da língua Portuguesa do Brasil. Estas decisões são feitas através da utilização de redes neurais do tipo Máquinas de Vetor de Suporte agrupadas na forma de Máquinas de Cômite. Os principais descritores do sinal de voz utilizados, foram obtidos através da Transformada Wavelet Packet. Os descritores MFCC (Mel-Frequency Cepstral Coefficient) também são utilizados neste trabalho. Pode-se concluir que o método proposto apresentou bons resultados nas etapas de reconhecimento de vogais, consoantes (sílabas) e palavras se comparado com outros métodos existentes na literatura
Formato	application/pdf
Identificador	BRESOLIN, Adriano de Andrade. Reconhecimento de voz através de unidades menores do que a palavra, utilizando Wavelet Packet e SVM, em uma nova estrutura hierárquica de decisão. 2008. 100 f. Tese (Doutorado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2008. http://repositorio.ufrn.br:8080/jspui/handle/123456789/15124
Idioma(s)	por
Publicador	Universidade Federal do Rio Grande do Norte BR UFRN Programa de Pós-Graduação em Engenharia Elétrica Automação e Sistemas; Engenharia de Computação; Telecomunicações
Direitos	Acesso Aberto
Palavras-Chave	#Reconhecimento de Voz #Wavelet Packet e Máquinas de Vetor de Suporte #Speech Recognition #Wavelet Packet and Support Vector Machine #CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Tipo	Tese

Acesso ao item digital