Reconhecimento de voz através de unidades menores do que a palavra, utilizando Wavelet Packet e SVM, em uma nova estrutura hierárquica de decisão


Autoria(s): Bresolin, Adriano de Andrade
Contribuinte(s)

Dória Neto, Adrião Duarte

CPF:66195136972

http://lattes.cnpq.br/8862209760730631

CPF:10749896434

http://lattes.cnpq.br/1987295209521433

Alsina, Pablo Javier

CPF:42487455420

http://lattes.cnpq.br/3653597363789712

Seixas, José Manoel de

CPF:36078107704

http://lattes.cnpq.br/1404632471755241

Fechine, Joseana Macêdo

CPF:71349324434

http://lattes.cnpq.br/7179691582151907

Data(s)

17/12/2014

20/02/2009

17/12/2014

02/12/2008

Resumo

The automatic speech recognition by machine has been the target of researchers in the past five decades. In this period have been numerous advances, such as in the field of recognition of isolated words (commands), which has very high rates of recognition, currently. However, we are still far from developing a system that could have a performance similar to the human being (automatic continuous speech recognition). One of the great challenges of searches for continuous speech recognition is the large amount of pattern. The modern languages such as English, French, Spanish and Portuguese have approximately 500,000 words or patterns to be identified. The purpose of this study is to use smaller units than the word such as phonemes, syllables and difones units as the basis for the speech recognition, aiming to recognize any words without necessarily using them. The main goal is to reduce the restriction imposed by the excessive amount of patterns. In order to validate this proposal, the system was tested in the isolated word recognition in dependent-case. The phonemes characteristics of the Brazil s Portuguese language were used to developed the hierarchy decision system. These decisions are made through the use of neural networks SVM (Support Vector Machines). The main speech features used were obtained from the Wavelet Packet Transform. The descriptors MFCC (Mel-Frequency Cepstral Coefficient) are also used in this work. It was concluded that the method proposed in this work, showed good results in the steps of recognition of vowels, consonants (syllables) and words when compared with other existing methods in literature

O reconhecimento automático da voz por máquinas inteligentes tem sido a meta de muitos pesquisadores nas últimas cinco décadas. Neste período, inúmeros avanços foram alcançados, como por exemplo no campo de reconhecimento de palavras isoladas (comandos), o qual atualmente apresenta taxas de reconhecimento muito altas. No entanto, ainda se está longe de desenvolver um sistema que possa ter um desempenho parecido com o ser humano, ou seja, reconhecimento automático de voz em modo contínuo. Um dos grandes desafios das pesquisas de reconhecimento de voz contínuo é a grande quantidade de padrões existentes, pois as linguagens modernas tais como: Inglês, Francês, Espanhol e Português possuem aproximadamente 500.000 palavras ou padrões a serem identificados. A proposta deste trabalho é utilizar unidades menores do que a palavra tais como: fonemas, difones e sílabas como unidades base para o reconhecimento da voz, visando o reconhecimento quaisquer palavras sem necessariamente utilizá-las. O objetivo principal deste trabalho é reduzir a restrição imposta pela quantidade excessiva de padrões existentes, ou seja, a quantidade excessiva de palavras. Com o objetivo de validar esta proposta, o sistema foi desenvolvido e testado para o reconhecimento de palavras isoladas no modo dependente do locutor. O sistema apresentado neste trabalho foi desenvolvido com uma lógica de reconhecimento hierárquica baseada nas características de produção dos fonemas da língua Portuguesa do Brasil. Estas decisões são feitas através da utilização de redes neurais do tipo Máquinas de Vetor de Suporte agrupadas na forma de Máquinas de Cômite. Os principais descritores do sinal de voz utilizados, foram obtidos através da Transformada Wavelet Packet. Os descritores MFCC (Mel-Frequency Cepstral Coefficient) também são utilizados neste trabalho. Pode-se concluir que o método proposto apresentou bons resultados nas etapas de reconhecimento de vogais, consoantes (sílabas) e palavras se comparado com outros métodos existentes na literatura

Formato

application/pdf

Identificador

BRESOLIN, Adriano de Andrade. Reconhecimento de voz através de unidades menores do que a palavra, utilizando Wavelet Packet e SVM, em uma nova estrutura hierárquica de decisão. 2008. 100 f. Tese (Doutorado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2008.

http://repositorio.ufrn.br:8080/jspui/handle/123456789/15124

Idioma(s)

por

Publicador

Universidade Federal do Rio Grande do Norte

BR

UFRN

Programa de Pós-Graduação em Engenharia Elétrica

Automação e Sistemas; Engenharia de Computação; Telecomunicações

Direitos

Acesso Aberto

Palavras-Chave #Reconhecimento de Voz #Wavelet Packet e Máquinas de Vetor de Suporte #Speech Recognition #Wavelet Packet and Support Vector Machine #CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Tipo

Tese