995 resultados para Processamento de voz
Resumo:
Este trabalho foi realizado dentro da área de reconhecimento automático de voz (RAV). Atualmente, a maioria dos sistemas de RAV é baseada nos modelos ocultos de Markov (HMMs) [GOM 99] [GOM 99b], quer utilizando-os exclusivamente, quer utilizando-os em conjunto com outras técnicas e constituindo sistemas híbridos. A abordagem estatística dos HMMs tem mostrado ser uma das mais poderosas ferramentas disponíveis para a modelagem acústica e temporal do sinal de voz. A melhora da taxa de reconhecimento exige algoritmos mais complexos [RAV 96]. O aumento do tamanho do vocabulário ou do número de locutores exige um processamento computacional adicional. Certas aplicações, como a verificação de locutor ou o reconhecimento de diálogo podem exigir processamento em tempo real [DOD 85] [MAM 96]. Outras aplicações tais como brinquedos ou máquinas portáveis ainda podem agregar o requisito de portabilidade, e de baixo consumo, além de um sistema fisicamente compacto. Tais necessidades exigem uma solução em hardware. O presente trabalho propõe a implementação de um sistema de RAV utilizando hardware baseado em FPGAs (Field Programmable Gate Arrays) e otimizando os algoritmos que se utilizam no RAV. Foi feito um estudo dos sistemas de RAV e das técnicas que a maioria dos sistemas utiliza em cada etapa que os conforma. Deu-se especial ênfase aos Modelos Ocultos de Markov, seus algoritmos de cálculo de probabilidades, de treinamento e de decodificação de estados, e sua aplicação nos sistemas de RAV. Foi realizado um estudo comparativo dos sistemas em hardware, produzidos por outros centros de pesquisa, identificando algumas das suas características mais relevantes. Foi implementado um modelo de software, descrito neste trabalho, utilizado para validar os algoritmos de RAV e auxiliar na especificação em hardware. Um conjunto de funções digitais implementadas em FPGA, necessárias para o desenvolvimento de sistemas de RAV é descrito. Foram realizadas algumas modificações nos algoritmos de RAV para facilitar a implementação digital dos mesmos. A conexão, entre as funções digitais projetadas, para a implementação de um sistema de reconhecimento de palavras isoladas é aqui apresentado. A implementação em FPGA da etapa de pré-processamento, que inclui a pré-ênfase, janelamento e extração de características, e a implementação da etapa de reconhecimento são apresentadas finalmente neste trabalho.
Resumo:
O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina.
Resumo:
Este trabalho apresenta o aplicativo DialogBuilder, uma ferramenta de código aberto escrita em Java que disponibiliza ao usuário uma interface para projeto de sistemas de diálogos e exportação destes para implantação no software Asterisk, o mais popular framework VoIP. O DialogBuilder disponibiliza um wizard para que o usuário leigo possa projetar seu sistema sem precisar aprender a programar para Asterisk. O software separa a fase de concepção do diálogo de sua codificação e se posiciona para tornar técnica e economicamente viável, mesmo para pequenas empresas, construir e manter sistemas de diálogo para aplicações telefônicas.
Resumo:
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2015.
Resumo:
Neste trabalho contemplamos o emprego de detectores de voz como uma etapa de pré- processamento de uma técnica de separação cega de sinais implementada no domínio do tempo, que emprega estatísticas de segunda ordem para a separação de misturas convolutivas e determinadas. Seu algoritmo foi adaptado para realizar a separação tanto em banda cheia quanto em sub-bandas, considerando a presença e a ausência de instantes de silêncio em misturas de sinais de voz. A ideia principal consiste em detectar trechos das misturas que contenham atividade de voz, evitando que o algoritmo de separação seja acionado na ausência de voz, promovendo ganho de desempenho e redução do custo computacional.
Resumo:
Este trabalho relata o desenvolvimento de uma aplicação capaz de reconhecer um vocabulário restrito de comandos de direcionamento pronunciados de forma isolada e independentes do locutor. Os métodos utilizados para efetivar o reconhecimento foram: técnicas clássicas de processamento de sinais e redes neurais artificiais. No processamento de sinais visou-se o pré-processamento das amostras para obtenção dos coeficientes cepstrais. Enquanto que para o treinamento e classificação foram utilizadas duas redes neurais distintas, as redes: Backpropagation e Fuzzy ARTMAP. Diversas amostras foram coletadas de diferentes usuários no sentido de compor um banco de dados flexível para o aprendizado das redes neurais, que garantisse uma representação satisfatória da grande variabilidade que apresentam as pronúncias entre as vozes dos usuários. Com a aplicação de tais técnicas, o reconhecimento demostrou-se eficaz, distinguindo cada um dos comandos com bons índices de acerto, uma vez que o sistema é independente do locutor.
Resumo:
Pós-graduação em Engenharia Elétrica - FEIS
Resumo:
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
Resumo:
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Resumo:
Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial.
Resumo:
A fala é um mecanismo natural para a interação homem-máquina. A tecnologia de processamento de fala (ou voz) encontra-se bastante avançada e, em escala mundial, existe vasta disponibilidade de software, tanto comercial quanto acadêmico. a maioria assume a disponibilidade de um reconhecedor e/ou sintetizador, que pode ser programado via API. Ao contrário do que ocorre, por exemplo, na língua inglesa, inexiste atualmente uma gama variada de recursos para o português brasileiro. O presente trabalho discute alguns esforços realizados nesse sentido, avaliando a utilização da SAPI E JSAPI, que são as APIs da Microsoft e Sun, respectivamente. Serão apresentados, outrossim, exemplos de aplicativos: uma aplicação CALL (baseada em SAPI) usando síntese em inglês e português, reconhecimento em inglês e agentes visuais; e uma proposta para agregar reconhecimento e síntese de voz ao chat IRC através de APIs Java.
Resumo:
Pós-graduação em Engenharia Elétrica - FEIS
Resumo:
In many movies of scientific fiction, machines were capable of speaking with humans. However mankind is still far away of getting those types of machines, like the famous character C3PO of Star Wars. During the last six decades the automatic speech recognition systems have been the target of many studies. Throughout these years many technics were developed to be used in applications of both software and hardware. There are many types of automatic speech recognition system, among which the one used in this work were the isolated word and independent of the speaker system, using Hidden Markov Models as the recognition system. The goals of this work is to project and synthesize the first two steps of the speech recognition system, the steps are: the speech signal acquisition and the pre-processing of the signal. Both steps were developed in a reprogrammable component named FPGA, using the VHDL hardware description language, owing to the high performance of this component and the flexibility of the language. In this work it is presented all the theory of digital signal processing, as Fast Fourier Transforms and digital filters and also all the theory of speech recognition using Hidden Markov Models and LPC processor. It is also presented all the results obtained for each one of the blocks synthesized e verified in hardware
Resumo:
O objetivo deste trabalho foi descrever os aspectos fonoaudiológicos de processamento auditivo, leitura e escrita de um paciente do gênero masculino com diagnóstico de síndrome de Silver-Russell. Aos dois meses de idade o paciente apresentava déficit pôndero-estatural; frontal amplo; orelhas pequenas, proeminentes e com baixa implantação; palato ogival; discreta micrognatia; esclera azulada; manchas café-com-leite; sobreposição do primeiro e segundo artelhos à direita; refluxo gastroesofágico; voz e choro agudos; atraso leve no desenvolvimento neuropsicomotor; e dificuldade de ganhar peso, recebendo o diagnóstico da síndrome. Na avaliação psicológica, realizada aos 8 anos de idade, o paciente apresentou nível intelectual normal, com dificuldades cognitivas envolvendo atenção sustentada, concentração, memória verbal imediata e processos emocionais e comportamentais. Para avaliação da leitura e escrita e de seus processos subjacentes, realizada aos 9 anos de idade foram utilizados os testes de Compreensão Leitora de Textos Expositivos, Perfil das Habilidades Fonológicas, Teste de Discriminação Auditiva, escrita espontânea, Teste de Desempenho Escolar (TDE), teste de Nomeação Automática Rápida e prova de memória de trabalho fonológica. Apresentou dificuldades em todos os testes, estando as pontuações abaixo do esperado para sua idade. Na avaliação do processamento auditivo foram realizados testes monóticos, dióticos e dicóticos. Foram encontradas alterações nas habilidades de atenção auditiva sustentada e seletiva, memória sequencial para sons verbais e não-verbais, e resolução temporal. Conclui-se que o paciente apresenta alterações na aprendizagem da leitura e escrita que podem ser secundários a síndrome de Silver-Russell, porém tais dificuldades também podem ser decorrentes das alterações em habilidades do processamento auditivo.