10 resultados para acoustic speech recognition system
em Universidade Federal do Pará
Resumo:
Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão.
Resumo:
Este trabalho visa propor uma solução contendo um sistema de reconhecimento de fala automático em nuvem. Dessa forma, não há necessidade de um reconhecedor sendo executado na própria máquina cliente, pois o mesmo estará disponível através da Internet. Além do reconhecimento automático de voz em nuvem, outra vertente deste trabalho é alta disponibilidade. A importância desse tópico se d´a porque o ambiente servidor onde se planeja executar o reconhecimento em nuvem não pode ficar indisponível ao usuário. Dos vários aspectos que requerem robustez, tal como a própria conexão de Internet, o escopo desse trabalho foi definido como os softwares livres que permitem a empresas aumentarem a disponibilidade de seus serviços. Dentre os resultados alcançados e para as condições simuladas, mostrou-se que o reconhecedor de voz em nuvem desenvolvido pelo grupo atingiu um desempenho próximo ao do Google.
Resumo:
Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial.
Resumo:
O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina.
Resumo:
Para compor um sistema de Reconhecimento Automático de Voz, pode ser utilizada uma tarefa chamada Classificação Fonética, onde a partir de uma amostra de voz decide-se qual fonema foi emitido por um interlocutor. Para facilitar a classificação e realçar as características mais marcantes dos fonemas, normalmente, as amostras de voz são pré- processadas através de um fronl-en'L Um fron:-end, geralmente, extrai um conjunto de parâmetros para cada amostra de voz. Após este processamento, estes parâmetros são insendos em um algoritmo classificador que (já devidamente treinado) procurará decidir qual o fonema emitido. Existe uma tendência de que quanto maior a quantidade de parâmetros utilizados no sistema, melhor será a taxa de acertos na classificação. A contrapartida para esta tendência é o maior custo computacional envolvido. A técnica de Seleção de Parâmetros tem como função mostrar quais os parâmetros mais relevantes (ou mais utilizados) em uma tarefa de classificação, possibilitando, assim, descobrir quais os parâmetros redundantes, que trazem pouca (ou nenhuma) contribuição à tarefa de classificação. A proposta deste trabalho é aplicar o classificador SVM à classificação fonética, utilizando a base de dados TIMIT, e descobrir os parâmetros mais relevantes na classificação, aplicando a técnica Boosting de Seleção de Parâmetros.
Resumo:
O reconhecimento automático de voz vem sendo cada vez mais útil e possível. Quando se trata de línguas como a Inglesa, encontram-se no mercado excelentes reconhecedores. Porem, a situação não e a mesma para o Português Brasileiro, onde os principais reconhecedores para ditado em sistemas desktop que já existiram foram descontinuados. A presente dissertação alinha-se com os objetivos do Laboratório de Processamento de Sinais da Universidade Federal do Pará, que é o desenvolvimento de um reconhecedor automático de voz para Português Brasileiro. Mais especificamente, as principais contribuições dessa dissertação são: o desenvolvimento de alguns recursos necessários para a construção de um reconhecedor, tais como: bases de áudio transcrito e API para desenvolvimento de aplicações; e o desenvolvimento de duas aplicações: uma para ditado em sistema desktop e outra para atendimento automático em um call center. O Coruja, sistema desenvolvido no LaPS para reconhecimento de voz em Português Brasileiro. Este alem de conter todos os recursos para fornecer reconhecimento de voz em Português Brasileiro possui uma API para desenvolvimento de aplicativos. O aplicativo desenvolvido para ditado e edição de textos em desktop e o SpeechOO, este possibilita o ditado para a ferramenta Writer do pacote LibreOffice, alem de permitir a edição e formatação de texto com comandos de voz. Outra contribuição deste trabalho e a utilização de reconhecimento automático de voz em call centers, o Coruja foi integrado ao software Asterisk e a principal aplicação desenvolvida foi uma unidade de resposta audível com reconhecimento de voz para o atendimento de um call center nacional que atende mais de 3 mil ligações diárias.
Resumo:
A comunicação acústica em beija-flores durante muito tempo foi negligenciada em função da coloração conspícua que representa uma sofisticada comunicação visual da maioria dos representantes deste grupo. Entretanto, estudos recentes constataram que há indícios de aprendizagem vocal em algumas espécies de Trochilidae. O presente estudo aborda o comportamento vocal do beija-flor Phaethornis superciliosus, espécie abundante na região amazônica. Esta espécie apresenta como sistema de acasalamento a formação em arena, que consiste na agregação de machos em um pequeno território, onde se exibem para outros machos e fêmeas, com o intuito de atrair estas últimas para acasalar. O objetivo geral deste trabalho foi analisar o comportamento vocal de P. superciliosus dispostos em seis arenas no Parque Ecológico de Gunma, Santa Bárbara do Pará, 50 km ao norte de Belém, considerando a emissão e estrutura física do canto, seu repertório, a frequência de emissão ao longo do dia e do ano e a dinâmica das arenas. Verificamos que a população estudada apresenta um repertório vocal composto de duas notas que são emitidas de maneira alternada. Os cantos dos indivíduos analisados apresentaram diferenças significativas entre si considerando os parâmetros físicos do som (frequências máxima e mínima, duração e intervalo entre as notas e o ritmo de emissão das notas). Esta diferenciação inter-individual pode estar relacionada à seleção sexual, na qual o canto pode permitir o reconhecimento individual, sua posição social e seu desempenho para a atração das fêmeas. Constatamos que a atividade vocal é mais intensa no segundo semestre, entre junho e novembro, período que provavelmente corresponde à estação reprodutiva. Realizamos testes de playback, que consistem em reproduzir um som previamente gravado e registrar a resposta provocada em uma das arenas em dois pontos distintos, simulando a entrada de outro indivíduo. Constatamos que o som emitido em resposta ao teste diferiu significativamente do canto espontâneo em todos os parâmetros físicos analisados. A resposta ao playback mostra que houve uma redução na faixa de frequência com que o canto foi emitido e o ritmo de emissão de notas mais rápido. Tais características do canto podem estarrelacionadas a um comportamento mais agressivo. As arenas são formadas emáreas de borda e sempre próximas a igarapés, com o tamanho da área variando entre 86m2 e 14m2, compostas de dois a quatro indivíduos distantes de 7m a 72m entre si. Nossos resultados mostraram que a organização social da arena deve ser melhor compreendida através de estudos mais detalhados sobre o possível significado que as diferenças individuais no canto podem representar para o estabelecimento da posição hierárquica dos indivíduos nas arenas.
Resumo:
A presente pesquisa tem como tema o estudo perceptual da prosódia como elemento de segmentação de narrativas orais espontâneas e visa confirmar, ou não, se a prosódia facilita ao ouvinte leigo e inexperiente perceber a estrutura do texto narrativo. Este estudo investiga se a diferença de tom é um elemento prosódico relevante. A dissertação tem como corpus quatro narrativas espontâneas, as quais fazem parte do corpus analisado por Oliveira Jr.(2000), autor do projeto que inspirou esta pesquisa. Para saber se os participantes são capazes de delimitar a estrutura narrativa, baseando-se apenas no aspecto perceptual, conduziu-se um teste de percepção com 112 voluntários, recrutados na Universidade Federal do Pará e na Universidade Federal de Alagoas. Coube aos participantes a tarefa de indicar os pontos em que o falante teve a intenção de finalizar uma unidade comunicativa nas narrativas. A interpretação sobre unidade comunicativa foi subjetiva. Apresentou-se cada narrativa em quatro condições diferentes, a saber: (i) transcrição sem marca de pontuação e sem paragrafação; (ii) transcrição da narrativa acompanhada de áudio ; (iii) narrativa somente em áudio e (iv) áudio filtrado da narrativa, resultando numa versão deslexicalizada (fala ininteligível), mas com preservação da estrutura prosódica do discurso. Nas duas primeiras condições, a segmentação foi no texto transcrito, com barras transversais (/); nas demais, utilizou-se um programa de computador chamado ELAN. A análise dos dados obtidos baseou-se em tabelas, gráficos, análise estatística (teste do Qui-Quadrado), análise acústica (utilização do Programa PRAAT). Os resultados sinalizam que a prosódia ajuda o ouvinte leigo a perceber a estrutura básica do discurso narrativo. Com relação ao peso do Pitch Reset para auxiliar os ouvintes na demarcação de fronteiras, pode-se dizer que o teste estatístico do Qui-Quadrado encontrou evidências que lhe atribui essa função. Assim, neste contexto, ratifica-se o relevante papel da prosódia para o reconhecimento da estrutura de narrativas orais espontâneas e identifica-se o reflexo do peso da diferença de tom na percepção dos participantes.
Resumo:
O Pula-pula-assobiador Basileuterus leucoblepharus, um pássaro comum da Mata Atlântica, emite um único e distintivo tipo de canto para defesa territorial. O reconhecimento individual ou entre vizinho e estranho pode ser mais difícil quando as aves compartilham cantos semelhantes. De fato, a análise dos cantos de diferentes indivíduos revelou ligeiras diferenças nos domínios temporal e das freqüências. Efetivamente, um exame cuidadoso dos sinais de 21 indivíduos diferentes por 5 métodos complementares de análise revelou que, primeiro, um ou dois espaços na série tonal ocorrem entre duas notas sucessivas em determinados momentos do canto e, segundo, ocupam posições em tempo e freqüência estereotipadas para cada indivíduo. Experiências de "play-back" confirmam esses dados. Através de experiências de propagação, mostramos que esta informação individual pode ser transmitida somente a curta distância ( < 100 m) na mata. Considerando o tamanho e a repartição dos territórios, este processo de comunicação mostra-se eficiente e bem adaptado.
Resumo:
O presente estudo visa caracterizar acusticamente o português falado na Amazônia Paraense, tendo como foco as vogais médias pretônicas da variedade linguística falada no município de Barcarena/PA. Esta pesquisa é vinculada ao projeto Norte Vogais, integrante do PROBRAVO, que tem como um de seus objetivos analisar acusticamente o sistema vocálico átono do Português Brasileiro (PB) falado no estado do Pará. O corpus total é composto por amostras de fala de 18 (dezoito) informantes nativos de Barcarena/PA, estratificados socialmente em sexo (masculino e feminino), faixa etária (15 a 25 anos; 26 a 45 anos e acima de 45 anos) e nível de escolaridade (fundamental, médio e superior). Ao todo, 818 realizações das vogais médias pretônicas orais foram analisadas, sendo 411 anteriores e 407 posteriores. Os dados foram obtidos a partir da leitura de um texto sobre futebol, por meio do qual os informantes selecionados produziram 53 vocábulos contendo as vogais médias em posição pretônica. No tratamento dos dados, foram tomadas medidas de F1 e F2 (Hz) das vogais alvo. Constatou-se, a partir da análise empreendida, que os falantes da variedade estudada dão preferência à manutenção das vogais médias, resultado que corrobora com a hipótese apresentada nos estudos variacionistas realizados pela equipe do projeto Norte Vogais. Além disso, verificou-se que, na fala feminina, em relação às anteriores, a variante alta ocupa quase o mesmo espaço acústico da variante média fechada e as duas mantém uma grande distância da variante média aberta. No caso das posteriores, as mesmas ocupam espaços acústicos bem diferenciados. Em contrapartida, na fala masculina, as variantes anteriores estão bem discriminadas e a variante alta e a média fechada posteriores estão muito próximas, distanciando-se significativamente na variante média aberta posterior. Uma tendência à centralização das vogais também foi observada.