6 resultados para Voz a voz

em Universidade Federal do Pará


Relevância:

40.00% 40.00%

Publicador:

Resumo:

O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

Em Capanema, no nordeste do Pará, mulheres rezadeiras, motivadas por fotografias, tecem narrativas históricas desvelando trajetórias de migrantes nordestinos para o município, elaborando representações do conflituoso cotidiano da vida urbana. Por meio de sensibilidades urdidas em simbiose de corpo, voz e imagens, as narradoras produzem práticas de leitura que permitem questionar a escrita convencional da história local, consagrada nos jogos mentais de centenas de moradores. Este artigo, portanto, seguindo a metodologia da História Oral e dialogando com intelectuais dos Estudos Culturais e Antropologia da Religião, ao cruzar a leitura de imagens oficiais com a interpretação dada pelas rezadeiras sobre tramas e dramas da urbe, numa perspectiva "vista de baixo" e popular, esgarça imaginários cristalizados, trazendo para a escrita da história outras experiências e paisagens culturais comumente postas nas dobras de retratos emoldurados pelo discurso do poder hegemônico.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

A fala é um mecanismo natural para a interação homem-máquina. A tecnologia de processamento de fala (ou voz) encontra-se bastante avançada e, em escala mundial, existe vasta disponibilidade de software, tanto comercial quanto acadêmico. a maioria assume a disponibilidade de um reconhecedor e/ou sintetizador, que pode ser programado via API. Ao contrário do que ocorre, por exemplo, na língua inglesa, inexiste atualmente uma gama variada de recursos para o português brasileiro. O presente trabalho discute alguns esforços realizados nesse sentido, avaliando a utilização da SAPI E JSAPI, que são as APIs da Microsoft e Sun, respectivamente. Serão apresentados, outrossim, exemplos de aplicativos: uma aplicação CALL (baseada em SAPI) usando síntese em inglês e português, reconhecimento em inglês e agentes visuais; e uma proposta para agregar reconhecimento e síntese de voz ao chat IRC através de APIs Java.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

No presente trabalho interpreta-se a poesia de Max Martins, focando, principalmente, a abertura que ela oferece para o acontecer do silêncio da linguagem. Pensa-se, aqui, no silêncio como uma questão que fala e se confunde com a questão da essência da linguagem e, por conseguinte, também com a da essência do poético. Sendo assim, a dissertação desdobra-se em discussões poético-filosóficas, articulando essas duas esferas criativas nas várias dimensões em que a obra martiniana manifesta o silêncio: na linguagem, no diálogo com o pensamento e a poesia orientais, no erotismo e na verbivocovisualidade. Busca-se a escuta da “voz do silêncio”, como aparece no título do trabalho. Nessa travessia, importante dizer, as reflexões implementadas pelo filósofo alemão Martin Heidegger acerca da linguagem, assim como suas ideias sobre hermenêutica poética, são de grande valia. Certamente, além de Heidegger, há outros pensadores cujos nomes ecoam pelo trabalho, mas o do alemão merece destaque, pois a compreensão da essência da linguagem como fala silenciosa encontra abrigo tanto em sua filosofia como na obra poética de Max Martins. Realizando um diálogo entre poesia e filosofia no que elas têm em comum — o pensamento de questões —, aqui não se aplicou uma teoria prévia ao acontecer da arte. Procurou-se, ao contrário, empreender ao longo desta jornada interpretativa a escuta da poética que os próprios textos martinianos põe em obra.