967 resultados para Speaker Recognition, Text-constrained, Multilingual, Speaker Verification, HMMs
Resumo:
A speaker at a commencement at the New York Trade School. Other administrators can be seen on the dais behind the speaker. Photograph is black and white.
Resumo:
An experiment that combines opto-mechanical and electrical measurements for the characterization of a loudspeaker is presented. We describe a very simple laser vibrometer for evaluating the amplitude of the vibration (displacement) of the speaker cone. The setup is essentially a Michelson-type interferometer operated by an inexpensive semiconductor laser (diode laser). It is shown that the simultaneous measurements of three amplitudes (displacement, electrical current, and applied voltage), as functions of the frequency of vibration, allow us to characterize the speaker system. The experiment is easy to perform, and it demonstrates several useful concepts of optics, mechanics, and electricity, allowing, students to gain an intuitive physical insight into the relations between mathematical models and, an actual speaker system. (C) 2003 American Association of Physics Teachers.
Resumo:
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
Resumo:
Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial.
Resumo:
A presente pesquisa tem como tema o estudo perceptual da prosódia como elemento de segmentação de narrativas orais espontâneas e visa confirmar, ou não, se a prosódia facilita ao ouvinte leigo e inexperiente perceber a estrutura do texto narrativo. Este estudo investiga se a diferença de tom é um elemento prosódico relevante. A dissertação tem como corpus quatro narrativas espontâneas, as quais fazem parte do corpus analisado por Oliveira Jr.(2000), autor do projeto que inspirou esta pesquisa. Para saber se os participantes são capazes de delimitar a estrutura narrativa, baseando-se apenas no aspecto perceptual, conduziu-se um teste de percepção com 112 voluntários, recrutados na Universidade Federal do Pará e na Universidade Federal de Alagoas. Coube aos participantes a tarefa de indicar os pontos em que o falante teve a intenção de finalizar uma unidade comunicativa nas narrativas. A interpretação sobre unidade comunicativa foi subjetiva. Apresentou-se cada narrativa em quatro condições diferentes, a saber: (i) transcrição sem marca de pontuação e sem paragrafação; (ii) transcrição da narrativa acompanhada de áudio ; (iii) narrativa somente em áudio e (iv) áudio filtrado da narrativa, resultando numa versão deslexicalizada (fala ininteligível), mas com preservação da estrutura prosódica do discurso. Nas duas primeiras condições, a segmentação foi no texto transcrito, com barras transversais (/); nas demais, utilizou-se um programa de computador chamado ELAN. A análise dos dados obtidos baseou-se em tabelas, gráficos, análise estatística (teste do Qui-Quadrado), análise acústica (utilização do Programa PRAAT). Os resultados sinalizam que a prosódia ajuda o ouvinte leigo a perceber a estrutura básica do discurso narrativo. Com relação ao peso do Pitch Reset para auxiliar os ouvintes na demarcação de fronteiras, pode-se dizer que o teste estatístico do Qui-Quadrado encontrou evidências que lhe atribui essa função. Assim, neste contexto, ratifica-se o relevante papel da prosódia para o reconhecimento da estrutura de narrativas orais espontâneas e identifica-se o reflexo do peso da diferença de tom na percepção dos participantes.