999 resultados para Síntese de voz


Relevância:

100.00% 100.00%

Publicador:

Resumo:

En primer lugar, se exponen los distintos tipos de tecnologías del habla existente y su importancia para lograr la integración del mundo tecnológico en la sociedad de la información. Después, se realiza una descripción del primer sintetizador de voz en lengua gallega, 'Cotovía'. Es un conversor texto-voz basado en la técnica de concatenación de unidades. Como conclusión final, se deduce que las lenguas que no consigan desenvolverse mínimamente en este ámbito, tendrán serias dificultades para seguir subsistiendo.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A fala é um mecanismo natural para a interação homem-máquina. A tecnologia de processamento de fala (ou voz) encontra-se bastante avançada e, em escala mundial, existe vasta disponibilidade de software, tanto comercial quanto acadêmico. a maioria assume a disponibilidade de um reconhecedor e/ou sintetizador, que pode ser programado via API. Ao contrário do que ocorre, por exemplo, na língua inglesa, inexiste atualmente uma gama variada de recursos para o português brasileiro. O presente trabalho discute alguns esforços realizados nesse sentido, avaliando a utilização da SAPI E JSAPI, que são as APIs da Microsoft e Sun, respectivamente. Serão apresentados, outrossim, exemplos de aplicativos: uma aplicação CALL (baseada em SAPI) usando síntese em inglês e português, reconhecimento em inglês e agentes visuais; e uma proposta para agregar reconhecimento e síntese de voz ao chat IRC através de APIs Java.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Estudar os mecanismos subjacentes à produção de fala é uma tarefa complexa e exigente, requerendo a obtenção de dados mediante a utilização de variadas técnicas, onde se incluem algumas modalidades imagiológicas. De entre estas, a Ressonância Magnética (RM) tem ganho algum destaque, nos últimos anos, posicionando-se como uma das mais promissoras no domínio da produção de fala. Um importante contributo deste trabalho prende-se com a otimização e implementação de protocolos (RM) e proposta de estratégias de processamento de imagem ajustados aos requisitos da produção de fala, em geral, e às especificidades dos diferentes sons. Para além disso, motivados pela escassez de dados para o Português Europeu (PE), constitui-se como objetivo a obtenção de dados articulatórios que permitam complementar informação já existente e clarificar algumas questões relativas à produção dos sons do PE (nomeadamente, consoantes laterais e vogais nasais). Assim, para as consoantes laterais foram obtidas imagens RM (2D e 3D), através de produções sustidas, com recurso a uma sequência Eco de Gradiente (EG) rápida (3D VIBE), no plano sagital, englobando todo o trato vocal. O corpus, adquirido por sete falantes, contemplou diferentes posições silábicas e contextos vocálicos. Para as vogais nasais, foram adquiridas, em três falantes, imagens em tempo real com uma sequência EG - Spoiled (TurboFLASH), nos planos sagital e coronal, obtendo-se uma resolução temporal de 72 ms (14 frames/s). Foi efetuada aquisição sincronizada das imagens com o sinal acústico mediante utilização de um microfone ótico. Para o processamento e análise de imagem foram utilizados vários algoritmos semiautomáticos. O tratamento e análise dos dados permitiu efetuar uma descrição articulatória das consoantes laterais, ancorada em dados qualitativos (e.g., visualizações 3D, comparação de contornos) e quantitativos que incluem áreas, funções de área do trato vocal, extensão e área das passagens laterais, avaliação de efeitos contextuais e posicionais, etc. No que respeita à velarização da lateral alveolar /l/, os resultados apontam para um /l/ velarizado independentemente da sua posição silábica. Relativamente ao /L/, em relação ao qual a informação disponível era escassa, foi possível verificar que a sua articulação é bastante mais anteriorizada do que tradicionalmente descrito e também mais extensa do que a da lateral alveolar. A resolução temporal de 72 ms conseguida com as aquisições de RM em tempo real, revelou-se adequada para o estudo das características dinâmicas das vogais nasais, nomeadamente, aspetos como a duração do gesto velar, gesto oral, coordenação entre gestos, etc. complementando e corroborando resultados, já existentes para o PE, obtidos com recurso a outras técnicas instrumentais. Para além disso, foram obtidos novos dados de produção relevantes para melhor compreensão da nasalidade (variação área nasal/oral no tempo, proporção nasal/oral). Neste estudo, fica patente a versatilidade e potencial da RM para o estudo da produção de fala, com contributos claros e importantes para um melhor conhecimento da articulação do Português, para a evolução de modelos de síntese de voz, de base articulatória, e para aplicação futura em áreas mais clínicas (e.g., perturbações da fala).

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Tese dout., Engenharia Electrónica e Computação, Universidade do Algarve, 2009

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Dans cet article, nous présenterons une étude comparative de quelques techniques de manipulation du signal comme la Transformée de Fourier à Court Terme, la Synthèse Granulaire Asynchrone et PSOLA, notamment dans le cadre de leur utilisation en temps réel. Nous présenterons succinctement le fonctionnement de ces trois méthodes dans l’environnement Max / MSP avec l’utilisation de la librairie GABOR. La manipulation des paramètres propres à chaque méthode a des conséquences sur les variables musicales, et l’utilisation de ces méthodes implique des corrélations entre les paramètres techniques du traitement du signal et des attributs musicaux spécifiques. Ainsi, nous essayerons d’explorer les espaces des paramètres et de la perception musicales entre le temps, la période et le spectre (les rythmes, les fréquences et les timbres) en comparant les différentes méthodes en vue de leur croisement dans un système de traitement commun.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

This work presents the tVoice, software that manipulates tags languages, extracting information and, being integral part of the VoiceProxy system, it aids bearers of special needs in the access to the Web. This system is responsible for the search and treatment of the documents in the Web, extracting the textual information contained in those documents and preceding the capability of generating eventually through translation techniques, an audio script, used by the of interface subsystem of VoiceProxy, the iVoice, in the process of voice synthesis. In this stage the tVoice, besides the treatment of the tag language HTML, processes other two formats of documents, PDF and XHTML. Additionally to allow that, besides the iVoice, other interface subsystems can make use of the tVoice through remote access, we propose distribution systems techniques based in the model Client-Server providers operations of the fashion of a proxy server treatment of documents

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Sistema Texto-Fala (TTS) é atualmente uma tecnologia madura que é utilizada em muitas aplicações. Alguns módulos de um sistema TTS são dependentes do idioma e, enquanto existem muitos recursos disponíveis para a língua inglesa, os recursos para alguns idiomas ainda são limitados. Este trabalho descreve o desenvolvimento de um sistema TTS completo para português brasileiro (PB), o qual também apresenta os recursos já disponíveis. O sistema usa a plataforma MARY e o processo de síntese da voz é baseado em cadeias escondidas de Markov (HMM). Algumas das contribuições deste trabalho consistem na implementação de silabação, determinação da sílaba tônica e conversão grafema-fonema (G2P). O trabalho também descreve as etapas para a organização dos recursos desenvolvidos e a criação de uma voz em PB junto ao MARY. Estes recursos estão disponíveis e facilita a pesquisa na normalização de texto e síntese baseada em HMM par o PB.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Dissertação apresentada à Escola Superior de Educação de Lisboa para obtenção de grau de mestre em Educação Artística, na especialização de Teatro na Educação

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Resumen: Este trabajo pretende rastrear en los veinte números de El Torito de los Muchachos, un periódico gauchesco publicado en 1830, las marcas que permitan caracterizar al enunciador y el enunciatario construidos por el periódico. También se analizará la enunciación, entendida como un conjunto de recursos discursivos, procedimientos y géneros, que dan forma al mensaje; es decir, que determinan una determinada “manera de decir” (Verón, 2004:172). ¿Qué gaucho habla, a quién le habla, qué vínculo construye con su enunciatario? El análisis de las voces que circulan en las páginas de estos ejemplares ofrece algunas claves para entender una etapa del periodismo argentino atravesada por la polarización política.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Integran este número de la revista ponencias presentadas en Studia Hispanica Medievalia VIII : Actas de las X Jornadas Internacionales de Literatura Española Medieval, 2011, y de Homenaje al Quinto Centenario del Cancionero General de Hernando del Castillo.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Resumen: A través del análisis de 2x4 (1978), de Carmelo Saitta, se extraen conclusiones sobre algunos aspectos de su lenguaje musical, especialmente los vinculados con el uso de la percusión y el tratamiento de la voz.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Síntese histórica dos grandes momentos da Câmara dos Deputados, das Assembléias Nacionais Constituintes e do Congresso Nacional.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Consultoria Legislativa - Área XIV Comunicação Social, Informática, Telecomunicações, Ciência Postal, Ciência e Tecnologia. Inclui gráficos.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Consultoria Legislativa - Área XVIII - Direito Internacional Público e Relações Internacionais.