3 resultados para Visual Speaker Recognition, Visual Speech Recognition, Cascading Appearance-Based Features

em Universidade Federal do Pará


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Imagens de radar de abertura sintética (SAR) vem sendo bem mais utilizadas do que antes nas aplicações de geociências em regiões tropicais úmidas. Nesta investigação, uma imagem RADARSAT-1, na banda C, polarização HH adquirida em 1998 foi usada para o mapeamento costeiro e avaliação da cobertura da terra na área de Bragança, norte do Brasil. Imagem do radar aerotransportado GEMS-1000, na banda X, polarização HH, adquirida em 1972 durante o projeto RADAM foi também utilizada para avaliar as variações costeiras ocorridas nas últimas três décadas. A pesquisa tem confirmado a utilidade da imagem RADARSAT-1 para o mapeamento geomorfológico e avaliação da cobertura da terra, particularmente em costas de manguezal de macromaré. Além disso, um novo método para estimar as variações da linha de costa baseado na superposição de vetores extraídos de diferentes imagens SAR, com alta acurácia geométrica, tem mostrado que a planície costeira de Bragança tem estado sujeita a severa erosão responsável pelo recuo de aproximadamente 32 km2 e acreção de 20 km2, resultando em uma perda de área de manguezal de aproximadamente 12 km2. Como perspectiva de aplicação, dados SAR orbitais e aerotransportados provaram ser uma importante fonte de informação tanto para o mapeamento geomorfológico, quando para o monitoramento de modificações costeiras em ambientes tropicais úmidos.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A fala é um mecanismo natural para a interação homem-máquina. A tecnologia de processamento de fala (ou voz) encontra-se bastante avançada e, em escala mundial, existe vasta disponibilidade de software, tanto comercial quanto acadêmico. a maioria assume a disponibilidade de um reconhecedor e/ou sintetizador, que pode ser programado via API. Ao contrário do que ocorre, por exemplo, na língua inglesa, inexiste atualmente uma gama variada de recursos para o português brasileiro. O presente trabalho discute alguns esforços realizados nesse sentido, avaliando a utilização da SAPI E JSAPI, que são as APIs da Microsoft e Sun, respectivamente. Serão apresentados, outrossim, exemplos de aplicativos: uma aplicação CALL (baseada em SAPI) usando síntese em inglês e português, reconhecimento em inglês e agentes visuais; e uma proposta para agregar reconhecimento e síntese de voz ao chat IRC através de APIs Java.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Para compor um sistema de Reconhecimento Automático de Voz, pode ser utilizada uma tarefa chamada Classificação Fonética, onde a partir de uma amostra de voz decide-se qual fonema foi emitido por um interlocutor. Para facilitar a classificação e realçar as características mais marcantes dos fonemas, normalmente, as amostras de voz são pré- processadas através de um fronl-en'L Um fron:-end, geralmente, extrai um conjunto de parâmetros para cada amostra de voz. Após este processamento, estes parâmetros são insendos em um algoritmo classificador que (já devidamente treinado) procurará decidir qual o fonema emitido. Existe uma tendência de que quanto maior a quantidade de parâmetros utilizados no sistema, melhor será a taxa de acertos na classificação. A contrapartida para esta tendência é o maior custo computacional envolvido. A técnica de Seleção de Parâmetros tem como função mostrar quais os parâmetros mais relevantes (ou mais utilizados) em uma tarefa de classificação, possibilitando, assim, descobrir quais os parâmetros redundantes, que trazem pouca (ou nenhuma) contribuição à tarefa de classificação. A proposta deste trabalho é aplicar o classificador SVM à classificação fonética, utilizando a base de dados TIMIT, e descobrir os parâmetros mais relevantes na classificação, aplicando a técnica Boosting de Seleção de Parâmetros.