3 resultados para Application programming interfaces (API)

em Universidade Federal do Pará


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

A presente Dissertação de Mestrado tem como objetivo o estudo do problema de inversão sísmica baseada em refletores planos para arranjo fonte-comum (FC) e ponto-médiocomum (PMC). O modelo direto é descrito por camadas homogêneas, isotrópicas com interfaces plano-horizontais. O problema é relacionado ao empilhamento NMO baseado na otimização da função semblance, para seções PMC corrigidas de sobretempo normal (NMO). O estudo foi baseado em dois princípios. O primeiro princípio adotado foi de combinar dois grupos de métodos de inversão: um Método Global e um Método Local. O segundo princípio adotado foi o de cascata, segundo a teoria Wichert-Herglotz-Bateman, que estabelece que para conhecer uma camada inferior tem-se que conhecer primeiro a camada superior (dissecação). A aplicação do estudo é voltada à simulação sísmica de Bacia Sedimentar do Solimões e de Bacia Marinha para se obter uma distribuição local 1D de velocidades e espessuras para a subsuperfície em horizontes alvo. Sendo assim, limitamos a inversão entre 4 e 11 refletores, uma vez que na prática a indústria limita uma interpretação realizada apenas em número equivalente de 3 a 4 refletores principais. Ressalta-se que este modelo é aplicável como condição inicial ao imageamento de seções sísmicas em regiões geologicamente complexas com variação horizontal suave de velocidades. Os dados sintéticos foram gerados a partir dos modelos relacionados a informações geológicas, o que corresponde a uma forte informação a priori no modelo de inversão. Para a construção dos modelos relacionados aos projetos da Rede Risco Exploratório (FINEP) e de formação de recursos humanos da ANP em andamento, analisamos os seguintes assuntos relevantes: (1) Geologia de bacias sedimentares terrestre dos Solimões e ma rinha (estratigráfica, estrutural, tectônica e petrolífera); (2) Física da resolução vertical e horizontal; e (3) Discretização temporal-espacial no cubo de multi-cobertura. O processo de inversão é dependente do efeito da discretização tempo-espacial do campo de ondas, dos parâmetros físicos do levantamento sísmico, e da posterior reamostragem no cubo de cobertura múltipla. O modelo direto empregado corresponde ao caso do operador do empilhamento NMO (1D), considerando uma topografia de observação plana. O critério básico tomado como referência para a inversão e o ajuste de curvas é a norma 2 (quadrática). A inversão usando o presente modelo simples é computacionalmente atrativa por ser rápida, e conveniente por permitir que vários outros recursos possam ser incluídos com interpretação física lógica; por exemplo, a Zona de Fresnel Projetada (ZFP), cálculo direto da divergência esférica, inversão Dix, inversão linear por reparametrização, informações a priori, regularização. A ZFP mostra ser um conceito út il para estabelecer a abertura da janela espacial da inversão na seção tempo-distância, e representa a influência dos dados na resolução horizontal. A estimativa da ZFP indica uma abertura mínima com base num modelo adotado, e atualizável. A divergência esférica é uma função suave, e tem base física para ser usada na definição da matriz ponderação dos dados em métodos de inversão tomográfica. A necessidade de robustez na inversão pode ser analisada em seções sísmicas (FC, PMC) submetida a filtragens (freqüências de cantos: 5;15;75;85; banda-passante trapezoidal), onde se pode identificar, comparar e interpretar as informações contidas. A partir das seções, concluímos que os dados são contaminados com pontos isolados, o que propõe métodos na classe dos considerados robustos, tendo-se como referência a norma 2 (quadrados- mínimos) de ajuste de curvas. Os algoritmos foram desenvolvidos na linguagem de programação FORTRAN 90/95, usando o programa MATLAB para apresentação de resultados, e o sistema CWP/SU para modelagem sísmica sintética, marcação de eventos e apresentação de resultados.