4 resultados para corpora allata
em Universidade Federal do Pará
Resumo:
O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina.
Resumo:
Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial.
Resumo:
A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável.
Resumo:
A presente pesquisa está vinculada ao projeto AMPER-NORTE (Atlas Multimídia Prosódico do Norte do Brasil), que faz parte do AMPER-POR (Atlas Multimídia Prosódico do Português). Este estudo contribuirá com a formação do Atlas Multimídia Prosódico do Norte do Brasil e tem como objetivo principal caracterizar a variedade dialetal prosódica do português falado na zona urbana do município de Baião (PA). Todos os procedimentos metodológicos adotados seguem as orientações estabelecidas pela coordenação geral do Projeto AMPER - POR. O corpus é formado com seis informantes e 66 frases, estruturadas sintaticamente em SVC (sujeito + verbo + complemento) e suas expansões (sintagma adjetival e sintagma preposicional), obedecendo as mesmas restrições fonéticas e sintáticas e mantendo o padrão dos corpora constituídos por variedades do português do projeto AMPER –POR. As sentenças do corpus têm 10, 13 e 14 vogais e todas as frases foram repetidas seis vezes por cada informante formando um corpus total de 396 frases. Os dados foram coletados com três homens e três mulheres, dos níveis de escolaridade fundamental, médio e superior, com idade entre 35 a 75 anos. O corpus selecionado é constituído de 42 frases – 21 declarativas e 21 interrogativas – que contemplam as três pautas acentuais do português. Em todas as sentenças foram analisadas as modalidades declarativas e interrogativas, e as análises acústicas das vogais foram feitas em seis etapas. Os parâmetros acústicos analisados foram: Frequência Fundamental (semitons), duração (ms) e intensidade (dB). Os resultados desse estudo demonstraram que o parâmetro acústico de F0 é o mais relevante na distinção entre enunciados declarativos e interrogativos. Observou-se, tanto nos sintagmas nominais finais simples quanto nos compostos, um contorno entoacional em formato de “pinça” no último sintagma nominal final dos vocábulos, e esse movimento mostra que a F0 é descendente para as modalidades declarativas e ascendente para as frases interrogativas. A duração (ms) complementa a F0 na distinção das duas modalidades frasais. Já a intensidade (dB) não se mostrou um parâmetro relevante para distinguir as sentenças declarativas e interrogativas na variedade falada em Baião (PA).