11 resultados para Sistemas de reconhecimento de voz

em Universidade Federal do Pará


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

O reconhecimento automático de voz vem sendo cada vez mais útil e possível. Quando se trata de línguas como a Inglesa, encontram-se no mercado excelentes reconhecedores. Porem, a situação não e a mesma para o Português Brasileiro, onde os principais reconhecedores para ditado em sistemas desktop que já existiram foram descontinuados. A presente dissertação alinha-se com os objetivos do Laboratório de Processamento de Sinais da Universidade Federal do Pará, que é o desenvolvimento de um reconhecedor automático de voz para Português Brasileiro. Mais especificamente, as principais contribuições dessa dissertação são: o desenvolvimento de alguns recursos necessários para a construção de um reconhecedor, tais como: bases de áudio transcrito e API para desenvolvimento de aplicações; e o desenvolvimento de duas aplicações: uma para ditado em sistema desktop e outra para atendimento automático em um call center. O Coruja, sistema desenvolvido no LaPS para reconhecimento de voz em Português Brasileiro. Este alem de conter todos os recursos para fornecer reconhecimento de voz em Português Brasileiro possui uma API para desenvolvimento de aplicativos. O aplicativo desenvolvido para ditado e edição de textos em desktop e o SpeechOO, este possibilita o ditado para a ferramenta Writer do pacote LibreOffice, alem de permitir a edição e formatação de texto com comandos de voz. Outra contribuição deste trabalho e a utilização de reconhecimento automático de voz em call centers, o Coruja foi integrado ao software Asterisk e a principal aplicação desenvolvida foi uma unidade de resposta audível com reconhecimento de voz para o atendimento de um call center nacional que atende mais de 3 mil ligações diárias.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Apesar do crescente interesse sobre as práticas discursivas em aulas de ciências, considero que ainda conhecemos pouco sobre o processo de significação em aulas de química. Nesse sentido, meu objetivo na presente dissertação foi analisar, a partir de um enfoque histórico-cultural, o papel de diferentes vozes na construção de significados em aulas de química. Durante as aulas abordei os processos de conservação de alimentos como tema de estudos. Participaram das aulas 28 alunos de uma turma do 1 ano do nível médio de uma escola pública estadual, localizada na periferia de Belém. As aulas foram gravadas em vídeo, transcritas e analisadas microgeneticamente. Busquei evidenciar como as diferentes vozes mobilizadas nas minhas interações com os alunos contribuíram para a elaboração conceitual. Analisei as respostas escritas individuais de três alunos, em diferentes momentos da atividade e a participação deles nas interações ocorridas nos grupos. Tal análise mostrou que nas respostas escritas iniciais dos alunos predominaram explicações empíricas dos sistemas. Após a atividade, os alunos incorporaram elementos do discurso científico escolar em suas respostas e conseguiram elaborar explicações teóricas para os sistemas observados. Diferentes vozes participaram do processo de elaboração das explicações nas aulas: a) a voz da observação empírica do fenômeno, que contribuiu para que os alunos compartilhassem observações semelhantes e estabelecessem comparações entre os sistemas e; b) a voz de experiências prévias cotidianas dos alunos, que contribuiu para que eles compartilhassem a idéia de que sal e óleo podiam ser utilizados como conservantes de alimentos; c) a voz de conhecimentos escolares anteriores dos alunos, que contribuíram para a introdução de elementos novos no discurso, como fungos e bactérias; d) a voz do discurso científico escolar, introduzida por mim durante as interações, que também contribuiu para a elaboração das explicações teóricas dos fenômenos observados. A consideração ou não dos diferentes pontos de vista apresentados pelos alunos constituiu limites e possibilidades para a elaboração dos sentidos dos conceitos desenvolvidos durante as aulas. Estes resultados chamam a atenção para a importância do professor adotar uma abordagem comunicativa interativa dialógica, valorizando a explicitação e o confronto de diferentes perspectivas.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Sistema Texto-Fala (TTS) é atualmente uma tecnologia madura que é utilizada em muitas aplicações. Alguns módulos de um sistema TTS são dependentes do idioma e, enquanto existem muitos recursos disponíveis para a língua inglesa, os recursos para alguns idiomas ainda são limitados. Este trabalho descreve o desenvolvimento de um sistema TTS completo para português brasileiro (PB), o qual também apresenta os recursos já disponíveis. O sistema usa a plataforma MARY e o processo de síntese da voz é baseado em cadeias escondidas de Markov (HMM). Algumas das contribuições deste trabalho consistem na implementação de silabação, determinação da sílaba tônica e conversão grafema-fonema (G2P). O trabalho também descreve as etapas para a organização dos recursos desenvolvidos e a criação de uma voz em PB junto ao MARY. Estes recursos estão disponíveis e facilita a pesquisa na normalização de texto e síntese baseada em HMM par o PB.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

A fala é um mecanismo natural para a interação homem-máquina. A tecnologia de processamento de fala (ou voz) encontra-se bastante avançada e, em escala mundial, existe vasta disponibilidade de software, tanto comercial quanto acadêmico. a maioria assume a disponibilidade de um reconhecedor e/ou sintetizador, que pode ser programado via API. Ao contrário do que ocorre, por exemplo, na língua inglesa, inexiste atualmente uma gama variada de recursos para o português brasileiro. O presente trabalho discute alguns esforços realizados nesse sentido, avaliando a utilização da SAPI E JSAPI, que são as APIs da Microsoft e Sun, respectivamente. Serão apresentados, outrossim, exemplos de aplicativos: uma aplicação CALL (baseada em SAPI) usando síntese em inglês e português, reconhecimento em inglês e agentes visuais; e uma proposta para agregar reconhecimento e síntese de voz ao chat IRC através de APIs Java.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

O estudo sobre a Institucionalização dos Sistemas Municipais de Ensino na realidade paraense: obstáculos e dificuldades – o caso do Município de Barcarena teve como principal objetivo investigar os fatores que inviabilizam a constituição do Conselho Municipal de Educação na realidade do Município investigado, visando a identificar se os obstáculos são de caráter financeiro, político ou técnico. Análise documental e entrevistas foram os instrumentos utilizados para alcançar os objetivos explicitados. A coleta e o tratamento dos dados priorizaram análises de leis, decretos, pareceres, regimento, planos de governo, projetos e programas educacionais bem como de entrevistas com sujeitos envolvidos no processo educacional. Os resultados da pesquisa permitem inferir que, para a institucionalização do Sistema de Ensino na realidade de Barcarena, necessário se faz que a gestão municipal se disponha a romper com o caráter de base patrimonial arraigado na prática governamental, pois não há garantia de democratização da gestão somente por meio da criação do Sistema de Ensino, ou de outros elementos que compõem a gestão educacional, sem um processo de construção da gestão pública assentado no coletivo. A demanda imediata requer autonomia municipal para construção de uma política educacional que atenda à realidade municipal; mecanismos que viabilizem a participação da sociedade nas deliberações e nos órgãos de acompanhamento e controle social dos recursos destinados à educação, por meio das diversas categorias representadas; superação da concepção do espaço público como patrimônio privado; e formação de equipe técnica habilitada a realizar os encaminhamentos da educação municipal. A demanda constitui-se num desafio, uma vez que os conflitos, as tensões, as disputas de poder são fortes, o que representa um fator positivo, se entendido como possibilidade de construção da política educacional ancorada na diversidade de opiniões, pois os diferentes segmentos da sociedade civil de Barcarena apresentam interesse na participação, alguns se mobilizando mais ativamente, outros em menor proporção, existindo, porém, a necessidade de que sejam estes reconhecidos como sujeitos sociais e de que a formação teórica, pedagógica e política também seja compreendida como fator fundamental à participação social nas ações de mobilização para organização do Sistema de Ensino, paralelamente ao reconhecimento de que é um direito que precisa consolidar-se.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Este trabalho apresenta o aplicativo DialogBuilder, uma ferramenta de código aberto escrita em Java que disponibiliza ao usuário uma interface para projeto de sistemas de diálogos e exportação destes para implantação no software Asterisk, o mais popular framework VoIP. O DialogBuilder disponibiliza um wizard para que o usuário leigo possa projetar seu sistema sem precisar aprender a programar para Asterisk. O software separa a fase de concepção do diálogo de sua codificação e se posiciona para tornar técnica e economicamente viável, mesmo para pequenas empresas, construir e manter sistemas de diálogo para aplicações telefônicas.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Os estudos ambientais necessitam de informações sobre a cobertura e o uso da terra. Este trabalho apresenta a aplicação de dados de sensores remotos orbitais (óticos e de radares) na validação de padrões de uso e cobertura do solo na planície costeira amapaense para fins de mapeamento e reconhecimento da dinâmica natural e antrópica. Esta costa é submetida a uma dinâmica intensa devido à magnitude dos processos costeiros (marés-pororoca), sua localização geográfica, influenciada pelo rio Amazonas e pela Zona de Convergência Intertropical, e processos antrópicos associados à bubalinocultura. A análise foi realizada aplicando-se dados de satélite (JERS-1, RADARSAT-1, Landsat 7 e DEM do SRTM) digitalmente processados em abordagem multisensor, multiescala e multitemporal, correlacionada com dados pretéritos e informações de campo. A análise dos produtos gerados e dados colaterais permitiu distinguir oito padrões de uso e cobertura do solo: florestas de mangue, florestas de várzeas, campos arbustivos, áreas de vegetação campestre, campo antrópico, zona de intermaré, canal estuarino e lagos, além de feições morfológicas lineares associadas a estes padrões. Estas informações são importantes para o mapeamento dos ambientes costeiros e fundamentais para o reconhecimento da dinâmica na região.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Este trabalho visa propor uma solução contendo um sistema de reconhecimento de fala automático em nuvem. Dessa forma, não há necessidade de um reconhecedor sendo executado na própria máquina cliente, pois o mesmo estará disponível através da Internet. Além do reconhecimento automático de voz em nuvem, outra vertente deste trabalho é alta disponibilidade. A importância desse tópico se d´a porque o ambiente servidor onde se planeja executar o reconhecimento em nuvem não pode ficar indisponível ao usuário. Dos vários aspectos que requerem robustez, tal como a própria conexão de Internet, o escopo desse trabalho foi definido como os softwares livres que permitem a empresas aumentarem a disponibilidade de seus serviços. Dentre os resultados alcançados e para as condições simuladas, mostrou-se que o reconhecedor de voz em nuvem desenvolvido pelo grupo atingiu um desempenho próximo ao do Google.