29 resultados para Reconhecimento : Fala

em Lume - Repositório Digital da Universidade Federal do Rio Grande do Sul


Relevância:

70.00% 70.00%

Publicador:

Resumo:

Este trabalho relata o desenvolvimento de uma aplicação capaz de reconhecer um vocabulário restrito de comandos de direcionamento pronunciados de forma isolada e independentes do locutor. Os métodos utilizados para efetivar o reconhecimento foram: técnicas clássicas de processamento de sinais e redes neurais artificiais. No processamento de sinais visou-se o pré-processamento das amostras para obtenção dos coeficientes cepstrais. Enquanto que para o treinamento e classificação foram utilizadas duas redes neurais distintas, as redes: Backpropagation e Fuzzy ARTMAP. Diversas amostras foram coletadas de diferentes usuários no sentido de compor um banco de dados flexível para o aprendizado das redes neurais, que garantisse uma representação satisfatória da grande variabilidade que apresentam as pronúncias entre as vozes dos usuários. Com a aplicação de tais técnicas, o reconhecimento demostrou-se eficaz, distinguindo cada um dos comandos com bons índices de acerto, uma vez que o sistema é independente do locutor.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Esta Tese apresenta a investigação de técnicas computacionais que permitam a simulação computacional da compreensão de frases faladas. Esta investigação é baseada em estudos neurocognitivos que descrevem o processamento do cérebro ao interpretar a audição de frases. A partir destes estudos, realiza-se a proposição do COMFALA, um modelo computacional para representação do processo de compreensão da fala. O COMFALA possui quatro módulos, correspondentes às fases do processamento cerebral: processamento do sinal de fala, análise sintática, análise semântica e avaliação das respostas das análises. Para validação do modelo são propostas implementações para cada módulo do COMFALA. A codificação do sinal se dá através das transformadas ondeletas (wavelets transforms), as quais permitem uma representação automática de padrões para sistemas conexionistas (redes neurais artificiais) responsáveis pela análise sintática e semântica da linguagem. Para a análise sintática foi adaptado um sistema conexionista de linguagem escrita. Por outro lado, o sistema conexionista de análise semântica realiza agrupamentos por características prosódicas e fonéticas do sinal. Ao final do processo, compara-se a saída sintática com a semântica, na busca de uma melhor interpretação da fala.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Sabe-se que a fala é a principal maneira de comunicação entre as pessoas. A Síntese de fala (geração automática da fala pelo computador) tem recebido atenção da comunidade acadêmica e profissional por várias décadas. Ela envolve a conversão de um texto de entrada em fala, usando algoritmos e algumas formas de fala codificada. O texto pode ser digitado pelo teclado ou obtido por reconhecimento de caracteres ou, ainda, obtido de um banco de dados. A síntese de fala pode ser usada em vários domínios de aplicação, tais como: auxílio para deficientes visuais, telecomunicações, multimídia, etc. Este trabalho apresenta um estudo sobre a produção da fala e da área de síntese de fala visando servir de subsídio para dissertações e pesquisas futuras, bem como para o Projeto Spoltech, um projeto de cooperação entre os Estados Unidos e o Brasil para o avanço da tecnologia da língua falada no Brasil (Português Brasileiro). Dentro deste estudo serão apresentadas as principais técnicas de síntese de fala, entre as quais destaca-se: Texto para Fala (TPF). Problemas de separação de sílabas, determinação da sílaba tônica, pronunciação das vogais “e” e “o” como um fonema aberto ou fechado, etc, são enfrentados dentro do contexto da área de síntese de fala para o português falado no Brasil. Tendo conhecimento destes problemas, o principal objetivo deste trabalho será criar regras para resolver o problema de pronunciação das vogais “e” e “o” de forma automática, visando obter produção sonora mais inteligível, por intermédio da implementação de um analisador estatístico, o qual verificará a letra anterior e posterior ao “e” ou “o” de uma palavra e, com isso, determinar a pronúncia dos mesmos para aquela seqüência de letras. As mesmas poderão tornar-se regras válidas para a solução do problema se atingirem 80% dos casos de ocorrência no dicionário com fonema “e” ou “o” aberto (limiar), sendo que elas serão lidas por um interpretador Scheme utilizado pelo programa Festival - ferramenta para a construção de sistemas de síntese de fala desenvolvida pelo Centre for Speech Technology Research (University of Edinburgh, Reino Unido), a qual utiliza TPF como método de síntese. Sabendo-se que o Festival gera os fonemas “e” e “o” como fechados se não há uma regra para inferir o contrário, serão consideradas apenas as regras encontradas para os fonemas abertos. Para possibilitar esta análise será utilizado um dicionário eletrônico de pronunciação (com 19.156 palavras), o qual possui a palavra e a sua respectiva pronúncia, conforme pode-se verificar no exemplo do Anexo 1.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Este trabalho defende de que a idéia que critérios lingüísticos e pragmáticos contribuem para o reconhecimento da especificidade do termo jurídico. Desse modo, parte do princípio que a identificação de uma terminologia está vinculada ao reconhecimento da natureza e dos propósitos daqueles que a utilizam em uma dada área de conhecimento, o que, na área jurídica, se torna evidente na expressão da normatividade da lei. A pesquisa utiliza como referencial teórico as concepções de base da Teoria Comunicativa da Terminologia, da Teoria dos Atos de Fala, aportes da Teoria Semiótica do Texto no âmbito jurídico, bem como fundamentos gerais da ciência jurídica. O corpus de estudo, a partir do qual se demonstra a validade da idéia defendida, é formado por textos legislativos. A Constituição Brasileira de 1988 foi escolhida como campo preferencial de pesquisa e é examinado como objeto da comunicação que se estabelece entre o destinador e o destinatário no âmbito do universo sócio-cultural da área jurídica. Descrevem-se os mecanismos que tecem a rede modal que estrutura esse tipo de texto, considerando-se que a enunciação da norma constitucional configura um ato de fala jurídico. Esse ato de fala é analisado na manifestação de normas de três categorias: programáticas, de atribuição de poder e competência e de conduta, destacando-se o caráter performativo dos verbos que expressam tais normas. Após a identificação do padrão morfossintático e semântico que caracteriza a sua estrutura frasal, analisam-se os elementos que vinculam o verbo, seu sujeito e complementos aos propósitos da área temática, com destaque para sua implicação pragmática. Conforme a pesquisa demonstra, tais propósitos imprimem o caráter de imperatividade àquilo que é comunicado, conferindo especificidade às unidades lexicais que integram a estrutura frasal dos verbos focalizados. Conclui-se que o verbo performativo é fator primordial no processo de atualização da especificidade dos termos na linguagem jurídica, bem como se demonstra que alguns dos verbos analisados se constituem em genuínos candidatos a termo jurídico. Finalizando a investigação, são indicados parâmetros para a marcação de elementos lingüísticos, tanto morfossintáticos como semânticos e de natureza pragmática, para o processamento informatizado da linguagem usada no Direito.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Sistemas de visão artificial são cada vez mais usados para auxiliar seres humanos a realizar diferentes tarefas. Estes sistemas são capazes de reconhecer padrões em imagens complexas. Técnicas de visão computacional têm encontrado crescente aplicação em estudos e sistemas de controle e monitoração de tráfego de automóveis. Uma das áreas de pesquisa que tem sido objeto de estudo por diferentes grupos é a leitura automática de placas de matrículas como forma de detectar transgressores, encontrar carros roubados ou efetuar estudos de origem/destino [BAR99]. Com o constante crescimento do volume de tráfego de automóvel e a limitada capacidade dos sensores convencionais, especialistas da área recorrem a técnicas de identificação automática de veículos para obter dados relativos ao escoamento de tráfego. A identificação automática de veículos tem tido essencialmente duas abordagens distintas: a utilização de transponders e a utilização de técnicas de visão computacional [INI85] . Estas são essencialmente úteis em casos em que não é viável obrigar os motoristas a instalar transponders em seus automóveis. No entanto, essas técnicas são mais sensíveis às condições atmosféricas e de iluminação tais como nevoeiros, chuva intensa, luz noturna, reflexos em superfícies, etc. Este trabalho apresenta um estudo de diversas técnicas de processamento de imagem objetivando o aperfeiçoamento de um sistema de identificação automática de placas de veículos. Este aperfeiçoamento está relacionado com a diminuição do tempo de execução necessário à localização e reconhecimento dos caracteres contidos nas placas dos veículos bem como a melhorar a taxa de sucesso no seu reconhecimento. A primeira versão do sistema de identificação da placas de veículos descrito em [SOU2000], desenvolvido no CPG-EE da UFRGS, denominado SIAV 1.0, localiza e extrai 91,3% das placas corretamente mas apresenta uma taxa de reconhecimento das placas de 37,3%, assim como um tempo de processamento não satisfatório. Neste trabalho, cujo sistema desenvolvido é denominado SIAV 2.0, a imagem é previamente processada através da aplicação de técnicas de realce da imagem. O principal objetivo das técnicas de realce é processar a imagem de modo que o resultado seja mais apropriado para uma aplicação específica do que a imagem original [GON93]. O sistema busca melhorar a qualidade da imagem eliminando ou suavizando sombras e reflexos presentes na cena em virtude da iluminação não controlada. Visando um menor tempo de execução durante o tratamento e análise da imagem um estudo estatístico baseado na distribuição gaussiana foi realizado de maneira a restringir a área de análise a ser processada. O SIAV possui duas redes neurais como ferramentas de reconhecimento de caracteres. A partir da análise dos diferentes modelos de redes neurais empregados na atualidade, foi desenvolvida uma nova arquitetura de rede a ser utilizada pelo SIAV 2.0 que oferece uma taxa de reconhecimento superior a rede neural usada no SIAV 1.0. Visando um melhor tempo de execução, a implementação em hardware dedicado para este modelo é abordado. Os testes foram realizados com três bancos de imagens obtidas por câmeras diferentes, inclusive por dispositivo "pardal" comercial. Estes testes foram realizados para verificar a efetividade dos algoritmos aperfeiçoados.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Este trabalho descreve a aplicação da Programação Genética, uma técnica de Computação Evolucionária, ao problema da Síntese de Fala automática. A Programação Genética utiliza as técnicas da evolução humana para descobrir programas bem adaptados a um problema específico. Estes programas, compostos de instruções, variáveis, constantes e outros elementos que compõe uma linguagem de programação, são evoluídos ao longo de um conjunto de gerações. A Síntese de Fala, consiste na geração automática das formas de ondas sonoras a partir de um texto escrito. Uma das atividades mais importantes, é realizada através da conversão de palavras e letras para os sons da fala elementares (fonemas). Muitos sistemas de síntese são implementados através de regras fixas, escritas por programadores humanos. Um dos mais conhecidos sistemas de síntese é o FESTIVAL, desenvolvido pela Universidade de Edimburgh, usando a linguagem de programação funcional LISP e um número fixo de regras. Neste trabalho, nós exploramos a possibilidade da aplicação do paradigma da Programação Genética, para evoluir automaticamente regras que serão adotadas para implementação do idioma Português na ferramenta FESTIVAL, desenvolvido no projeto SPOLTECH (CNPq – NSF cooperação entre UFRGS e Universidade do Colorado). A modelagem do problema, consiste na definição das regras de pronúncia do Português Brasileiro, que a implementação do sistema FESTIVAL pronuncia erradamente, já que o mesmo foi implementado primariamente para o idioma Inglês. A partir destas regras, o sistema de Programação Genética, desenvolvido neste trabalho, evolui programas que constituem boas soluções para a conversão de letras para fonemas. A descrição dos resultados obtidos, cobre detalhes sobre a evolução das soluções, complexidade e regras implementadas, representadas pelas soluções mais bem adaptadas; mostrando que a Programação Genética, apesar de ser complexa, é bastante promissora.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Este trabalho foi realizado dentro da área de reconhecimento automático de voz (RAV). Atualmente, a maioria dos sistemas de RAV é baseada nos modelos ocultos de Markov (HMMs) [GOM 99] [GOM 99b], quer utilizando-os exclusivamente, quer utilizando-os em conjunto com outras técnicas e constituindo sistemas híbridos. A abordagem estatística dos HMMs tem mostrado ser uma das mais poderosas ferramentas disponíveis para a modelagem acústica e temporal do sinal de voz. A melhora da taxa de reconhecimento exige algoritmos mais complexos [RAV 96]. O aumento do tamanho do vocabulário ou do número de locutores exige um processamento computacional adicional. Certas aplicações, como a verificação de locutor ou o reconhecimento de diálogo podem exigir processamento em tempo real [DOD 85] [MAM 96]. Outras aplicações tais como brinquedos ou máquinas portáveis ainda podem agregar o requisito de portabilidade, e de baixo consumo, além de um sistema fisicamente compacto. Tais necessidades exigem uma solução em hardware. O presente trabalho propõe a implementação de um sistema de RAV utilizando hardware baseado em FPGAs (Field Programmable Gate Arrays) e otimizando os algoritmos que se utilizam no RAV. Foi feito um estudo dos sistemas de RAV e das técnicas que a maioria dos sistemas utiliza em cada etapa que os conforma. Deu-se especial ênfase aos Modelos Ocultos de Markov, seus algoritmos de cálculo de probabilidades, de treinamento e de decodificação de estados, e sua aplicação nos sistemas de RAV. Foi realizado um estudo comparativo dos sistemas em hardware, produzidos por outros centros de pesquisa, identificando algumas das suas características mais relevantes. Foi implementado um modelo de software, descrito neste trabalho, utilizado para validar os algoritmos de RAV e auxiliar na especificação em hardware. Um conjunto de funções digitais implementadas em FPGA, necessárias para o desenvolvimento de sistemas de RAV é descrito. Foram realizadas algumas modificações nos algoritmos de RAV para facilitar a implementação digital dos mesmos. A conexão, entre as funções digitais projetadas, para a implementação de um sistema de reconhecimento de palavras isoladas é aqui apresentado. A implementação em FPGA da etapa de pré-processamento, que inclui a pré-ênfase, janelamento e extração de características, e a implementação da etapa de reconhecimento são apresentadas finalmente neste trabalho.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

O presente trabalho objetiva investigar o insumo proporcionado por um professor em contexto formal de sala de aula. Nosso interesse se volta para os tipos de modificações lingüísticas propiciadas por um professor brasileiro para alunos de inglês de diferentes níveis de proficiência. São elencadas as modificações desse professor a partir da categorização de Lynch (1996). Focalizamos o conceito de ‘insumo compreensível’ como fundamental para a compreensão e aprendizagem. Para a coleta de dados, optamos pela produção de duas narrativas pelo professor a partir de gravuras. As produções do professor foram gravadas em áudio e vídeo e seguidas de entrevista com a pesquisadora. Os alunos demonstraram compreensão através de composição em sua língua materna, escrita imediatamente após as produções do professor e de respostas a um questionário especialmente elaborado. A partir da análise dos dados, concluímos que as modificações lingüísticas do professor assemelham-se aos tipos de modificações elencadas por Lynch. Implicações para a sala de aula e sugestões para estudos futuros são apresentadas.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

As técnicas utilizadas em sistemas de reconhecimento automático de locutor (RAL) objetivam identificar uma pessoa através de sua voz, utilizando recursos computacionais. Isso é feito a partir de um modelamento para o processo de produção da voz. A modelagem detalhada desse processo deve levar em consideração a variação temporal da forma do trato vocal, as ressonâncias associadas à sua fisiologia, perdas devidas ao atrito viscoso nas paredes internas do trato vocal, suavidade dessas paredes internas, radiação do som nos lábios, acoplamento nasal, flexibilidade associada à vibração das cordas vocais, etc. Alguns desses fatores são modelados por um sistema que combina uma fonte de excitação periódica e outra de ruído branco, aplicadas a um filtro digital variante no tempo. Entretanto, outros fatores são desconsiderados nesse modelamento, pela simples dificuldade ou até impossibilidade de descrevê-los em termos de combinações de sinais, filtros digitais, ou equações diferenciais. Por outro lado, a Teoria dos Sistemas Dinâmicos Não-Lineares ou Teoria do Caos oferece técnicas para a análise de sinais onde não se sabe, ou não é conhecido, o modelo detalhado do mecanismo de produção desses sinais. A análise através dessa teoria procura avaliar a dinâmica do sinal e, assumindo-se que tais amostras provêm de um sistema dinâmico não-linear, medidas qualitativas podem ser obtidas desse sistema. Essas medidas não fornecem informações precisas quanto ao modelamento do processo de produção do sinal avaliado, isto é, o modelo analítico é ainda inacessível. Entretanto, pode-se aferir a respeito de suaO problema analisado ao longo deste trabalho trata da busca de novos métodos para extrair informações úteis a respeito do locutor que produziu um determinado sinal de voz. Com isso, espera-se conceber sistemas que realizem a tarefa de reconhecer um pessoa automaticamente através de sua voz de forma mais exata, segura e robusta, contribuindo para o surgimento de sistemas de RAL com aplicação prática. Para isso, este trabalho propõe a utilização de novas ferramentas, baseadas na Teoria dos Sistemas Dinâmicos Não-Lineares, para melhorar a caracterização de uma pessoa através de sua voz. Assim, o mecanismo de produção do sinal de voz é analisado sob outro ponto de vista, como sendo o produto de um sistema dinâmico que evolui em um espaço de fases apropriado. Primeiramente, a possibilidade de utilização dessas técnicas em sinais de voz é verificada. A seguir, demonstra-se como as técnicas para estimação de invariantes dinâmicas não-lineares podem ser adaptadas para que possam ser utilizadas em sistemas de RAL. Por fim, adaptações e automatizações algorítmicas para extração de invariantes dinâmicas são sugeridas para o tratamento de sinais de voz. A comprovação da eficácia dessa metodologia se deu pela realização de testes comparativos de exatidão que, de forma estatisticamente significativa, mostraram o benefício advindo das modificações sugeridas. A melhora obtida com o acréscimo de invariantes dinâmicas da forma proposta no sistema de RAL utilizado nos testes resultou na diminuição da taxa de erro igual (EER) em 17,65%, acarretando um intrínseco aumento de processamento. Para sinais de voz contaminados com ruído, o benefício atingido com o sistema proposto foi verificado para relações sinal ruído (SNRs) maiores que aproximadamente 5 dB. O avanço científico potencial advindo dos resultados alcançados com este trabalho não se limita às invariantes dinâmicas utilizadas, e nem mesmo à caracterização de locutores. A comprovação da possibilidade de utilização de técnicas da Teoria do Caos em sinais de voz permitirá expandir os conceitos utilizados em qualquer sistema que processe digitalmente sinais de voz. O avanço das técnicas de Sistemas Dinâmicos Não-Lineares, como a concepção de invariantes dinâmicas mais representativas e robustas, implicará também no avanço dos sistemas que utilizarem esse novo conceito para tratamento de sinais vocais.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Resumo não disponível.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

O objetivo deste trabalho é descrever e analisar a gramaticalização de a gente no português brasileiro. A análise está apoiada nas concepções teóricas de gramaticalização e na Teoria da Variação Laboviana. O corpus da pesquisa é constituído de dois tipos de dados: fala de personagens de onze peças de teatro de autores gaúchos, correspondente a um período de cem anos (1896 até 1995), e fala de sessenta indivíduos das cidades gaúchas de Jaguarão e Pelotas. As entrevistas foram realizadas em 2000 e 2001: trinta e seis em Pelotas (VarX) e vinte e quatro em Jaguarão (BDS Pampa). Os corpora possuem uma divisão equilibrada de informantes por gênero, faixa etária e classe social. Os resultados do uso de a gente indicam que: a gramaticalização de a gente decorre de vários processos de mudança concomitantes e inter-relacionados – mudança semântica, sintática, morfológica e fonológica; a partir da década de 1960 a forma a gente cristaliza-se como pronome pessoal de primeira pessoa do plural; a utilização de a gente, em variação com nós, está relacionada a condicionadores lingüísticos de natureza discursiva, sintática, morfológica e fonológica; o uso de a gente em Pelotas está em um estágio mais adiantado do que em Jaguarão; a divisão por classe social indica que em Pelotas a mudança acontece ‘de cima para baixo’ e em Jaguarão ‘de baixo para cima’; o uso de a gente é maior nas faixas etárias mais jovens nas duas comunidades; em Pelotas ocorre a redução (mudança incipiente) de a gente para a ‘ente (~ ‘ente); a propagação da mudança ocorre dos grandes centros para os menores.