19 resultados para Processamento de voz
em Universidade Federal do Pará
Resumo:
O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina.
Resumo:
Este trabalho apresenta o aplicativo DialogBuilder, uma ferramenta de código aberto escrita em Java que disponibiliza ao usuário uma interface para projeto de sistemas de diálogos e exportação destes para implantação no software Asterisk, o mais popular framework VoIP. O DialogBuilder disponibiliza um wizard para que o usuário leigo possa projetar seu sistema sem precisar aprender a programar para Asterisk. O software separa a fase de concepção do diálogo de sua codificação e se posiciona para tornar técnica e economicamente viável, mesmo para pequenas empresas, construir e manter sistemas de diálogo para aplicações telefônicas.
Resumo:
Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial.
Resumo:
A fala é um mecanismo natural para a interação homem-máquina. A tecnologia de processamento de fala (ou voz) encontra-se bastante avançada e, em escala mundial, existe vasta disponibilidade de software, tanto comercial quanto acadêmico. a maioria assume a disponibilidade de um reconhecedor e/ou sintetizador, que pode ser programado via API. Ao contrário do que ocorre, por exemplo, na língua inglesa, inexiste atualmente uma gama variada de recursos para o português brasileiro. O presente trabalho discute alguns esforços realizados nesse sentido, avaliando a utilização da SAPI E JSAPI, que são as APIs da Microsoft e Sun, respectivamente. Serão apresentados, outrossim, exemplos de aplicativos: uma aplicação CALL (baseada em SAPI) usando síntese em inglês e português, reconhecimento em inglês e agentes visuais; e uma proposta para agregar reconhecimento e síntese de voz ao chat IRC através de APIs Java.
Resumo:
Para compor um sistema de Reconhecimento Automático de Voz, pode ser utilizada uma tarefa chamada Classificação Fonética, onde a partir de uma amostra de voz decide-se qual fonema foi emitido por um interlocutor. Para facilitar a classificação e realçar as características mais marcantes dos fonemas, normalmente, as amostras de voz são pré- processadas através de um fronl-en'L Um fron:-end, geralmente, extrai um conjunto de parâmetros para cada amostra de voz. Após este processamento, estes parâmetros são insendos em um algoritmo classificador que (já devidamente treinado) procurará decidir qual o fonema emitido. Existe uma tendência de que quanto maior a quantidade de parâmetros utilizados no sistema, melhor será a taxa de acertos na classificação. A contrapartida para esta tendência é o maior custo computacional envolvido. A técnica de Seleção de Parâmetros tem como função mostrar quais os parâmetros mais relevantes (ou mais utilizados) em uma tarefa de classificação, possibilitando, assim, descobrir quais os parâmetros redundantes, que trazem pouca (ou nenhuma) contribuição à tarefa de classificação. A proposta deste trabalho é aplicar o classificador SVM à classificação fonética, utilizando a base de dados TIMIT, e descobrir os parâmetros mais relevantes na classificação, aplicando a técnica Boosting de Seleção de Parâmetros.
Resumo:
O Arranjo Produtivo Local (APL) de Processamento de Frutas do Nordeste paraense, Região Metropolitana de Belém e ilha do Marajó, na Amazônia Oriental Brasileira, se destina ao atendimento dos mercados local, regional e nacional. O APL oferta produtos a partir de frutas regionais e exóticas. A base rural agrícola apresenta capacidade produtiva crescente constituída por agricultores familiares. Esses agricultores têm, relativamente, reorientado suas produções para diversificação e complexificação, onde a fruticultura tem destaque nesse processo. O APL se diferencia tanto das estruturas informais (micro-escala) de processamento do fruto açaí (mercado local), quanto das indústrias de larga escala voltadas às exportações. O APL apresenta taxas de crescimento elevadas, porém, com potencial de rentabilidade limitado por condições estruturais. Por um lado, essas limitações refletem o baixo nível da capacidade de governança e de cooperação entre as empresas. De outro, são o resultado de uma baixa capacidade de interação do conjunto de empresas do APL com o ambiente institucional. Assim, há dificuldades para consolidar e elevar a capacidade produtiva e inovativa das empresas.
Resumo:
Sistema Texto-Fala (TTS) é atualmente uma tecnologia madura que é utilizada em muitas aplicações. Alguns módulos de um sistema TTS são dependentes do idioma e, enquanto existem muitos recursos disponíveis para a língua inglesa, os recursos para alguns idiomas ainda são limitados. Este trabalho descreve o desenvolvimento de um sistema TTS completo para português brasileiro (PB), o qual também apresenta os recursos já disponíveis. O sistema usa a plataforma MARY e o processo de síntese da voz é baseado em cadeias escondidas de Markov (HMM). Algumas das contribuições deste trabalho consistem na implementação de silabação, determinação da sílaba tônica e conversão grafema-fonema (G2P). O trabalho também descreve as etapas para a organização dos recursos desenvolvidos e a criação de uma voz em PB junto ao MARY. Estes recursos estão disponíveis e facilita a pesquisa na normalização de texto e síntese baseada em HMM par o PB.
Resumo:
Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão.
Resumo:
Em Capanema, no nordeste do Pará, mulheres rezadeiras, motivadas por fotografias, tecem narrativas históricas desvelando trajetórias de migrantes nordestinos para o município, elaborando representações do conflituoso cotidiano da vida urbana. Por meio de sensibilidades urdidas em simbiose de corpo, voz e imagens, as narradoras produzem práticas de leitura que permitem questionar a escrita convencional da história local, consagrada nos jogos mentais de centenas de moradores. Este artigo, portanto, seguindo a metodologia da História Oral e dialogando com intelectuais dos Estudos Culturais e Antropologia da Religião, ao cruzar a leitura de imagens oficiais com a interpretação dada pelas rezadeiras sobre tramas e dramas da urbe, numa perspectiva "vista de baixo" e popular, esgarça imaginários cristalizados, trazendo para a escrita da história outras experiências e paisagens culturais comumente postas nas dobras de retratos emoldurados pelo discurso do poder hegemônico.
Resumo:
A monitorização ambulatorial do eletrocardiograma (ECG) permite seguir as atividades cotidianas do paciente durante períodos de 24 horas (ou ainda maiores) possibilitando o estudo de casos que pudessem ter episódios arrítmicos fatais. Entretanto, o maior desafio tecnológico que este tipo de monitorização enfrenta é a perda de informação pela presença de ruídos e artefatos quando o paciente se move. A análise do intervalo QT de despolarização e repolarização ventricular do eletrocardiograma superficial é uma técnica não invasiva com um grande valor para a diagnose e prognósticos de cardiopatias e neuropatias, assim como para a predição da morte cardíaca súbita. A análise do desvio padrão do intervalo QT proporciona informação sobre a dispersão (temporal ou espacial) da repolarização ventricular, entretanto a influencia do ruído provoca erros na detecção do final da onda T que são apreciáveis devido ao fato dos valores pequenos do desvio padrão do QT tanto para sujeitos patológicos e quanto para os sãos. O objetivo geral desta tese é melhorar os métodos de processamento do sinal de ECG ambulatorial usando inteligência computacional, especificamente os métodos relacionados com a detecção do final da onda T, e os de reconhecimento morfológico de batimentos que invalidam a análise da variabilidade do intervalo QT. É proposto e validado (em termos de exatidão e precisão) um novo método e algoritmo para estimar o final da onda T baseado no calculo de áreas de trapézios, empregando sinais da base de dados QT da Physionet. O desempenho do método proposto foi testado e comparado com um dos métodos mais usados para detectar o final da onda T: o método baseado no limiar na primeira derivada. O método de inteligência computacional sugerido combina a extração de características usando o método de análise de componentes principais não lineares e a rede neural de tipo perceptron multicamada. O método de áreas de trapézios teve um bom desempenho em condições ruidosas e não depende de nenhum limiar empírico, sendo adequado para situações com níveis de elevados de ruído de banda larga. O método de reconhecimento morfológico de batimentos foi avaliado com sinais ambulatoriais com e sem artefatos pertencentes a bases de dados de prestigio internacional, e mostrou um bom desempenho.
Resumo:
O reconhecimento automático de voz vem sendo cada vez mais útil e possível. Quando se trata de línguas como a Inglesa, encontram-se no mercado excelentes reconhecedores. Porem, a situação não e a mesma para o Português Brasileiro, onde os principais reconhecedores para ditado em sistemas desktop que já existiram foram descontinuados. A presente dissertação alinha-se com os objetivos do Laboratório de Processamento de Sinais da Universidade Federal do Pará, que é o desenvolvimento de um reconhecedor automático de voz para Português Brasileiro. Mais especificamente, as principais contribuições dessa dissertação são: o desenvolvimento de alguns recursos necessários para a construção de um reconhecedor, tais como: bases de áudio transcrito e API para desenvolvimento de aplicações; e o desenvolvimento de duas aplicações: uma para ditado em sistema desktop e outra para atendimento automático em um call center. O Coruja, sistema desenvolvido no LaPS para reconhecimento de voz em Português Brasileiro. Este alem de conter todos os recursos para fornecer reconhecimento de voz em Português Brasileiro possui uma API para desenvolvimento de aplicativos. O aplicativo desenvolvido para ditado e edição de textos em desktop e o SpeechOO, este possibilita o ditado para a ferramenta Writer do pacote LibreOffice, alem de permitir a edição e formatação de texto com comandos de voz. Outra contribuição deste trabalho e a utilização de reconhecimento automático de voz em call centers, o Coruja foi integrado ao software Asterisk e a principal aplicação desenvolvida foi uma unidade de resposta audível com reconhecimento de voz para o atendimento de um call center nacional que atende mais de 3 mil ligações diárias.
Resumo:
O objetivo deste estudo foi estimar a entropia conjunta do sistema visual humano no domínio do espaço e no domínio das freqüências espaciais através de funções psicométricas. Estas foram obtidas com testes de discriminação de estímulos com luminância ou cromaticidade moduladas por funções de Gábor. A essência do método consistiu em avaliar a entropia no domínio do espaço, testando-se a capacidade do sujeito em discriminar estímulos que diferiam apenas em extensão espacial, e avaliar a entropia no domínio das freqüências espaciais, testando-se a capacidade do sujeito em discriminar estímulos que diferiam apenas em freqüência espacial. A entropia conjunta foi calculada, então, a partir desses dois valores individuais de entropia. Três condições visuais foram estudadas: acromática, cromática sem correção fina para eqüiluminância e cromática com correção para eqüiluminância através de fotometria com flicker heterocromático. Quatro sujeitos foram testados nas três condições, dois sujeitos adicionais foram testados na condição cromática sem eqüiluminância fina e um sétimo sujeito também fez o teste acromático. Todos os sujeitos foram examinados por oftalmologista e considerados normais do ponto de vista oftálmico, não apresentando relato, sintomas ou sinais de disfunções visuais ou de moléstias potencialmente capazes de afetar o sistema visual. Eles tinham acuidade visual normal ou corrigida de no mínimo 20/30. O trabalho foi aprovado pela Comissão de Ética em Pesquisa do Núcleo de Medicina Tropical da UFPA e obedeceu às recomendações da Declaração de Helsinki. As funções de Gábor usadas para modulação de luminância ou cromaticidade compreenderam redes senoidais unidimensionais horizontais, moduladas na direção vertical, dentro de envelopes gaussianos bidimensionais cuja extensão espacial era medida pelo desvio padrão da gaussiana. Os estímulos foram gerados usando-se uma rotina escrita em Pascal num ambiente Delphi 7 Enterprise. Foi utilizado um microcomputador Dell Precision 390 Workstation e um gerador de estímulos CRS VSG ViSaGe para exibir os estímulos num CRT de 20”, 800 x 600 pixels, 120 Hz, padrão RGB, Mitsubishi Diamond Pro 2070SB. Nos experimentos acromáticos, os estímulos foram gerados pela modulação de luminância de uma cor branca correspondente à cromaticidade CIE1931 (x = 0,270; y = 0,280) ou CIE1976 (u’ = 0,186; v’= 0,433) e tinha luminância média de 44,5 cd/m2. Nos experimentos cromáticos, a luminância média foi mantida em 15 cd/m2 e foram usadas duas series de estímulos verde-vermelhos. Os estímulos de uma série foram formados por duas cromaticidades definidas no eixo M-L do Espaço de Cores DKL (CIE1976: verde, u’=0,131, v’=0,380; vermelho, u’=0,216, v’=0,371). Os estímulos da outra série foram formados por duas cromaticidades definidas ao longo de um eixo horizontal verde-vermelho definido no Espaço de Cores CIE1976 (verde, u’=0,150, v’=0,480; vermelho, u’=0,255, v’=0,480). Os estímulos de referência eram compostos por redes de três freqüências espaciais diferentes (0,4, 2 e 10 ciclos por grau) e envelope gaussiano com desvio padrão de 1 grau. Os estímulos de testes eram compostos por uma entre 19 freqüências espaciais diferentes em torno da freqüência espacial de referência e um entre 21 envelopes gaussianos diferentes com desvio padrão em torno de 1 grau. Na condição acromática, foram estudados quatro níveis de contraste de Michelson: 2%, 5%, 10% e 100%. Nas duas condições cromáticas foi usado o nível mais alto de contraste agregado de cones permitidos pelo gamut do monitor, 17%. O experimento consistiu numa escolha forçada de dois intervalos, cujo procedimento de testagem compreendeu a seguinte seqüência: i) apresentação de um estímulo de referência por 1 s; ii) substituição do estímulo de referência por um fundo eqüiluminante de mesma cromaticidade por 1 s; iii) apresentação do estímulo de teste também por 1 s, diferindo em relação ao estímulo de referência seja em freqüência espacial, seja em extensão espacial, com um estímulo sonoro sinalizando ao sujeito que era necessário responder se o estímulo de teste era igual ou diferente do estímulo de referência; iv) substituição do estímulo de teste pelo fundo. A extensão espacial ou a freqüência espacial do estímulo de teste foi mudada aleatoriamente de tentativa para tentativa usando o método dos estímulos constantes. Numa série de 300 tentativas, a freqüencia espacial foi variada, noutra série também de 300 tentativas, a extensão espacial foi variada, sendo que cada estímulo de teste em cada série foi apresentado pelo menos 10 vezes. A resposta do indivíduo em cada tentativa era guardada como correta ou errada para posterior construção das curvas psicométricas. Os pontos experimentais das funções psicométricas para espaço e freqüência espacial em cada nível de contraste, correspondentes aos percentuais de acertos, foram ajustados com funções gaussianas usando-se o método dos mínimos quadrados. Para cada nível de contraste, as entropias para espaço e freqüência espacial foram estimadas pelos desvios padrões dessas funções gaussianas e a entropia conjunta foi obtida multiplicando-se a raiz quadrada da entropia para espaço pela entropia para freqüência espacial. Os valores de entropia conjunta foram comparados com o mínimo teórico para sistemas lineares, 1/4π ou 0,0796. Para freqüências espaciais baixas e intermediárias, a entropia conjunta atingiu níveis abaixo do mínimo teórico em contrastes altos, sugerindo interações não lineares entre dois ou mais mecanismos visuais. Este fenômeno occorreu em todas as condições (acromática, cromática e cromática eqüiluminante) e foi mais acentuado para a frequência espacial de 0,4 ciclos / grau. Uma possível explicação para este fenômeno é a interação não linear entre as vias visuais retino-genículo-estriadas, tais como as vias K, M e P, na área visual primária ou em níveis mais altos de processamento neural.
Resumo:
Apresentamos dois métodos de interpretação de dados de campos potenciais, aplicados à prospecção de hidrocarbonetos. O primeiro emprega dados aeromagnéticos para estimar o limite, no plano horizontal, entre a crosta continental e a crosta oceânica. Este método baseia-se na existência de feições geológicas magnéticas exclusivas da crosta continental, de modo que as estimativas das extremidades destas feições são usadas como estimativas dos limites da crosta continental. Para tanto, o sinal da anomalia aeromagnética na região da plataforma, do talude e da elevação continental é amplificado através do operador de continuação analítica para baixo usando duas implementações: o princípio da camada equivalente e a condição de fronteira de Dirichlet. A maior carga computacional no cálculo do campo continuado para baixo reside na resolução de um sistema de equações lineares de grande porte. Este esforço computacional é minimizado através do processamento por janelas e do emprego do método do gradiente conjugado na resolução do sistema de equações. Como a operação de continuação para baixo é instável, estabilizamos a solução através do funcional estabilizador de primeira ordem de Tikhonov. Testes em dados aeromagnéticos sintéticos contaminados com ruído pseudo-aleatório Gaussiano mostraram a eficiência de ambas as implementações para realçar os finais das feições magnéticas exclusivas da crosta continental, permitindo o delineamento do limite desta com a crosta oceânica. Aplicamos a metodologia em suas duas implementações a dados aeromagnéticos reais de duas regiões da costa brasileira: Foz do Amazonas e Bacia do Jequitinhonha. O segundo método delineia, simultaneamente, a topografia do embasamento de uma bacia sedimentar e a geometria de estruturas salinas contidas no pacote sedimentar. Os modelos interpretativos consistem de um conjunto de prismas bidimensionais verticais justapostos, para o pacote sedimentar e de prismas bidimensionais com seções verticais poligonais para as estruturas salinas. Estabilizamos a solução, incorporando características geométricas do relevo do embasamento e das estruturas salinas compatíveis com o ambiente geológico através dos estabilizadores da suavidade global, suavidade ponderada e da concentração de massa ao longo de direções preferenciais, além de vínculos de desigualdade nos parâmetros. Aplicamos o método a dados gravimétricos sintéticos produzidos por fontes 2D simulando bacias sedimentares intracratônicas e marginais apresentando densidade do pacote sedimentar variando com a profundidade segundo uma lei hiperbólica e abrigando domos e almofadas salinas. Os resultados mostraram que o método apresenta potencial para delinear, simultaneamente, as geometrias tanto de almofadas e domos salinos, como de relevos descontínuos do embasamento. Aplicamos o método, também, a dados reais ao longo de dois perfis gravimétricos sobre as Bacias de Campos e do Jequitinhonha e obtivemos interpretações compatíveis com a geologia da área.
Resumo:
No presente trabalho interpreta-se a poesia de Max Martins, focando, principalmente, a abertura que ela oferece para o acontecer do silêncio da linguagem. Pensa-se, aqui, no silêncio como uma questão que fala e se confunde com a questão da essência da linguagem e, por conseguinte, também com a da essência do poético. Sendo assim, a dissertação desdobra-se em discussões poético-filosóficas, articulando essas duas esferas criativas nas várias dimensões em que a obra martiniana manifesta o silêncio: na linguagem, no diálogo com o pensamento e a poesia orientais, no erotismo e na verbivocovisualidade. Busca-se a escuta da “voz do silêncio”, como aparece no título do trabalho. Nessa travessia, importante dizer, as reflexões implementadas pelo filósofo alemão Martin Heidegger acerca da linguagem, assim como suas ideias sobre hermenêutica poética, são de grande valia. Certamente, além de Heidegger, há outros pensadores cujos nomes ecoam pelo trabalho, mas o do alemão merece destaque, pois a compreensão da essência da linguagem como fala silenciosa encontra abrigo tanto em sua filosofia como na obra poética de Max Martins. Realizando um diálogo entre poesia e filosofia no que elas têm em comum — o pensamento de questões —, aqui não se aplicou uma teoria prévia ao acontecer da arte. Procurou-se, ao contrário, empreender ao longo desta jornada interpretativa a escuta da poética que os próprios textos martinianos põe em obra.
Resumo:
O presente trabalho teve como objetivos a análise e atenuação de múltiplas de superfície livre, o processamento e o imageamento de dados sísmicos marinhos visando obter imagens migradas de utilidade à interpretação geológica voltada à exploração de petróleo. Foi dada uma atenção sistemática ao estudo de múltiplas de superfície livre do ponto de vista do filtro de predição baseado na teoria da comunicação com o objetivo de melhor aplicar o filtro WH de deconvolução preditiva, na etapa de processamento, posterior à correção NMO, embora outros métodos possam ser considerados mais competitivos. A identificação e a atenuação de reflexões múltiplas em dados sísmicos reais continua como um grande desafio no processamento de dados sísmicos, uma vez que elas são consideradas como ruído. No entanto, sendo este ruído classificado como coerente, várias técnicas foram desenvolvidas objetivando sua atenuação para evitar erros em cascata nas etapas posteriores como processamento, marcação de eventos, inversão tomográfica, imageamento, e finalmente na interpretação geológica das imagens obtidas. Outro aspecto do trabalho foi estabelecer um fluxograma de processamento-imageamento sendo a atenuação de múltiplas de superfície livre uma etapa central. Foram obtidas seções migradas em tempo e em profundidade onde se permite a interpretação que se deseja. O desenvolvimento deste trabalho foi realizado com os pacotes CWP/SU e MatLab.