999 resultados para Reconhecimento da fala
Resumo:
Muitas pesquisas têm buscado investigar a interferência do ruído na percepção de fala de ouvintes. OBJETIVO: Este estudo foi realizado com a finalidade de pesquisar os efeitos da perda auditiva e da idade no reconhecimento de fala na presença de ruído, utilizando-se dois tipos de ruído. FORMA DE ESTUDO: Clínico prospectivo. MATERIAL E MÉTODO: Três grupos experimentais foram organizados, sendo um composto por adultos sem alteração auditiva, outro por sujeitos adultos com perda auditiva em freqüências altas e, por último, um grupo de idosos, com configuração audiométrica semelhante ao grupo de adultos com perda. Todos os sujeitos realizaram tarefas de reconhecimento de fala em silêncio, na presença de ruído branco de espectro ampliado e ruído "cocktail party", na mesma relação sinal/ruído (0 dB), em ambas as orelhas. RESULTADO: Os resultados mostraram que o ruído interfere negativamente no reconhecimento de fala em todos os grupos. O desempenho dos sujeitos com audição normal foi superior aos grupos com perda auditiva. Contudo, o grupo de idosos teve pior desempenho, sendo mais evidente com o ruído "coktail party". Observou-se também que todos os sujeitos apresentaram melhores resultados na segunda orelha testada, mostrando o efeito de aprendizagem. CONCLUSÃO: Estes achados apontam que a idade, além da perda auditiva contribui para o baixo desempenho de idosos na percepção de fala na presença de ruído e que o ruído "cocktail party" se mostrou adequado para esta investigação.
Resumo:
Esta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis para esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que se apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas, que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistemas de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridade entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual se publicaram vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, o código fonte de todo sistema de treino e conversão e um demonstrador online.
Resumo:
O reconhecimento automático de voz vem sendo cada vez mais útil e possível. Quando se trata de línguas como a Inglesa, encontram-se no mercado excelentes reconhecedores. Porem, a situação não e a mesma para o Português Brasileiro, onde os principais reconhecedores para ditado em sistemas desktop que já existiram foram descontinuados. A presente dissertação alinha-se com os objetivos do Laboratório de Processamento de Sinais da Universidade Federal do Pará, que é o desenvolvimento de um reconhecedor automático de voz para Português Brasileiro. Mais especificamente, as principais contribuições dessa dissertação são: o desenvolvimento de alguns recursos necessários para a construção de um reconhecedor, tais como: bases de áudio transcrito e API para desenvolvimento de aplicações; e o desenvolvimento de duas aplicações: uma para ditado em sistema desktop e outra para atendimento automático em um call center. O Coruja, sistema desenvolvido no LaPS para reconhecimento de voz em Português Brasileiro. Este alem de conter todos os recursos para fornecer reconhecimento de voz em Português Brasileiro possui uma API para desenvolvimento de aplicativos. O aplicativo desenvolvido para ditado e edição de textos em desktop e o SpeechOO, este possibilita o ditado para a ferramenta Writer do pacote LibreOffice, alem de permitir a edição e formatação de texto com comandos de voz. Outra contribuição deste trabalho e a utilização de reconhecimento automático de voz em call centers, o Coruja foi integrado ao software Asterisk e a principal aplicação desenvolvida foi uma unidade de resposta audível com reconhecimento de voz para o atendimento de um call center nacional que atende mais de 3 mil ligações diárias.
Resumo:
Este trabalho visa propor uma solução contendo um sistema de reconhecimento de fala automático em nuvem. Dessa forma, não há necessidade de um reconhecedor sendo executado na própria máquina cliente, pois o mesmo estará disponível através da Internet. Além do reconhecimento automático de voz em nuvem, outra vertente deste trabalho é alta disponibilidade. A importância desse tópico se d´a porque o ambiente servidor onde se planeja executar o reconhecimento em nuvem não pode ficar indisponível ao usuário. Dos vários aspectos que requerem robustez, tal como a própria conexão de Internet, o escopo desse trabalho foi definido como os softwares livres que permitem a empresas aumentarem a disponibilidade de seus serviços. Dentre os resultados alcançados e para as condições simuladas, mostrou-se que o reconhecedor de voz em nuvem desenvolvido pelo grupo atingiu um desempenho próximo ao do Google.
Resumo:
A perda auditiva no idoso acarreta em dificuldade na percepção da fala. O teste comumente utilizado na logoaudiometria é a pesquisa do índice de reconhecimento de fala máximo (IR-Max) em uma única intensidade de apresentação da fala. Entretanto, o procedimento mais adequado seria a realização do teste em diversas intensidades, visto que o índice de acerto depende da intensidade da fala no momento do teste e está relacionado com o grau e configuração da perda auditiva. A imprecisão na obtenção do IR-Max poderá gerar uma hipótese diagnóstica errônea e o insucesso no processo de intervenção na perda auditiva. Objetivo: Verificar a interferência do nível de apresentação da fala, no teste de reconhecimento de fala, em idosos com perda auditiva sensorioneural com diferentes configurações audiométricas. Métodos: Participaram 64 idosos, 120 orelhas (61 do gênero feminino e 59 do gênero masculino), idade entre 60 e 88 anos, divididos em grupos: G1- composto por 23 orelhas com configuração horizontal, G2- 55 orelhas com configuração descendente, G3- 42 orelhas com configuração abrupta. Os critérios de inclusão foram: perda auditiva sensorioneural de grau leve a severo, não usuário de aparelho de amplificação sonora individual (AASI), ou com tempo de uso inferior a dois meses, e ausência de alterações cognitivas. Foram realizados os seguintes procedimentos: pesquisas do limiar de reconhecimento de fala (LRF), do índice de reconhecimento de fala (IRF) em diversas intensidades e do nível de máximo conforto (MCL) e desconforto (UCL) para a fala. Para tal, foram utilizadas listas com 11 monossílabos, para diminuir a duração do teste. A análise estatística foi composta pelo teste Análise de Variância (ANOVA) e teste de Tukey. Resultados: A configuração descendente foi a de maior ocorrência. Indivíduos com configuração horizontal apresentaram índice médio de acerto mais elevado de reconhecimento de fala. Ao considerar o total avaliado, 27,27% dos indivíduos com configuração horizontal revelaram o IR-Max no MCL, assim como 38,18% com configuração descendente e 26,19% com configuração abrupta. O IR-Max foi encontrado no UCL, em 40,90% dos indivíduos com configuração horizontal, 45,45% com configuração descendente e 28,20% com configuração abrupta. Respectivamente, o maior e o menor índice médio de acerto foram encontrados em: G1- 30 e 40 dBNS; G2- 50 e 10 dBNS; G3- 45 e 10 dBNS. Não há uma única intensidade de fala a ser utilizada em todos os tipos de configurações audiométricas, entretanto, os níveis de sensação que identificaram os maiores índices médios de acerto foram: G1- 20 a 30 dBNS, G2- 20 a 50 dBNS; G3- 45 dBNS. O MCL e o UCL-5 dB para a fala não foram eficazes para determinar o IR-Max. Conclusões: O nível de apresentação teve influência no desempenho no reconhecimento de fala para monossílabos em idosos com perda auditiva sensorioneural em todas as configurações audiométricas. A perda auditiva de grau moderado e a configuração audiométrica descendente foram mais frequentes nessa população, seguida da abrupta e horizontal.
Resumo:
OBJETIVOS: Avaliar os efeitos das diferentes relações sinal/ruído no reconhecimento da fala com o implante coclear (IC); comparar o reconhecimento da fala no ruído com diferentes tipos de implantes cocleares (ICs) multicanais e avaliar o grau de dificuldade dos usuários de IC em situações com ruído competitivo no dia-a-dia. FORAMA DE ESTUDO: coorte transversal. MATERIAL E MÉTODO: Quarenta adultos com deficiência auditiva pós-lingual, com os IC Nucleus 22, Nucleus 24, Combi 40, Combi 40+ e Clarion. Foi avaliado o reconhecimento das sentenças CPA no silêncio e nas relações S/R de +15 dB, +10 dB, +5 dB e aplicado o questionário Social Hearing Handicap Index (SHHI) para a auto-avaliação do desempenho com o IC. RESULTADOS E CONCLUSÕES: Os usuários de todos os tipos de IC apresentaram redução significativa dos índices de reconhecimento de sentenças CPA em função da diminuição da relação S/R, a curva das medianas de reconhecimento das sentenças CPA alcançou 50% na relação S/R de +10 dB. Não houve diferença estatisticamente significante nos índices de reconhecimento das sentenças CPA e escores de dificuldade do SHHI, obtidos com os diferentes tipos de ICs. As dificuldades dos usuários de IC foram raras nas situações de silêncio e ocasionais nas situações com ruído competitivo no questionário SHHI.
Resumo:
A perda auditiva associada ao envelhecimento refere-se à soma de perdas auditivas resultantes da degeneração fisiológica causada por exposição ao ruído, agentes ototóxicos e prejuízos causados por desordens e tratamentos médicos. Afeta cerca de 60% de todas as pessoas com idade acima de 65 anos. OBJETIVO: Verificar a degeneração do sistema auditivo no decorrer da idade através de medidas supraliminares e de sensibilidade auditiva. MATERIAL E MÉTODO: Estudo de coorte contemporânea com corte transversal. Foram avaliados 211 idosos, com idade média de 75,24 anos, sendo 61 do sexo masculino e 150 do sexo feminino. Os indivíduos foram submetidos a uma anamnese e à avaliação audiológica básica e divididos em quatro grupos, de acordo com a faixa etária. RESULTADOS: Declínio significativo do limiar nas 4 faixas etárias estabelecidas, diminuição do índice percentual de reconhecimento de fala, diferença significante com relação ao gênero. CONCLUSÃO: Com o avanço da idade, ocorreu um aumento gradual no grau da perda auditiva, os homens apresentaram limiares mais rebaixados na freqüência de 4000Hz em comparação com as mulheres e na inteligibilidade de fala observou-se decréscimo gradativo com o aumento da idade.
Resumo:
Em perdas auditivas de grau moderado a severo nas freqüências altas, a lesão coclear pode estar relacionada a "zonas mortas", regiões onde as células ciliadas internas e/ou neurônios adjacentes não são funcionais. OBJETIVO: Avaliar o reconhecimento de fala em pacientes com e sem zonas mortas na cóclea em freqüências altas. MATERIAL e MÉTODO: Estudo clínico e experimental de 30 indivíduos adultos, distribuídos em dois grupos: grupo 1 - 15 indivíduos sem zonas mortas, e grupo 2 - 15 com zonas mortas na cóclea. Os pacientes foram submetidos à pesquisa do índice de reconhecimento de fala, limiar de reconhecimento de sentenças, sem e com ruído competitivo. Os testes de fala foram realizados sem prótese, com próteses auditivas amplificando a faixa de freqüências de 100 a 8000 Hz (programa 1) e com amplificação restrita, 100 a 2560 Hz (programa 2). RESULTADOS: O grupo 1 apresentou melhor desempenho utilizando as próteses auditivas no programa 1. Já o grupo 2 obteve melhor desempenho com o programa 2. CONCLUSÕES: Pacientes sem zonas mortas na cóclea obtêm maior benefício com a amplificação em freqüências altas. Na presença de zonas mortas em freqüências altas, o melhor desempenho é obtido com a amplificação restrita nestas freqüências.
Resumo:
Em idosos, os resultados da avaliação comportamental das vias auditivas centrais são considerados de difícil interpretação devido à possível interferência do comprometimento das vias auditivas periféricas. OBJETIVO: Avaliar a eficiência das funções auditivas centrais de idosos que relatam ouvir bem. MATERIAL E MÉTODO: Estudo de casos que incluiu 40 indivíduos na faixa etária de 60 a 75 anos. Os pacientes foram submetidos à avaliação do processamento auditivo que constou de anamnese, exame otorrinolaringológico, audiometria tonal liminar, limiar de reconhecimento de fala, índice de reconhecimento de fala, imitanciometria, pesquisa de reflexos estapedianos, teste de identificação de sentenças sintéticas com mensagem competitiva ipsilateral, teste de padrões de freqüência e teste de dissílabos alternados por meio de tarefa dicótica. RESULTADOS: Gênero, faixa etária e perda auditiva não influenciaram os resultados dos testes de padrões de freqüência e dissílabos alternados por meio de tarefa dicótica; faixa etária e perda auditiva influenciaram os resultados do teste de identificação de sentenças com mensagem competitiva ipsilateral. Porcentagens de acertos abaixo dos padrões da normalidade de adultos foram observadas nos três testes que acessam as funções auditivas centrais. CONCLUSÃO: Indivíduos idosos que relatam ouvir bem apresentam prevalência relevante de sinais de ineficiência das funções auditivas centrais.
Resumo:
A implantação de programas de reabilitação para o deficiente auditivo idoso é de grande importância. OBJETIVO: Verificar a eficácia de um programa de treinamento auditivo formal em idosos que receberam próteses auditivas há no mínimo três meses, por meio de testes de reconhecimento de fala e questionário de auto-avaliação. MÉTODO: Estudo de coorte contemporânea longitudinal. Foram selecionados 13 idosos usuários de próteses auditivas intra-aurais em adaptação binaural, de ambos os sexos, com idade média de 65,30 anos. Este grupo foi subdividido aleatoriamente em Grupo Experimental e Grupo Controle, por meio de sorteio. O Grupo Experimental foi submetido a sete sessões de treinamento auditivo formal, visando estimular as habilidades auditivas de fechamento auditivo, memória, atenção, figura-fundo e integração binaural. Os participantes foram avaliados por três testes comportamentais e um questionário de auto-avaliação. RESULTADOS: Os idosos do Grupo Experimental apresentaram desempenho significantemente melhor nas avaliações após o treinamento auditivo e também em relação ao Grupo Controle. CONCLUSÃO: O programa de treinamento auditivo em cabina acústica, associado ao uso de próteses auditivas, melhora o desempenho das habilidades de reconhecimento de fala e reduz a percepção do handicap auditivo de idosos usuários de próteses auditivas intra-aurais.
Resumo:
Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
Resumo:
Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
Resumo:
In the present days it is critical to identify the factors that contribute to the quality of the audiologic care provided. The hearing aid fitting model proposed by the Brazilian Unified Health System (SUS) implies multidisciplinary care. This leads to some relevant and current questions. OBJECTIVE: To evaluate and compare the results of the hearing aid fitting model proposed by the SUS with a more compact and streamlined care. METHOD: We conducted a prospective longitudinal study with 174 participants randomly assigned to two groups: SUS Group and Streamline Group. For both groups we assessed key areas related to hearing aid fitting through the International Outcome Inventory for Hearing Aids (IOI-HA) questionnaire, in addition to evaluating the results of Speech Recognition Index (SRI) 3 and 9 months after fitting. RESULTS: Both groups had the same improvement related to the speech recognition after nine months of AASI use, and the IOI-HA didn't show any statically significant difference on three and nine months. CONCLUSION: The two strategies of care did not differ, from the clinical point of view, as regards the hearing aid fitting results obtained upon the evaluation of patients in the short and medium term, thus changes in the current model of care should be considered.
Resumo:
OBJETIVO: Verificar a relação entre limiares audiométricos, autopercepção do handicap e tempo para procura de tratamento em indivíduos atendidos em um serviço público de saúde auditiva. MÉTODOS: Trata-se de estudo retrospectivo, com análise de prontuários de 152 idosos e 48 adultos deficientes auditivos. As médias de limiares audiométricos ISO (500 Hz a 4 kHz) e de altas frequências (2 a 6 kHz), os limiares de reconhecimento de fala e a pontuação total e das subescalas social e emocional dos Questionários de Handicap Auditivo para Adultos (HHIA) e Idosos (HHIE) foram comparados com o tempo compreendido entre o início da queixa auditiva e o momento da procura por tratamento. RESULTADOS: O tempo médio para procura do tratamento foi de 7,6 anos. Não houve diferença entre adultos e idosos para as médias dos limiares ISO e de alta frequência, pontuação total e das subescalas do HHIA/E, e tempo para procura do tratamento. Correlações negativas fracas, porém significativas, foram observadas entre os limiares audiométricos e o tempo para procura de tratamento. Não foram encontradas relações entre o tempo para procura de tratamento e as variáveis referentes à escolaridade, nível sócio econômico e percepção do handicap. CONCLUSÃO: Os limiares audiométricos parecem influenciar a procura pelo tratamento. A despeito dos avanços tecnológicos e mudanças no acesso à informação e ao tratamento, o tempo de procura pelo tratamento é similar ao encontrado há 30 anos.