Aplicação de uma rede neural artificial para a avaliação da rugosidade e soprosidade vocal
Contribuinte(s) |
Brasolotto, Alcione Ghedini Montagnoli, Arlindo Neto |
---|---|
Data(s) |
28/03/2016
|
Resumo |
A avaliação perceptivo-auditiva tem papel fundamental no estudo e na avaliação da voz, no entanto, por ser subjetiva está sujeita a imprecisões e variações. Por outro lado, a análise acústica permite a reprodutibilidade de resultados, porém precisa ser aprimorada, pois não analisa com precisão vozes com disfonias mais intensas e com ondas caóticas. Assim, elaborar medidas que proporcionem conhecimentos confiáveis em relação à função vocal resulta de uma necessidade antiga dentro desta linha de pesquisa e atuação clínica. Neste contexto, o uso da inteligência artificial, como as redes neurais artificiais, indica ser uma abordagem promissora. Objetivo: Validar um sistema automático utilizando redes neurais artificiais para a avaliação de vozes rugosas e soprosas. Materiais e métodos: Foram selecionadas 150 vozes, desde neutras até com presença em grau intenso de rugosidade e/ou soprosidade, do banco de dados da Clínica de Fonoaudiologia da Faculdade de Odontologia de Bauru (FOB/USP). Dessas vozes, 23 foram excluídas por não responderem aos critérios de inclusão na amostra, assim utilizaram-se 123 vozes. Procedimentos: avaliação perceptivo-auditiva pela escala visual analógica de 100 mm e pela escala numérica de quatro pontos; extração de características do sinal de voz por meio da Transformada Wavelet Packet e dos parâmetros acústicos: jitter, shimmer, amplitude da derivada e amplitude do pitch; e validação do classificador por meio da parametrização, treino, teste e avaliação das redes neurais artificiais. Resultados: Na avaliação perceptivo-auditiva encontrou-se, por meio do teste Coeficiente de Correlação Intraclasse (CCI), concordâncias inter e intrajuiz excelentes, com p = 0,85 na concordância interjuízes e p variando de 0,87 a 0,93 nas concordâncias intrajuiz. Em relação ao desempenho da rede neural artificial, na discriminação da soprosidade e da rugosidade e dos seus respectivos graus, encontrou-se o melhor desempenho para a soprosidade no subconjunto composto pelo jitter, amplitude do pitch e frequência fundamental, no qual obteve-se taxa de acerto de 74%, concordância excelente com a avaliação perceptivo-auditiva da escala visual analógica (0,80 no CCI) e erro médio de 9 mm. Para a rugosidade, o melhor subconjunto foi composto pela Transformada Wavelet Packet com 1 nível de decomposição, jitter, shimmer, amplitude do pitch e frequência fundamental, no qual obteve-se 73% de acerto, concordância excelente (0,84 no CCI), e erro médio de 10 mm. Conclusão: O uso da inteligência artificial baseado em redes neurais artificiais na identificação, e graduação da rugosidade e da soprosidade, apresentou confiabilidade excelente (CCI > 0,80), com resultados semelhantes a concordância interjuízes. Dessa forma, a rede neural artificial revela-se como uma metodologia promissora de avaliação vocal, tendo sua maior vantagem a objetividade na avaliação. The auditory-perceptual evaluation is fundamental in the study and analysis of voice. This evaluation, however, is subjective and tends to be imprecise and variable. On the other hand, acoustic analysis allows reproducing results, although these results must be refined since the analysis is not precise enough for intense dysphonia or chaotic waves. Therefore, the will to develop measurements allowing reliable knowledge related to vocal function is not new on this research and clinical actuation field. In this context, the use of artificial intelligence such as neural networks seems to be a promising research field. Objective: to validate an automatic system using artificial neural networks for evaluation of vocal roughness and breathiness. Methods: One hundred fifty (150) voices were selected from from Clínica de Fonoaudiologia da Faculdade de Odontologia de Bauru (FOB/USP) database. These voices presented variation from neutral to intense roughness and/or breathiness. Twenty-three of them were excluded since they did not match inclusion criteria. Thus, 123 voices were used for analysis. The procedures include use of auditoryperception based on two scales: visual analog scale of 100 mm and four points numerical scale. Additionally, the characteristics of voice signals were extracted by Wavelet Packet Transform and by analysis of acoustic parameters: jitter, shimmer, derivative amplitude and pitch amplitude. Validation of classifying system was carried out by parameterization, training, test and evaluation of artificial neural networks. Results: In the auditory-perceptual evaluation, excellent interrater (p=0.85) and intrarater (0.87<p<0.93) agreement were obtained by means of Intraclass Correlation Coefficient (ICC) testing. The artificial neural network performance has achieved the best results for breathiness in the subset composed by parameters jitter, pitch amplitude and fundamental frequency. In this case, the neural network obtained a rate of 74%, demonstrating excellent concordance with auditory-perceptual evaluation for visual analog scale (0.80 ICC) and mean error of 9 mm. As for roughness evaluation, the best subset is composed by Wavelet Packet Transform with 1 resolution level, jitter, shimmer, pitch amplitude and fundamental frequency. For this case, a 73% rate was achieved (0.84 ICC) and mean error of 10mm was obtained. Conclusion: The use of artificial neural networks for roughness and breathiness evaluation present high reliability (ICC>0.80), with results similar to interrater agreement. Thus, the artificial neural network reveals a promising method for vocal evaluation, bringing objective analysis as a strong advantage. |
Formato |
application/pdf |
Identificador |
http://www.teses.usp.br/teses/disponiveis/82/82131/tde-22062016-114356/ |
Idioma(s) |
pt |
Publicador |
Biblioteca Digitais de Teses e Dissertações da USP |
Direitos |
Liberar o conteúdo para acesso público. |
Palavras-Chave | #Análise de Wavelet #Artificial intelligence #Artificial neural network #Auditory perception #Disfonia #Dysphonia #Inteligência artificial #Percepção auditiva #Qualidade da voz #Redes neurais artificiais #Voice quality #Wavelet analysis |
Tipo |
Tese de Doutorado |