5 resultados para vocales
em Universidad Politécnica de Madrid
Resumo:
La medicina ha evolucionado de forma que las imágenes digitales tienen un papel de gran relevancia para llevar a cabo el diagnóstico de enfermedades. Son muchos y de diversa naturaleza los problemas que pueden presentar el aparato fonador. Un paso previo para la caracterización de imágenes digitales de la laringe es la segmentación de las cuerdas vocales. Hasta el momento se han desarrollado algoritmos que permiten la segmentación de la glotis. El presente proyecto pretende avanzar un paso más en el estudio, procurando asimismo la segmentación de las cuerdas vocales. Para ello, es necesario aprovechar la información de color que ofrecen las imágenes, pues es lo que va a determinar la diferencia entre una región y otra de la imagen. En este proyecto se ha desarrollado un novedoso método de segmentación de imágenes en color estroboscópicas de la laringe basado en el crecimiento de regiones a partir de píxeles-semilla. Debido a los problemas que presentan las imágenes obtenidas por la técnica de la estroboscopia, para conseguir óptimos resultados de la segmentación es necesario someter a las imágenes a un preprocesado, que consiste en la eliminación de altos brillos y aplicación de un filtro de difusión anisotrópica. Tras el preprocesado, comienza el crecimiento de la región a partir de unas semillas que se obtienen previamente. La condición de inclusión de un píxel en la región se basa en un parámetro de tolerancia que se determina de forma adaptativa. Este parámetro comienza teniendo un valor muy bajo y va aumentando de forma recursiva hasta alcanzar una condición de parada. Esta condición se basa en el análisis de la distribución estadística de los píxeles dentro de la región que va creciendo. La última fase del proyecto consiste en la realización de las pruebas necesarias para verificar el funcionamiento del sistema diseñado, obteniéndose buenos resultados en la segmentación de la glotis y resultados esperanzadores para seguir mejorando el sistema para la segmentación de las cuerdas vocales. ABSTRACT Medicine has evolved so that digital images have a very important role to perform disease diagnosis. There are wide variety of problems that can present the vocal apparatus. A preliminary step for characterization of digital images of the larynx is the segmentation of the vocal folds. To date, some algorithms that allow the segmentation of the glottis have been developed. This project aims to go one step further in the study, also seeking the segmentation of the vocal folds. To do this, we must use the color information offered by images, since this is what will determine the difference between different regions in a picture. In this project a novel method of larynx color images segmentation based on region growing from a pixel seed is developed. Due to the problems of the images obtained by the technique of stroboscopy, to achieve optimal results of the segmentation is necessary a preprocessing of the images, which involves the removal of high brightness and applying an anisotropic diffusion filter. After this preprocessing, the growth of the region from previously obtained seeds starts. The condition for inclusion of a pixel in the region is based on a tolerance parameter, which is adaptively determined. It initially has a low value and this is recursively increased until a stop condition is reached. This condition is based on the analysis of the statistical distribution of the pixels within the grown region. The last phase of the project involves the necessary tests to verify the proper working of the designed system, obtaining very good results in the segmentation of the glottis and encouraging results to keep improving the system for the segmentation of the vocal folds.
Resumo:
Las patologías de la voz se han transformado en los últimos tiempos en una problemática social con cierto calado. La contaminación de las ciudades, hábitos como el de fumar, el uso de aparatos de aire acondicionado, etcétera, contribuyen a ello. Esto alcanza más relevancia en profesionales que utilizan su voz de manera frecuente, como, por ejemplo, locutores, cantantes, profesores o teleoperadores. Por todo ello resultan de especial interés las técnicas de ayuda al diagnóstico que son capaces de extraer conclusiones clínicas a partir de una muestra de la voz grabada con un micrófono, frente a otras invasivas que implican la exploración utilizando laringoscopios, fibroscopios o videoendoscopios, técnicas en cualquier caso mucho más molestas para los pacientes al exigir la introducción parcial del instrumental citado por la garganta, en actuaciones consideradas de tipo quirúrgico. Dentro de aquellas técnicas se ha avanzado mucho en un período de tiempo relativamente corto. En lo que se refiere al diagnóstico de patologías, hemos pasado en los últimos quince años de trabajar principalmente con parámetros extraídos de la señal de voz –tanto en el dominio del tiempo como en el de la frecuencia– y con escalas elaboradas con valoraciones subjetivas realizadas por expertos a hacerlo también con parámetros procedentes de estimaciones de la fuente glótica. La importancia de utilizar la fuente glótica reside, a grandes rasgos, en que se trata de una señal vinculada directamente al estado de la estructura laríngea del locutor y también en que está generalmente menos influida por el tracto vocal que la señal de voz. Es conocido que el tracto vocal guarda más relación con el mensaje hablado, y su presencia dificulta el proceso de detección de patología vocal. Estas estimaciones de la fuente glótica han sido obtenidas a través de técnicas de filtrado inverso desarrolladas por nuestro grupo de investigación. Hemos conseguido, además, profundizar en la naturaleza de la señal glótica: somos capaces de descomponerla y relacionarla con parámetros biomecánicos de los propios pliegues vocales, obteniendo estimaciones de elementos como la masa, la pérdida de energía o la elasticidad del cuerpo y de la cubierta del pliegue, entre otros. De las componentes de la fuente glótica surgen también los denominados parámetros biométricos, relacionados con la forma de la señal, que constituyen por sí mismos una firma biométrica del individuo. También trabajaremos con parámetros temporales, relacionados con las diferentes etapas que se observan dentro de la señal glótica durante un ciclo de fonación. Por último, consideraremos parámetros clásicos de perturbación y energía de la señal. En definitiva, contamos ahora con una considerable cantidad de parámetros glóticos que conforman una base estadística multidimensional, destinada a ser capaz de discriminar personas con voces patológicas o disfónicas de aquellas que no presentan patología en la voz o con voces sanas o normofónicas. Esta tesis doctoral se ocupa de varias cuestiones: en primer lugar, es necesario analizar cuidadosamente estos nuevos parámetros, por lo que ofreceremos una completa descripción estadística de los mismos. También estudiaremos cuestiones como la distribución de los parámetros atendiendo a criterios como el de normalidad estadística de los mismos, ocupándonos especialmente de la diferencia entre las distribuciones que presentan sujetos sanos y sujetos con patología vocal. Para todo ello emplearemos diferentes técnicas estadísticas: generación de elementos y diagramas descriptivos, pruebas de normalidad y diversos contrastes de hipótesis, tanto paramétricos como no paramétricos, que considerarán la diferencia entre los grupos de personas sanas y los grupos de personas con alguna patología relacionada con la voz. Además, nos interesa encontrar relaciones estadísticas entre los parámetros, de cara a eliminar posibles redundancias presentes en el modelo, a reducir la dimensionalidad del problema y a establecer un criterio de importancia relativa en los parámetros en cuanto a su capacidad discriminante para el criterio patológico/sano. Para ello se aplicarán técnicas estadísticas como la Correlación Lineal Bivariada y el Análisis Factorial basado en Componentes Principales. Por último, utilizaremos la conocida técnica de clasificación Análisis Discriminante, aplicada a diferentes combinaciones de parámetros y de factores, para determinar cuáles de ellas son las que ofrecen tasas de acierto más prometedoras. Para llevar a cabo la experimentación se ha utilizado una base de datos equilibrada y robusta formada por doscientos sujetos, cien de ellos pertenecientes al género femenino y los restantes cien al género masculino, con una proporción también equilibrada entre los sujetos que presentan patología vocal y aquellos que no la presentan. Una de las aplicaciones informáticas diseñada para llevar a cabo la recogida de muestras también es presentada en esta tesis. Los distintos estudios estadísticos realizados nos permitirán identificar aquellos parámetros que tienen una mayor contribución a la hora de detectar la presencia de patología vocal. Alguno de los estudios, además, nos permitirá presentar una ordenación de los parámetros en base a su importancia para realizar la detección. Por otra parte, también concluiremos que en ocasiones es conveniente realizar una reducción de la dimensionalidad de los parámetros para mejorar las tasas de detección. Por fin, las propias tasas de detección constituyen quizá la conclusión más importante del trabajo. Todos los análisis presentes en el trabajo serán realizados para cada uno de los dos géneros, de acuerdo con diversos estudios previos que demuestran que los géneros masculino y femenino deben tratarse de forma independiente debido a las diferencias orgánicas observadas entre ambos. Sin embargo, en lo referente a la detección de patología vocal contemplaremos también la posibilidad de trabajar con la base de datos unificada, comprobando que las tasas de acierto son también elevadas. Abstract Voice pathologies have become recently in a social problem that has reached a certain concern. Pollution in cities, smoking habits, air conditioning, etc. contributes to it. This problem is more relevant for professionals who use their voice frequently: speakers, singers, teachers, actors, telemarketers, etc. Therefore techniques that are capable of drawing conclusions from a sample of the recorded voice are of particular interest for the diagnosis as opposed to other invasive ones, involving exploration by laryngoscopes, fiber scopes or video endoscopes, which are techniques much less comfortable for patients. Voice quality analysis has come a long way in a relatively short period of time. In regard to the diagnosis of diseases, we have gone in the last fifteen years from working primarily with parameters extracted from the voice signal (both in time and frequency domains) and with scales drawn from subjective assessments by experts to produce more accurate evaluations with estimates derived from the glottal source. The importance of using the glottal source resides broadly in that this signal is linked to the state of the speaker's laryngeal structure. Unlike the voice signal (phonated speech) the glottal source, if conveniently reconstructed using adaptive lattices, may be less influenced by the vocal tract. As it is well known the vocal tract is related to the articulation of the spoken message and its influence complicates the process of voice pathology detection, unlike when using the reconstructed glottal source, where vocal tract influence has been almost completely removed. The estimates of the glottal source have been obtained through inverse filtering techniques developed by our research group. We have also deepened into the nature of the glottal signal, dissecting it and relating it to the biomechanical parameters of the vocal folds, obtaining several estimates of items such as mass, loss or elasticity of cover and body of the vocal fold, among others. From the components of the glottal source also arise the so-called biometric parameters, related to the shape of the signal, which are themselves a biometric signature of the individual. We will also work with temporal parameters related to the different stages that are observed in the glottal signal during a cycle of phonation. Finally, we will take into consideration classical perturbation and energy parameters. In short, we have now a considerable amount of glottal parameters in a multidimensional statistical basis, designed to be able to discriminate people with pathologic or dysphonic voices from those who do not show pathology. This thesis addresses several issues: first, a careful analysis of these new parameters is required, so we will offer a complete statistical description of them. We will also discuss issues such as distribution of the parameters, considering criteria such as their statistical normality. We will take special care in the analysis of the difference between distributions from healthy subjects and the distributions from pathological subjects. To reach these goals we will use different statistical techniques such as: generation of descriptive items and diagramas, tests for normality and hypothesis testing, both parametric and nonparametric. These latter techniques consider the difference between the groups of healthy subjects and groups of people with an illness related to voice. In addition, we are interested in finding statistical relationships between parameters. There are various reasons behind that: eliminate possible redundancies in the model, reduce the dimensionality of the problem and establish a criterion of relative importance in the parameters. The latter reason will be done in terms of discriminatory power for the criterion pathological/healthy. To this end, statistical techniques such as Bivariate Linear Correlation and Factor Analysis based on Principal Components will be applied. Finally, we will use the well-known technique of Discriminant Analysis classification applied to different combinations of parameters and factors to determine which of these combinations offers more promising success rates. To perform the experiments we have used a balanced and robust database, consisting of two hundred speakers, one hundred of them males and one hundred females. We have also used a well-balanced proportion where subjects with vocal pathology as well as subjects who don´t have a vocal pathology are equally represented. A computer application designed to carry out the collection of samples is also presented in this thesis. The different statistical analyses performed will allow us to determine which parameters contribute in a more decisive way in the detection of vocal pathology. Therefore, some of the analyses will even allow us to present a ranking of the parameters based on their importance for the detection of vocal pathology. On the other hand, we will also conclude that it is sometimes desirable to perform a dimensionality reduction in order to improve the detection rates. Finally, detection rates themselves are perhaps the most important conclusion of the work. All the analyses presented in this work have been performed for each of the two genders in agreement with previous studies showing that male and female genders should be treated independently, due to the observed functional differences between them. However, with regard to the detection of vocal pathology we will consider the possibility of working with the unified database, ensuring that the success rates obtained are also high.
Resumo:
Este trabajo de Tesis ha abordado el objetivo de dar robustez y mejorar la Detección de Actividad de Voz en entornos acústicos adversos con el fin de favorecer el comportamiento de muchas aplicaciones vocales, por ejemplo aplicaciones de telefonía basadas en reconocimiento automático de voz, aplicaciones en sistemas de transcripción automática, aplicaciones en sistemas multicanal, etc. En especial, aunque se han tenido en cuenta todos los tipos de ruido, se muestra especial interés en el estudio de las voces de fondo, principal fuente de error de la mayoría de los Detectores de Actividad en la actualidad. Las tareas llevadas a cabo poseen como punto de partida un Detector de Actividad basado en Modelos Ocultos de Markov, cuyo vector de características contiene dos componentes: la energía normalizada y la variación de la energía. Las aportaciones fundamentales de esta Tesis son las siguientes: 1) ampliación del vector de características de partida dotándole así de información espectral, 2) ajuste de los Modelos Ocultos de Markov al entorno y estudio de diferentes topologías y, finalmente, 3) estudio e inclusión de nuevas características, distintas de las del punto 1, para filtrar los pulsos de pronunciaciones que proceden de las voces de fondo. Los resultados de detección, teniendo en cuenta los tres puntos anteriores, muestran con creces los avances realizados y son significativamente mejores que los resultados obtenidos, bajo las mismas condiciones, con otros detectores de actividad de referencia. This work has been focused on improving the robustness at Voice Activity Detection in adverse acoustic environments in order to enhance the behavior of many vocal applications, for example telephony applications based on automatic speech recognition, automatic transcription applications, multichannel systems applications, and so on. In particular, though all types of noise have taken into account, this research has special interest in the study of pronunciations coming from far-field speakers, the main error source of most activity detectors today. The tasks carried out have, as starting point, a Hidden Markov Models Voice Activity Detector which a feature vector containing two components: normalized energy and delta energy. The key points of this Thesis are the following: 1) feature vector extension providing spectral information, 2) Hidden Markov Models adjustment to environment and study of different Hidden Markov Model topologies and, finally, 3) study and inclusion of new features, different from point 1, to reject the pronunciations coming from far-field speakers. Detection results, taking into account the above three points, show the advantages of using this method and are significantly better than the results obtained under the same conditions by other well-known voice activity detectors.
Resumo:
A partir de un simulador de vocales denominado Vox, programado en MATLAB, desarrollado originalmente en la Universidad Técnica de Aquisgrán por Malte Kob [1] y mejorado en el Departamento de ICS de la EUITT [2], se pueden generar voces sintéticas. La principal limitación del simulador es que sólo puede generar vocales sintéticas, además la simulación se realiza a partir de parámetros anatómicos y fisiológicos fijos. La estructura actual del programa dificulta la modificación rápida de cualquiera de los parámetros básicos de la misma, circunstancia que podría mejorar mediante una interfaz gráfica. El proyecto consistirá, por un lado, en completar el simulador haciendo posible también la síntesis a partir de los parámetros anatómicos de hombres, mujeres y niños; y por otro, en el diseño e implementación de una interfaz gráfica de usuario que nos permita seleccionar los diferentes parámetros físicos para la simulación y recoger los resultados de la misma de manera más sencilla. Starting from a vowels simulator called Vox, programmed in MATLAB, originally developed in the Technical college of Aquisgrán by Malte Kob [1] and improved in the ICS Department of the EUITT [2], with this programme you can generate synthetic voices. The main limitation of the simulator is that it only can generate synthetic vowels; moreover the simulation is made from anatomical and physiological fixed parameters. The current structure of the programme complicates the quick modification of any of the basic parameters of it, circumstance that could be improved through a graphic interface. On the one hand, the project consists in completing the simulator doing the synthesis possible, from the anatomical woman, men and children parameters; on the other hand, the design and implementation of a graphic user interface, that allow us to select different physical parameters to the simulation and gather the results of it in a simple way.
Resumo:
El presente proyecto de fin de carrera esta desarrollado para el explicar el estado actual de las telecomunicaciones en España. Mercado que esta en constante evolución tecnológica y que se ha pasado inicialmente medir por la tasa de penetración de líneas vocales en un país a pasar de hablar de indicadores como la voz IP, descarga de contenidos, uso de los dispositivos ya que el contenido de lo que las redes transporta es donde puede estar el negocio para los operadores.El proyecto de fin de carrera a groso modo está distribuido en dos partes. La primera parte del proyecto, esta enfocado de una manera teórica haciendo una análisis del mercado actual de las telecomunicaciones. Para ello se realiza un primer estudio de los mercados de telecomunicaciones a nivel europeo y en España. Se analiza el sector de las TIC haciendo un repaso por los datos claves obtenidos en el último año y que han sido influenciados por la crisis mundial que vivimos en la actualidad. Detalles de la evolución de los servicios, infraestructuras de nueva generación desplegadas, inversiones y gastos de los operadores así como la cuota de servicio de los mismos. Regulaciones recientes e iniciativas como la Agenda Electrónica Digital para impulsar el crecimiento de la Sociedad de la Información. Investigación sobre la adopción y uso cotidiano de las nuevas tecnologías y dispositivos que hacen los ciudadanos que permiten mejoran nuestras vidas, la productividad de la economía y que será de devenir de las tendencias futuras hacia las que se moverá el mercado. Adicionalmente se plantea cuestiones sobre las tendencias de futuro de las redes de telecomunicaciones, analizando la previsión del volumen de datos creciente a transportar, los mecanismos para aumentar la capacidad, flexibilidad y eficiencia de las redes mediante técnicas como la virtualizacion (SDN).Debido a la experiencia profesional adquirida trabajando en un ISP como es Telefonica de España administrando sus redes y servicios a grandes empresas, profundizare con detalle técnico en estudiar y mostrar como estan montadas sus infraestructuras de red (Red IP Única, NGN, Multiservicio/UNO,…) , los diferentes tipos de accesos a las redes incluyendo los de nueva generación (FTTH) así como el catalogo de servicios ofertados (Macrolan, VPN-IP, Ibercom IP…), principalmente basados RPVs y sus facilidades asociadas sobre las mencionadas redes para las grandes empresas, PYMES y residencial que les permite la comunicación nacional o internacional entre las diferentes emplazamientos de sus oficinas con sus sedes centrales. La segunda parte de este proyecto se describe la implementación de un caso práctico real tanto en tema de configuración y montaje de equipamientos empleados (router,antena 3G…) de una oficina móvil basado en el servicio vpn-ip de Telefonica con acceso móvil 3G que se encuentra en el actual portfolio de sus productos que se explico en teóricamente en la primera parte del proyecto y que tiene conectividad con la red IP Única de la RPV del cliente Caja de Seguros Reunidos (CASER) la cual que nos permitirá conectarnos remotamente a un servidor de monitorización de su intranet ubicada en su sede central de Madrid que muestreara el trafico que se esta cursado por los interfaces del router de la oficina móvil. En la configuración del router se empleara diferentes métodos de conectividad como túneles GRE para la conectividad con los equipos de la red IP Única, LT2P y PPP para el acceso a la red móvil y se dotara de mayor seguridad al trafico cursado por la oficina Mobil empleando túneles IPSEC para la encriptación y cifrado de los datos para evitar que el trafico que va en claro por la red móvil si es interceptado por un tercero no sea capaz de analizarlo y descifrarlo y no se vea afectada la privacidad de la información que estamos transmitiendo.