53 resultados para RECONOCIMIENTO AUTOMÁTICO DE LA VOZ
em Universidad Politécnica de Madrid
Resumo:
En los vocabularios biomédicos actuales más utilizados, suelen existir mecanismos de composición de términos a partir de términos pre-existentes. Estos mecanismos de composición aumentan la potencia de los lenguajes que los poseen pero parten con la desventaja de la posibilidad de representar un mismo concepto con diferentes conceptos base, lo que incluye un componente de ambigüedad en los mismos. Este trabajo de fin de grado consiste en la realización de una herramienta que permita reconocer términos de estos vocabularios biomédicos complejos, es decir, vocabularios con términos compuestos por otros términos como puede ser el caso de SNOMED. Con la consecución de este proyecto, obtendremos una herramienta capaz de identificar las ambigüedades presentes en la representación de estos conceptos compuestos y representar de una forma homogénea dichos conceptos. Para favorecer la interoperabilidad y accesibilidad de la herramienta se ha decidido ofrecerla mediante una interfaz web accesible desde cualquier dispositivo o lugar con acceso a internet. ---ABSTRACT---In the latest and most used biomedical languages, we usually and term composition operations from existing terms. These mechanisms increase the utility of those terminologies they belong to. Despite this, these operations present a disadvantage, that is, the possibility of representing the same concept with diferent base concepts which introduces a certain degree of ambiguity in those complex terms. The objective of this final degree project consists in developing a tool that allows recognizing terms from those complex biomedical vocabularies, that is, terminologies with terms comprised of simpler terms such as SNOMED. By completing this project, we obtained a tool capable of identifying the present ambiguities in the representation of those composite concepts and represent them in a homogenous format. To facilitate the interoperability and accessibility of the tool it was decided to other it through a web interface loadable from any place or device with access to the internet.
Resumo:
En este artículo se presenta un sistema automático de almacenamiento, análisis y visualización de información semántica extraída de mensajes de Twitter, diseñado para proporcionar a las administraciones públicas una herramienta para detectar y analizar de una manera sencilla y rápida los patrones de comportamiento de los ciudadanos, su opinión acerca de los servicios públicos, la percepción de la ciudad, los eventos de interés, etc. Además, puede ser usado como un sistema de alerta temprana, mejorando la eficiencia y rapidez de actuación de los sistemas de emergencia.
Resumo:
It is easy to get frustrated at spoken conversational agents (SCAs), perhaps because they seem to be callous. By and large, the quality of human-computer interaction is affected due to the inability of the SCAs to recognise and adapt to user emotional state. Now with the mass appeal of artificially-mediated communication, there has been an increasing need for SCAs to be socially and emotionally intelligent, that is, to infer and adapt to their human interlocutors’ emotions on the fly, in order to ascertain an affective, empathetic and naturalistic interaction. An enhanced quality of interaction would reduce users’ frustrations and consequently increase their satisfactions. These reasons have motivated the development of SCAs towards including socio-emotional elements, turning them into affective and socially-sensitive interfaces. One barrier to the creation of such interfaces has been the lack of methods for modelling emotions in a task-independent environment. Most emotion models for spoken dialog systems are task-dependent and thus cannot be used “as-is” in different applications. This Thesis focuses on improving this, in which it concerns computational modeling of emotion, personality and their interrelationship for task-independent autonomous SCAs. The generation of emotion is driven by needs, inspired by human’s motivational systems. The work in this Thesis is organised in three stages, each one with its own contribution. The first stage involved defining, integrating and quantifying the psychological-based motivational and emotional models sourced from. Later these were transformed into a computational model by implementing them into software entities. The computational model was then incorporated and put to test with an existing SCA host, a HiFi-control agent. The second stage concerned automatic prediction of affect, which has been the main challenge towards the greater aim of infusing social intelligence into the HiFi agent. In recent years, studies on affect detection from voice have moved on to using realistic, non-acted data, which is subtler. However, it is more challenging to perceive subtler emotions and this is demonstrated in tasks such as labelling and machine prediction. In this stage, we attempted to address part of this challenge by considering the roles of user satisfaction ratings and conversational/dialog features as the respective target and predictors in discriminating contentment and frustration, two types of emotions that are known to be prevalent within spoken human-computer interaction. The final stage concerned the evaluation of the emotional model through the HiFi agent. A series of user studies with 70 subjects were conducted in a real-time environment, each in a different phase and with its own conditions. All the studies involved the comparisons between the baseline non-modified and the modified agent. The findings have gone some way towards enhancing our understanding of the utility of emotion in spoken dialog systems in several ways; first, an SCA should not express its emotions blindly, albeit positive. Rather, it should adapt its emotions to user states. Second, low performance in an SCA may be compensated by the exploitation of emotion. Third, the expression of emotion through the exploitation of prosody could better improve users’ perceptions of an SCA compared to exploiting emotions through just lexical contents. Taken together, these findings not only support the success of the emotional model, but also provide substantial evidences with respect to the benefits of adding emotion in an SCA, especially in mitigating users’ frustrations and ultimately improving their satisfactions. Resumen Es relativamente fácil experimentar cierta frustración al interaccionar con agentes conversacionales (Spoken Conversational Agents, SCA), a menudo porque parecen ser un poco insensibles. En general, la calidad de la interacción persona-agente se ve en cierto modo afectada por la incapacidad de los SCAs para identificar y adaptarse al estado emocional de sus usuarios. Actualmente, y debido al creciente atractivo e interés de dichos agentes, surge la necesidad de hacer de los SCAs unos seres cada vez más sociales y emocionalmente inteligentes, es decir, con capacidad para inferir y adaptarse a las emociones de sus interlocutores humanos sobre la marcha, de modo que la interacción resulte más afectiva, empática y, en definitiva, natural. Una interacción mejorada en este sentido permitiría reducir la posible frustración de los usuarios y, en consecuencia, mejorar el nivel de satisfacción alcanzado por los mismos. Estos argumentos justifican y motivan el desarrollo de nuevos SCAs con capacidades socio-emocionales, dotados de interfaces afectivas y socialmente sensibles. Una de las barreras para la creación de tales interfaces ha sido la falta de métodos de modelado de emociones en entornos independientes de tarea. La mayoría de los modelos emocionales empleados por los sistemas de diálogo hablado actuales son dependientes de tarea y, por tanto, no pueden utilizarse "tal cual" en diferentes dominios o aplicaciones. Esta tesis se centra precisamente en la mejora de este aspecto, la definición de modelos computacionales de las emociones, la personalidad y su interrelación para SCAs autónomos e independientes de tarea. Inspirada en los sistemas motivacionales humanos en el ámbito de la psicología, la tesis propone un modelo de generación/producción de la emoción basado en necesidades. El trabajo realizado en la presente tesis está organizado en tres etapas diferenciadas, cada una con su propia contribución. La primera etapa incluyó la definición, integración y cuantificación de los modelos motivacionales de partida y de los modelos emocionales derivados a partir de éstos. Posteriormente, dichos modelos emocionales fueron plasmados en un modelo computacional mediante su implementación software. Este modelo computacional fue incorporado y probado en un SCA anfitrión ya existente, un agente con capacidad para controlar un equipo HiFi, de alta fidelidad. La segunda etapa se orientó hacia el reconocimiento automático de la emoción, aspecto que ha constituido el principal desafío en relación al objetivo mayor de infundir inteligencia social en el agente HiFi. En los últimos años, los estudios sobre reconocimiento de emociones a partir de la voz han pasado de emplear datos actuados a usar datos reales en los que la presencia u observación de emociones se produce de una manera mucho más sutil. El reconocimiento de emociones bajo estas condiciones resulta mucho más complicado y esta dificultad se pone de manifiesto en tareas tales como el etiquetado y el aprendizaje automático. En esta etapa, se abordó el problema del reconocimiento de las emociones del usuario a partir de características o métricas derivadas del propio diálogo usuario-agente. Gracias a dichas métricas, empleadas como predictores o indicadores del grado o nivel de satisfacción alcanzado por el usuario, fue posible discriminar entre satisfacción y frustración, las dos emociones prevalentes durante la interacción usuario-agente. La etapa final corresponde fundamentalmente a la evaluación del modelo emocional por medio del agente Hifi. Con ese propósito se llevó a cabo una serie de estudios con usuarios reales, 70 sujetos, interaccionando con diferentes versiones del agente Hifi en tiempo real, cada uno en una fase diferente y con sus propias características o capacidades emocionales. En particular, todos los estudios realizados han profundizado en la comparación entre una versión de referencia del agente no dotada de ningún comportamiento o característica emocional, y una versión del agente modificada convenientemente con el modelo emocional propuesto. Los resultados obtenidos nos han permitido comprender y valorar mejor la utilidad de las emociones en los sistemas de diálogo hablado. Dicha utilidad depende de varios aspectos. En primer lugar, un SCA no debe expresar sus emociones a ciegas o arbitrariamente, incluso aunque éstas sean positivas. Más bien, debe adaptar sus emociones a los diferentes estados de los usuarios. En segundo lugar, un funcionamiento relativamente pobre por parte de un SCA podría compensarse, en cierto modo, dotando al SCA de comportamiento y capacidades emocionales. En tercer lugar, aprovechar la prosodia como vehículo para expresar las emociones, de manera complementaria al empleo de mensajes con un contenido emocional específico tanto desde el punto de vista léxico como semántico, ayuda a mejorar la percepción por parte de los usuarios de un SCA. Tomados en conjunto, los resultados alcanzados no sólo confirman el éxito del modelo emocional, sino xv que constituyen además una evidencia decisiva con respecto a los beneficios de incorporar emociones en un SCA, especialmente en cuanto a reducir el nivel de frustración de los usuarios y, en última instancia, mejorar su satisfacción.
Resumo:
Latente en el ánimo del Ingeniero que suscribe, como en el de la Jefatura de esta División, la excepcional importancia, que "tiene dentro de la economía valenciana» y aun nacional, el debido aprovechamiento y regulación de las aguas del Rio Turia» figuraba en sus proyectos de Trabajos» como de los más destacados» el correspondiente al debido tratamiento y corrección de la cuenca de dicho Rio»
Resumo:
Este proyecto consiste en crear una serie de tres pequeños videojuegos incluidos en una sola aplicación, para plataformas móviles Android, que permitan en cualquier lugar entrenar la estética de la voz del paciente con problemas de fonación. Dependiendo de los aspectos de la voz (sonidos sonoros y sordos, el pitch y la intensidad) a trabajar se le asignará un ejercicio u otro. En primer lugar se introduce el concepto de rehabilitación de la voz y en qué casos es necesario. Seguidamente se realiza un trabajo de búsqueda en el que se identifican las distintas plataformas de desarrollo de videojuegos que son compatibles con los sistemas Android, así como para la captura de audio y las librerías de procesado de señal. A continuación se eligen las herramientas que presentan las mejores capacidades y con las que se va a trabajar. Estas son el motor de juego Andengine, para la parte gráfica, el entorno Java específico de Android, para la captura de muestras de audio y la librería JTransforms que realiza transformadas de Fourier permitiendo procesar el audio para la detección de pitch. Al desarrollar y ensamblar los distintos bloques se prioriza el funcionamiento en tiempo real de la aplicación. Las líneas de mejora y conclusiones se comentan en el último capítulo del trabajo así como el manual de usuario para mayor comprensión. ABSTRACT. The main aim of this project is to create an application for mobile devices which includes three small speech therapy videogames for the Android OS. These videogames allow patients to train certain voice parameters (such as voice and unvoiced sounds, pitch and intensity) wherever they want and need to. First, an overview of the concept of voice rehabilitation and its uses for patients with speech disorders is given. Secondly a study has been made to identify the most suitable video game engine for the Android OS, the best possible way to capture audio from the device and the audio processing library which will combine with the latter. Therefore, the chosen tools are exposed. Andengine has been selected regarding the game engine, Android’s Java framework for audio capture and the fast Fourier transform library, JTransforms, for pitch detection. Real time processing is vital for the proper functioning of the application. Lines of improvement and other conclusions are discussed in the last part of this dissertation paper.
Resumo:
En los últimos años, la realización de compras y todo tipo de trámites a través de Internet o aspectos como la presencia online de las personas han ido aumentando paulatinamente y no parece que esta tendencia vaya a invertirse a corto plazo. Esto ha provocado que los requisitos de rendimiento y personalización exigidos a estos servicios se hayan visto incrementados notablemente. Cada vez más empresas y organizaciones de todo tipo señalan la importancia que tiene una gestión adecuada de las trazas de sus usuarios para tener éxito en el mercado digital. A partir de ellas se puede obtener información que redunda en incrementos de las capacidades de adaptación y del valor de las aplicaciones. En este sentido, los avances en el campo de la ciencia de los datos y en concreto, en el aprendizaje automático, han supuesto una pieza clave en el desarrollo de técnicas que permiten analizar y extraer el máximo conocimiento posible a partir de los grandes volúmenes de datos generados por la actividad de la Web. El objetivo de este trabajo es realizar un estudio de las fases, técnicas y metodologías que actualmente se aplican en el transcurso de los proyectos de ciencia de datos y en la disciplina del aprendizaje automático. Una vez se hayan identificado aquellas más utilizadas, se aplicarán a un ejemplo realista perteneciente al ámbito de la minería web. En concreto, se desarrollarán modelos predictivos por medio de diferentes algoritmos de aprendizaje automático (regresión logística o reglas de asociación, entre otros) que permitan modelar el comportamiento de los usuarios y predecir la página web que van a visitar a continuación. Para ello se hará uso del paquete estadístico R y de la plataforma de desarrollo RStudio. Posteriormente, se procederá a determinar los principales obstáculos que se derivan de la aplicación de las técnicas del aprendizaje automático así como a determinar el rendimiento que pueden llegar a alcanzar en la práctica. Así mismo se propondrán posibles aplicaciones de los resultados obtenidos con la finalidad de proporcionar valor de negocio dentro de un entorno real. Finalmente, se desarrollarán una serie de componentes de visualización web que permitan presentar de forma gráfica los resultados extraídos del análisis así como interactuar con los distintos modelos en tiempo real. A partir de todo lo anterior se establecerá una comparativa entre los distintos modelos producidos y se destacarán las ventajas e inconvenientes de cada uno de ellos. Con todo ello se presentarán unas recomendaciones finales que recojan los factores a tener en cuenta a la hora de aplicar estos algoritmos al caso concreto de los datos de uso web.
Resumo:
Las patologías de la voz se han transformado en los últimos tiempos en una problemática social con cierto calado. La contaminación de las ciudades, hábitos como el de fumar, el uso de aparatos de aire acondicionado, etcétera, contribuyen a ello. Esto alcanza más relevancia en profesionales que utilizan su voz de manera frecuente, como, por ejemplo, locutores, cantantes, profesores o teleoperadores. Por todo ello resultan de especial interés las técnicas de ayuda al diagnóstico que son capaces de extraer conclusiones clínicas a partir de una muestra de la voz grabada con un micrófono, frente a otras invasivas que implican la exploración utilizando laringoscopios, fibroscopios o videoendoscopios, técnicas en cualquier caso mucho más molestas para los pacientes al exigir la introducción parcial del instrumental citado por la garganta, en actuaciones consideradas de tipo quirúrgico. Dentro de aquellas técnicas se ha avanzado mucho en un período de tiempo relativamente corto. En lo que se refiere al diagnóstico de patologías, hemos pasado en los últimos quince años de trabajar principalmente con parámetros extraídos de la señal de voz –tanto en el dominio del tiempo como en el de la frecuencia– y con escalas elaboradas con valoraciones subjetivas realizadas por expertos a hacerlo también con parámetros procedentes de estimaciones de la fuente glótica. La importancia de utilizar la fuente glótica reside, a grandes rasgos, en que se trata de una señal vinculada directamente al estado de la estructura laríngea del locutor y también en que está generalmente menos influida por el tracto vocal que la señal de voz. Es conocido que el tracto vocal guarda más relación con el mensaje hablado, y su presencia dificulta el proceso de detección de patología vocal. Estas estimaciones de la fuente glótica han sido obtenidas a través de técnicas de filtrado inverso desarrolladas por nuestro grupo de investigación. Hemos conseguido, además, profundizar en la naturaleza de la señal glótica: somos capaces de descomponerla y relacionarla con parámetros biomecánicos de los propios pliegues vocales, obteniendo estimaciones de elementos como la masa, la pérdida de energía o la elasticidad del cuerpo y de la cubierta del pliegue, entre otros. De las componentes de la fuente glótica surgen también los denominados parámetros biométricos, relacionados con la forma de la señal, que constituyen por sí mismos una firma biométrica del individuo. También trabajaremos con parámetros temporales, relacionados con las diferentes etapas que se observan dentro de la señal glótica durante un ciclo de fonación. Por último, consideraremos parámetros clásicos de perturbación y energía de la señal. En definitiva, contamos ahora con una considerable cantidad de parámetros glóticos que conforman una base estadística multidimensional, destinada a ser capaz de discriminar personas con voces patológicas o disfónicas de aquellas que no presentan patología en la voz o con voces sanas o normofónicas. Esta tesis doctoral se ocupa de varias cuestiones: en primer lugar, es necesario analizar cuidadosamente estos nuevos parámetros, por lo que ofreceremos una completa descripción estadística de los mismos. También estudiaremos cuestiones como la distribución de los parámetros atendiendo a criterios como el de normalidad estadística de los mismos, ocupándonos especialmente de la diferencia entre las distribuciones que presentan sujetos sanos y sujetos con patología vocal. Para todo ello emplearemos diferentes técnicas estadísticas: generación de elementos y diagramas descriptivos, pruebas de normalidad y diversos contrastes de hipótesis, tanto paramétricos como no paramétricos, que considerarán la diferencia entre los grupos de personas sanas y los grupos de personas con alguna patología relacionada con la voz. Además, nos interesa encontrar relaciones estadísticas entre los parámetros, de cara a eliminar posibles redundancias presentes en el modelo, a reducir la dimensionalidad del problema y a establecer un criterio de importancia relativa en los parámetros en cuanto a su capacidad discriminante para el criterio patológico/sano. Para ello se aplicarán técnicas estadísticas como la Correlación Lineal Bivariada y el Análisis Factorial basado en Componentes Principales. Por último, utilizaremos la conocida técnica de clasificación Análisis Discriminante, aplicada a diferentes combinaciones de parámetros y de factores, para determinar cuáles de ellas son las que ofrecen tasas de acierto más prometedoras. Para llevar a cabo la experimentación se ha utilizado una base de datos equilibrada y robusta formada por doscientos sujetos, cien de ellos pertenecientes al género femenino y los restantes cien al género masculino, con una proporción también equilibrada entre los sujetos que presentan patología vocal y aquellos que no la presentan. Una de las aplicaciones informáticas diseñada para llevar a cabo la recogida de muestras también es presentada en esta tesis. Los distintos estudios estadísticos realizados nos permitirán identificar aquellos parámetros que tienen una mayor contribución a la hora de detectar la presencia de patología vocal. Alguno de los estudios, además, nos permitirá presentar una ordenación de los parámetros en base a su importancia para realizar la detección. Por otra parte, también concluiremos que en ocasiones es conveniente realizar una reducción de la dimensionalidad de los parámetros para mejorar las tasas de detección. Por fin, las propias tasas de detección constituyen quizá la conclusión más importante del trabajo. Todos los análisis presentes en el trabajo serán realizados para cada uno de los dos géneros, de acuerdo con diversos estudios previos que demuestran que los géneros masculino y femenino deben tratarse de forma independiente debido a las diferencias orgánicas observadas entre ambos. Sin embargo, en lo referente a la detección de patología vocal contemplaremos también la posibilidad de trabajar con la base de datos unificada, comprobando que las tasas de acierto son también elevadas. Abstract Voice pathologies have become recently in a social problem that has reached a certain concern. Pollution in cities, smoking habits, air conditioning, etc. contributes to it. This problem is more relevant for professionals who use their voice frequently: speakers, singers, teachers, actors, telemarketers, etc. Therefore techniques that are capable of drawing conclusions from a sample of the recorded voice are of particular interest for the diagnosis as opposed to other invasive ones, involving exploration by laryngoscopes, fiber scopes or video endoscopes, which are techniques much less comfortable for patients. Voice quality analysis has come a long way in a relatively short period of time. In regard to the diagnosis of diseases, we have gone in the last fifteen years from working primarily with parameters extracted from the voice signal (both in time and frequency domains) and with scales drawn from subjective assessments by experts to produce more accurate evaluations with estimates derived from the glottal source. The importance of using the glottal source resides broadly in that this signal is linked to the state of the speaker's laryngeal structure. Unlike the voice signal (phonated speech) the glottal source, if conveniently reconstructed using adaptive lattices, may be less influenced by the vocal tract. As it is well known the vocal tract is related to the articulation of the spoken message and its influence complicates the process of voice pathology detection, unlike when using the reconstructed glottal source, where vocal tract influence has been almost completely removed. The estimates of the glottal source have been obtained through inverse filtering techniques developed by our research group. We have also deepened into the nature of the glottal signal, dissecting it and relating it to the biomechanical parameters of the vocal folds, obtaining several estimates of items such as mass, loss or elasticity of cover and body of the vocal fold, among others. From the components of the glottal source also arise the so-called biometric parameters, related to the shape of the signal, which are themselves a biometric signature of the individual. We will also work with temporal parameters related to the different stages that are observed in the glottal signal during a cycle of phonation. Finally, we will take into consideration classical perturbation and energy parameters. In short, we have now a considerable amount of glottal parameters in a multidimensional statistical basis, designed to be able to discriminate people with pathologic or dysphonic voices from those who do not show pathology. This thesis addresses several issues: first, a careful analysis of these new parameters is required, so we will offer a complete statistical description of them. We will also discuss issues such as distribution of the parameters, considering criteria such as their statistical normality. We will take special care in the analysis of the difference between distributions from healthy subjects and the distributions from pathological subjects. To reach these goals we will use different statistical techniques such as: generation of descriptive items and diagramas, tests for normality and hypothesis testing, both parametric and nonparametric. These latter techniques consider the difference between the groups of healthy subjects and groups of people with an illness related to voice. In addition, we are interested in finding statistical relationships between parameters. There are various reasons behind that: eliminate possible redundancies in the model, reduce the dimensionality of the problem and establish a criterion of relative importance in the parameters. The latter reason will be done in terms of discriminatory power for the criterion pathological/healthy. To this end, statistical techniques such as Bivariate Linear Correlation and Factor Analysis based on Principal Components will be applied. Finally, we will use the well-known technique of Discriminant Analysis classification applied to different combinations of parameters and factors to determine which of these combinations offers more promising success rates. To perform the experiments we have used a balanced and robust database, consisting of two hundred speakers, one hundred of them males and one hundred females. We have also used a well-balanced proportion where subjects with vocal pathology as well as subjects who don´t have a vocal pathology are equally represented. A computer application designed to carry out the collection of samples is also presented in this thesis. The different statistical analyses performed will allow us to determine which parameters contribute in a more decisive way in the detection of vocal pathology. Therefore, some of the analyses will even allow us to present a ranking of the parameters based on their importance for the detection of vocal pathology. On the other hand, we will also conclude that it is sometimes desirable to perform a dimensionality reduction in order to improve the detection rates. Finally, detection rates themselves are perhaps the most important conclusion of the work. All the analyses presented in this work have been performed for each of the two genders in agreement with previous studies showing that male and female genders should be treated independently, due to the observed functional differences between them. However, with regard to the detection of vocal pathology we will consider the possibility of working with the unified database, ensuring that the success rates obtained are also high.
Resumo:
Este trabajo de Tesis ha abordado el objetivo de dar robustez y mejorar la Detección de Actividad de Voz en entornos acústicos adversos con el fin de favorecer el comportamiento de muchas aplicaciones vocales, por ejemplo aplicaciones de telefonía basadas en reconocimiento automático de voz, aplicaciones en sistemas de transcripción automática, aplicaciones en sistemas multicanal, etc. En especial, aunque se han tenido en cuenta todos los tipos de ruido, se muestra especial interés en el estudio de las voces de fondo, principal fuente de error de la mayoría de los Detectores de Actividad en la actualidad. Las tareas llevadas a cabo poseen como punto de partida un Detector de Actividad basado en Modelos Ocultos de Markov, cuyo vector de características contiene dos componentes: la energía normalizada y la variación de la energía. Las aportaciones fundamentales de esta Tesis son las siguientes: 1) ampliación del vector de características de partida dotándole así de información espectral, 2) ajuste de los Modelos Ocultos de Markov al entorno y estudio de diferentes topologías y, finalmente, 3) estudio e inclusión de nuevas características, distintas de las del punto 1, para filtrar los pulsos de pronunciaciones que proceden de las voces de fondo. Los resultados de detección, teniendo en cuenta los tres puntos anteriores, muestran con creces los avances realizados y son significativamente mejores que los resultados obtenidos, bajo las mismas condiciones, con otros detectores de actividad de referencia. This work has been focused on improving the robustness at Voice Activity Detection in adverse acoustic environments in order to enhance the behavior of many vocal applications, for example telephony applications based on automatic speech recognition, automatic transcription applications, multichannel systems applications, and so on. In particular, though all types of noise have taken into account, this research has special interest in the study of pronunciations coming from far-field speakers, the main error source of most activity detectors today. The tasks carried out have, as starting point, a Hidden Markov Models Voice Activity Detector which a feature vector containing two components: normalized energy and delta energy. The key points of this Thesis are the following: 1) feature vector extension providing spectral information, 2) Hidden Markov Models adjustment to environment and study of different Hidden Markov Model topologies and, finally, 3) study and inclusion of new features, different from point 1, to reject the pronunciations coming from far-field speakers. Detection results, taking into account the above three points, show the advantages of using this method and are significantly better than the results obtained under the same conditions by other well-known voice activity detectors.
Resumo:
La presente Tesis analiza las posibilidades que ofrecen en la actualidad las tecnologías del habla para la detección de patologías clínicas asociadas a la vía aérea superior. El estudio del habla que tradicionalmente cubre tanto la producción como el proceso de transformación del mensaje y las señales involucradas, desde el emisor hasta alcanzar al receptor, ofrece una vía de estudio alternativa para estas patologías. El hecho de que la señal emitida no solo contiene este mensaje, sino también información acerca del locutor, ha motivado el desarrollo de sistemas orientados a la identificación y verificación de la identidad de los locutores. Estos trabajos han recibido recientemente un nuevo impulso, orientándose tanto hacia la caracterización de rasgos que son comunes a varios locutores, como a las diferencias existentes entre grabaciones de un mismo locutor. Los primeros resultan especialmente relevantes para esta Tesis dado que estos rasgos podrían evidenciar la presencia de características relacionadas con una cierta condición común a varios locutores, independiente de su identidad. Tal es el caso que se enfrenta en esta Tesis, donde los rasgos identificados se relacionarían con una de la patología particular y directamente vinculada con el sistema de físico de conformación del habla. El caso del Síndrome de Apneas Hipopneas durante el Sueno (SAHS) resulta paradigmático. Se trata de una patología con una elevada prevalencia mundo, que aumenta con la edad. Los pacientes de esta patología experimentan episodios de cese involuntario de la respiración durante el sueño, que se prolongan durante varios segundos y que se reproducen a lo largo de la noche impidiendo el correcto descanso. En el caso de la apnea obstructiva, estos episodios se deben a la imposibilidad de mantener un camino abierto a través de la vía aérea, de forma que el flujo de aire se ve interrumpido. En la actualidad, el diagnostico de estos pacientes se realiza a través de un estudio polisomnográfico, que se centra en el análisis de los episodios de apnea durante el sueño, requiriendo que el paciente permanezca en el hospital durante una noche. La complejidad y el elevado coste de estos procedimientos, unidos a las crecientes listas de espera, han evidenciado la necesidad de contar con técnicas rápidas de detección, que si bien podrían no obtener tasas tan elevadas, permitirían reorganizar las listas de espera en función del grado de severidad de la patología en cada paciente. Entre otros, los sistemas de diagnostico por imagen, así como la caracterización antropométrica de los pacientes, han evidenciado la existencia de patrones anatómicos que tendrían influencia directa sobre el habla. Los trabajos dedicados al estudio del SAHS en lo relativo a como esta afecta al habla han sido escasos y algunos de ellos incluso contradictorios. Sin embargo, desde finales de la década de 1980 se conoce la existencia de patrones específicos relativos a la articulación, la fonación y la resonancia. Sin embargo, su descripción resultaba difícilmente aprovechable a través de un sistema de reconocimiento automático, pero apuntaba la existencia de un nexo entre voz y SAHS. En los últimos anos las técnicas de procesado automático han permitido el desarrollo de sistemas automáticos que ya son capaces de identificar diferencias significativas en el habla de los pacientes del SAHS, y que los distinguen de los locutores sanos. Por contra, poco se conoce acerca de la conexión entre estos nuevos resultados, los sé que habían obtenido en el pasado y la patogénesis del SAHS. Esta Tesis continua la labor desarrollada en este ámbito considerando específicamente: el estudio de la forma en que el SAHS afecta el habla de los pacientes, la mejora en las tasas de clasificación automática y la combinación de la información obtenida con los predictores utilizados por los especialistas clínicos en sus evaluaciones preliminares. Las dos primeras tareas plantean problemas simbióticos, pero diferentes. Mientras el estudio de la conexión entre el SAHS y el habla requiere de modelos acotados que puedan ser interpretados con facilidad, los sistemas de reconocimiento se sirven de un elevado número de dimensiones para la caracterización y posterior identificación de patrones. Así, la primera tarea debe permitirnos avanzar en la segunda, al igual que la incorporación de los predictores utilizados por los especialistas clínicos. La Tesis aborda el estudio tanto del habla continua como del habla sostenida, con el fin de aprovechar las sinergias y diferencias existentes entre ambas. En el análisis del habla continua se tomo como punto de partida un esquema que ya fue evaluado con anterioridad, y sobre el cual se ha tratado la evaluación y optimización de la representación del habla, así como la caracterización de los patrones específicos asociados al SAHS. Ello ha evidenciado la conexión entre el SAHS y los elementos fundamentales de la señal de voz: los formantes. Los resultados obtenidos demuestran que el éxito de estos sistemas se debe, fundamentalmente, a la capacidad de estas representaciones para describir dichas componentes, obviando las dimensiones ruidosas o con poca capacidad discriminativa. El esquema resultante ofrece una tasa de error por debajo del 18%, sirviéndose de clasificadores notablemente menos complejos que los descritos en el estado del arte y de una única grabación de voz de corta duración. En relación a la conexión entre el SAHS y los patrones observados, fue necesario considerar las diferencias inter- e intra-grupo, centrándonos en la articulación característica del locutor, sustituyendo los complejos modelos de clasificación por el estudio de los promedios espectrales. El resultado apunta con claridad hacia ciertas regiones del eje de frecuencias, sugiriendo la existencia de un estrechamiento sistemático en la sección del tracto en la región de la orofaringe, ya prevista en la patogénesis de este síndrome. En cuanto al habla sostenida, se han reproducido los estudios realizados sobre el habla continua en grabaciones de la vocal /a/ sostenida. Los resultados son cualitativamente análogos a los anteriores, si bien en este caso las tasas de clasificación resultan ser más bajas. Con el objetivo de identificar el sentido de este resultado se reprodujo el estudio de los promedios espectrales y de la variabilidad inter e intra-grupo. Ambos estudios mostraron importantes diferencias con los anteriores que podrían explicar estos resultados. Sin embargo, el habla sostenida ofrece otras oportunidades al establecer un entorno controlado para el estudio de la fonación, que también había sido identificada como una fuente de información para la detección del SAHS. De su estudio se pudo observar que, en el conjunto de datos disponibles, no existen variaciones que pudieran asociarse fácilmente con la fonación. Únicamente aquellas dimensiones que describen la distribución de energía a lo largo del eje de frecuencia evidenciaron diferencias significativas, apuntando, una vez más, en la dirección de las resonancias espectrales. Analizados los resultados anteriores, la Tesis afronta la fusión de ambas fuentes de información en un único sistema de clasificación. Con ello es posible mejorar las tasas de clasificación, bajo la hipótesis de que la información presente en el habla continua y el habla sostenida es fundamentalmente distinta. Esta tarea se realizo a través de un sencillo esquema de fusión que obtuvo un 88.6% de aciertos en clasificación (tasa de error del 11.4%), lo que representa una mejora significativa respecto al estado del arte. Finalmente, la combinación de este clasificador con los predictores utilizados por los especialistas clínicos ofreció una tasa del 91.3% (tasa de error de 8.7%), que se encuentra dentro del margen ofrecido por esquemas más costosos e intrusivos, y que a diferencia del propuesto, no pueden ser utilizados en la evaluación previa de los pacientes. Con todo, la Tesis ofrece una visión clara sobre la relación entre el SAHS y el habla, evidenciando el grado de madurez alcanzado por la tecnología del habla en la caracterización y detección del SAHS, poniendo de manifiesto que su uso para la evaluación de los pacientes ya sería posible, y dejando la puerta abierta a futuras investigaciones que continúen el trabajo aquí iniciado. ABSTRACT This Thesis explores the potential of speech technologies for the detection of clinical disorders connected to the upper airway. The study of speech traditionally covers both the production process and post processing of the signals involved, from the speaker up to the listener, offering an alternative path to study these pathologies. The fact that utterances embed not just the encoded message but also information about the speaker, has motivated the development of automatic systems oriented to the identification and verificaton the speaker’s identity. These have recently been boosted and reoriented either towards the characterization of traits that are common to several speakers, or to the differences between records of the same speaker collected under different conditions. The first are particularly relevant to this Thesis as these patterns could reveal the presence of features that are related to a common condition shared among different speakers, regardless of their identity. Such is the case faced in this Thesis, where the traits identified would relate to a particular pathology, directly connected to the speech production system. The Obstructive Sleep Apnea syndrome (OSA) is a paradigmatic case for analysis. It is a disorder with high prevalence among adults and affecting a larger number of them as they grow older. Patients suffering from this disorder experience episodes of involuntary cessation of breath during sleep that may last a few seconds and reproduce throughout the night, preventing proper rest. In the case of obstructive apnea, these episodes are related to the collapse of the pharynx, which interrupts the air flow. Currently, OSA diagnosis is done through a polysomnographic study, which focuses on the analysis of apnea episodes during sleep, requiring the patient to stay at the hospital for the whole night. The complexity and high cost of the procedures involved, combined with the waiting lists, have evidenced the need for screening techniques, which perhaps would not achieve outstanding performance rates but would allow clinicians to reorganize these lists ranking patients according to the severity of their condition. Among others, imaging diagnosis and anthropometric characterization of patients have evidenced the existence of anatomical patterns related to OSA that have direct influence on speech. Contributions devoted to the study of how this disorder affects scpeech are scarce and somehow contradictory. However, since the late 1980s the existence of specific patterns related to articulation, phonation and resonance is known. By that time these descriptions were virtually useless when coming to the development of an automatic system, but pointed out the existence of a link between speech and OSA. In recent years automatic processing techniques have evolved and are now able to identify significant differences in the speech of OSAS patients when compared to records from healthy subjects. Nevertheless, little is known about the connection between these new results with those published in the past and the pathogenesis of the OSA syndrome. This Thesis is aimed to progress beyond the previous research done in this area by addressing: the study of how OSA affects patients’ speech, the enhancement of automatic OSA classification based on speech analysis, and its integration with the information embedded in the predictors generally used by clinicians in preliminary patients’ examination. The first two tasks, though may appear symbiotic at first, are quite different. While studying the connection between speech and OSA requires simple narrow models that can be easily interpreted, classification requires larger models including a large number dimensions for the characterization and posterior identification of the observed patterns. Anyhow, it is clear that any progress made in the first task should allow us to improve our performance on the second one, and that the incorporation of the predictors used by clinicians shall contribute in this same direction. The Thesis considers both continuous and sustained speech analysis, to exploit the synergies and differences between them. On continuous speech analysis, a conventional speech processing scheme, designed and evaluated before this Thesis, was taken as a baseline. Over this initial system several alternative representations of the speech information were proposed, optimized and tested to select those more suitable for the characterization of OSA-specific patterns. Evidences were found on the existence of a connection between OSA and the fundamental constituents of the speech: the formants. Experimental results proved that the success of the proposed solution is well explained by the ability of speech representations to describe these specific OSA-related components, ignoring the noisy ones as well those presenting low discrimination capabilities. The resulting scheme obtained a 18% error rate, on a classification scheme significantly less complex than those described in the literature and operating on a single speech record. Regarding the connection between OSA and the observed patterns, it was necessary to consider inter-and intra-group differences for this analysis, and to focus on the articulation, replacing the complex classification models by the long-term average spectra. Results clearly point to certain regions on the frequency axis, suggesting the existence of a systematic narrowing in the vocal tract section at the oropharynx. This was already described in the pathogenesis of this syndrome. Regarding sustained speech, similar experiments as those conducted on continuous speech were reproduced on sustained phonations of vowel / a /. Results were qualitatively similar to the previous ones, though in this case perfomance rates were found to be noticeably lower. Trying to derive further knowledge from this result, experiments on the long-term average spectra and intraand inter-group variability ratios were also reproduced on sustained speech records. Results on both experiments showed significant differences from the previous ones obtained from continuous speech which could explain the differences observed on peformance. However, sustained speech also provided the opportunity to study phonation within the controlled framework it provides. This was also identified in the literature as a source of information for the detection of OSA. In this study it was found that, for the available dataset, no sistematic differences related to phonation could be found between the two groups of speakers. Only those dimensions which relate energy distribution along the frequency axis provided significant differences, pointing once again towards the direction of resonant components. Once classification schemes on both continuous and sustained speech were developed, the Thesis addressed their combination into a single classification system. Under the assumption that the information in continuous and sustained speech is fundamentally different, it should be possible to successfully merge the two of them. This was tested through a simple fusion scheme which obtained a 88.6% correct classification (11.4% error rate), which represents a significant improvement over the state of the art. Finally, the combination of this classifier with the variables used by clinicians obtained a 91.3% accuracy (8.7% error rate). This is within the range of alternative, but costly and intrusive schemes, which unlike the one proposed can not be used in the preliminary assessment of patients’ condition. In the end, this Thesis has shed new light on the underlying connection between OSA and speech, and evidenced the degree of maturity reached by speech technology on OSA characterization and detection, leaving the door open for future research which shall continue in the multiple directions that have been pointed out and left as future work.
Resumo:
La contaminación acústica se ha convertido en uno de los principales problemas en materia medioambiental de nuestra sociedad. La creciente preocupación ha propiciado la aparición de legislación, en los distintos ámbitos de la administración, cuyo objetivo consiste en gestionar y reducir la contaminación acústica y sus efectos sobre las personas y el medio ambiente. En este sentido, en relación a las infraestructuras del transporte, y de modo muy especial en los aeropuertos, el monitorado del ruido se convierte en una herramienta de suma importancia para la gestión del ruido, la planificación del territorio y la adopción de medidas correctoras (planes de acción). Los terminales de monitorado de ruido ambiental, que se utilizan fundamentalmente en los aeropuertos, realizan una medición del nivel de ruido ambiental, y evalúan la contaminación que generan las aeronaves al ambiente sonoro general. Para ello, deben ser capaces de medir la evolución temporal del ruido y discriminar aquellos eventos sonoros que se correspondan con el paso de un avión frente al ruido de fondo. Los requisitos aplicables a las unidades de medida, así como los procedimientos de medida implicados han sido descritos recientemente en normas internacionales, como la ISO 20906 o la ARP 4721. Es precisamente en el aspecto relacionado con la discriminación del origen del ruido, donde los sistemas existentes presentan las principales carencias, ya que, un sistema básico de monitorado de ruido realiza la detección de eventos a partir de las medidas de nivel sonoro, evaluando los incrementos de nivel mediante la utilización de umbrales. Dichos umbrales relacionan nivel sonoro y tiempo, de forma que se efectúa el marcado de eventos cuando el nivel de presión sonora, Lp(t), supera un valor determinado durante, al menos, un determinado intervalo temporal. Uno de los principales objetivos de esta tesis se centra en el análisis de los sistemas que existen para la discriminación de ruido de aeronaves, y en el análisis de las contribuciones de estos sistemas sobre la incertidumbre de la medida y el reporte de resultados. Para la consecución de dicho objetivo, se ha definido un modelo de incertidumbre que permite evaluar los diferentes factores de influencia y realizar una cuantificación de la incertidumbre para diferentes escenarios. Durante este proceso se han definido y analizado los conceptos de incertidumbre de detección e incertidumbre de identificación, ambos derivados del diagrama de bloques que propone la norma ISO 20906 para la discriminación del ruido producido por los aviones y el procesado de datos. Asimismo, se pretende abordar el problema de la discriminación de aeronaves con un enfoque novedoso, que permita mejorar el rendimiento de los sistemas y reducir la incertidumbre. Mediante un sistema basado en reconocimiento de patrones uniclase, se aborda esta tarea en base al análisis de la semejanza entre la señal sonora registrada y el sonido que producen los aviones, dejando al margen la magnitud del sonido. Las técnicas de reconocimiento de patrones, y reconocimiento automático de habla, han sido aplicadas previamente al reconocimiento de fuentes de ruido ambiental. Algunos de estos proyectos se han centrado en el ruido de aviones, pero la novedad en esta tesis radica en la aplicación de clasificadores uniclase en un sistema que detecta eventos sonoros gracias a la clasificación de los fragmentos que lo componen. Actualmente los sistemas de gestión de ruido aeroportuario enlazan los datos de ruido proporcionados por las estaciones de monitorado con los datos procedentes del sistema seguimiento de los vuelos de los aviones mediante radar. Este tipo de sistemas es el que ha presentado mayor aceptación y ha sido implantado en los sistemas de monitorado de ruido de los principales aeropuertos internacionales. Sin embargo, este enfoque requiere de equipamiento que permita realizar el seguimiento de la posición de avión, y, dado que únicamente utilizan los niveles sonoros medidos para enlazarlos con el avión que los origina, no será capaz de detectar errores derivados de la presencia de una fuente sonora secundaria cuando existe un avión en la zona. El sistema que se plantea con la realización de esta tesis supone un avance debido a que permite eliminar del proceso de discriminación los umbrales de nivel sonoro, analizando única y exclusivamente la semejanza entre las señales comparadas. De esta manera se pretende mejorar las tasas de error en la identificación, e incluir umbrales de semejanza que permitan eliminar los umbrales de nivel sonoro en el proceso de detección. La implementación del sistema complementando al resto de sistemas del aeropuerto, permitirá la ampliación de las capacidades en el monitorado y la reducción de los costes en las campañas de medición desatendida. Al tiempo que se introducen las técnicas de reconocimiento de patrones en los sistemas de discriminación de los monitores de ruido, se pretende sacar partido de las posibilidades abiertas para dotar al sistema de capacidades adicionales, como es el caso de la detección del ruido de reversa, que se produce tras el aterrizaje de los aviones. La reversa se activa tras el contacto con tierra por parte de los aviones, para reducir la velocidad y acortar la distancia de frenado de los aviones. Esta práctica se usa de forma habitual en los aterrizajes, especialmente en los casos en los que la salida que debe tomar el avión rumbo al terminal se encuentra demasiado próxima al punto de aterrizaje. El empuje inverso se debe a una alteración en el flujo normal de aire que atraviesa los motores, que produce un violento choque contra la carcasa del motor, originando vibraciones y flujo turbulento que se convierte en ruido. El ruido de reversa puede alcanzar unos niveles mucho mayores que el propio aterrizaje, y sus características dinámicas y espectrales lo convierten en especialmente molesto. Por este motivo la utilización injustificada (salvo por motivos de seguridad) está prohibida o es desaconsejada en un gran número de aeropuertos, a nivel internacional (especialmente durante el período nocturno). Sin embargo, las autoridades aeroportuarias carecen de herramientas eficientes y fiables que permitan detectar la utilización de reversa, siendo este punto uno de los aspectos tratados en esta investigación.
Resumo:
La aparición de los smartphones, trajo consigo el desarrollo de aplicaciones móviles de mensajería instantánea. Estas aplicaciones aprovechan la infraestructura de las redes de datos para enviar los mensajes de unos dispositivos a otros, lo que supone la posibilidad de enviar mensajes ilimitados a bajo coste. Hoy en día lo inusual es ver a alguna persona que haga uso de los antiguos mensajes de texto o sms (Short Message Service), que además llevan el coste de comunicación definido por las distintas operadoras. Tanto ha sido su auge que se ha convertido en uno de los principales medios de comunicación tanto en el ámbito personal como empresarial. Desafortunadamente, cada vez son más los conductores que hacen uso de las aplicaciones de mensajería para enviar y recibir mensajes mientras conducen, a pesar de que su uso está totalmente prohibido y penado por la ley. Por este motivo, en este proyecto se propone la modificación de la aplicación de mensajería Telegram, que permite controlar el env´ıo y recepción de mensajes únicamente utilizando la voz, evitando así cualquier tipo de distracci´on ocasionada por la interacción táctil con el dispositivo. Esta idea propuesta en el proyecto puede ayudar a reducir el número de accidentes ocasionados por este tipo de distracciones al volante, así como las posibles multas e incidentes que pueda ocasionar el uso del móvil durante la conducción. ---ABSTRACT---The emergence of smartphones, fostered the development of mobile instant messaging applications. These applications take advantage of the infrastructure of data networks to send messages between devices with almost no additional cost attached to it. Today you will hardly be able to find a person who makes use of the old text messages or sms (Short Message Service), and therefore bears the cost of communication defined by the respective operators. This boom has been such that it has become one of the main communication methods or channels in both the personal and work environments. Unfortunately, more and more drivers use messaging applications to send and receive messages while they are driving, even though its use is strictly prohibited and punished by law. Therefore our objective is to modify the existing messaging application Telegram allowing interaction with the mobile device by only using the user’s voice to send and receive messages, avoiding any distractions that any tactile interaction with the device could cause. The aim is to significantly try to reduce accidents caused while driving, as well as to avoid any related potential fines and incidents that may result from use of mobile phone while driving.
Contribución a la caracterización espacial de canales con sistemas MIMO-OFDM en la banda de 2,45 Ghz
Resumo:
La tecnología de múltiples antenas ha evolucionado para dar soporte a los actuales y futuros sistemas de comunicaciones inalámbricas en su afán por proporcionar la calidad de señal y las altas tasas de transmisión que demandan los nuevos servicios de voz, datos y multimedia. Sin embargo, es fundamental comprender las características espaciales del canal radio, ya que son las características del propio canal lo que limita en gran medida las prestaciones de los sistemas de comunicación actuales. Por ello surge la necesidad de estudiar la estructura espacial del canal de propagación para poder diseñar, evaluar e implementar de forma más eficiente tecnologías multiantena en los actuales y futuros sistemas de comunicación inalámbrica. Las tecnologías multiantena denominadas antenas inteligentes y MIMO han generado un gran interés en el área de comunicaciones inalámbricas, por ejemplo los sistemas de telefonía celular o más recientemente en las redes WLAN (Wireless Local Area Network), principalmente por la mejora que proporcionan en la calidad de las señales y en la tasa de transmisión de datos, respectivamente. Las ventajas de estas tecnologías se fundamentan en el uso de la dimensión espacial para obtener ganancia por diversidad espacial, como ya sucediera con las tecnologías FDMA (Frequency Division Multiplexing Access), TDMA (Time Division Multiplexing Access) y CDMA (Code Division Multiplexing Access) para obtener diversidad en las dimensiones de frecuencia, tiempo y código, respectivamente. Esta Tesis se centra en estudiar las características espaciales del canal con sistemas de múltiples antenas mediante la estimación de los perfiles de ángulos de llegada (DoA, Direction-of- Arrival) considerando esquemas de diversidad en espacio, polarización y frecuencia. Como primer paso se realiza una revisión de los sistemas con antenas inteligentes y los sistemas MIMO, describiendo con detalle la base matemática que sustenta las prestaciones ofrecidas por estos sistemas. Posteriormente se aportan distintos estudios sobre la estimación de los perfiles de DoA de canales radio con sistemas multiantena evaluando distintos aspectos de antenas, algoritmos de estimación, esquemas de polarización, campo lejano y campo cercano de las fuentes. Así mismo, se presenta un prototipo de medida MIMO-OFDM-SPAA3D en la banda ISM (Industrial, Scientific and Medical) de 2,45 Ghz, el cual está preparado para caracterizar experimentalmente el rendimiento de los sistemas MIMO, y para caracterizar espacialmente canales de propagación, considerando los esquemas de diversidad espacial, por polarización y frecuencia. Los estudios aportados se describen a continuación. Los sistemas de antenas inteligentes dependen en gran medida de la posición de los usuarios. Estos sistemas están equipados con arrays de antenas, los cuales aportan la diversidad espacial necesaria para obtener una representación espacial fidedigna del canal radio a través de los perfiles de DoA (DoA, Direction-of-Arrival) y por tanto, la posición de las fuentes de señal. Sin embargo, los errores de fabricación de arrays así como ciertos parámetros de señal conlleva un efecto negativo en las prestaciones de estos sistemas. Por ello se plantea un modelo de señal parametrizado que permite estudiar la influencia que tienen estos factores sobre los errores de estimación de DoA, tanto en acimut como en elevación, utilizando los algoritmos de estimación de DOA más conocidos en la literatura. A partir de las curvas de error, se pueden obtener parámetros de diseño para sistemas de localización basados en arrays. En un segundo estudio se evalúan esquemas de diversidad por polarización con los sistemas multiantena para mejorar la estimación de los perfiles de DoA en canales que presentan pérdidas por despolarización. Para ello se desarrolla un modelo de señal en array con sensibilidad de polarización que toma en cuenta el campo electromagnético de ondas planas. Se realizan simulaciones MC del modelo para estudiar el efecto de la orientación de la polarización como el número de polarizaciones usadas en el transmisor como en el receptor sobre la precisión en la estimación de los perfiles de DoA observados en el receptor. Además, se presentan los perfiles DoA obtenidos en escenarios quasiestáticos de interior con un prototipo de medida MIMO 4x4 de banda estrecha en la banda de 2,45 GHz, los cuales muestran gran fidelidad con el escenario real. Para la obtención de los perfiles DoA se propone un método basado en arrays virtuales, validado con los datos de simulación y los datos experimentales. Con relación a la localización 3D de fuentes en campo cercano (zona de Fresnel), se presenta un tercer estudio para obtener con gran exactitud la estructura espacial del canal de propagación en entornos de interior controlados (en cámara anecóica) utilizando arrays virtuales. El estudio analiza la influencia del tamaño del array y el diagrama de radiación en la estimación de los parámetros de localización proponiendo, para ello, un modelo de señal basado en un vector de enfoque de onda esférico (SWSV). Al aumentar el número de antenas del array se consigue reducir el error RMS de estimación y mejorar sustancialmente la representación espacial del canal. La estimación de los parámetros de localización se lleva a cabo con un nuevo método de búsqueda multinivel adaptativo, propuesto con el fin de reducir drásticamente el tiempo de procesado que demandan otros algoritmos multivariable basados en subespacios, como el MUSIC, a costa de incrementar los requisitos de memoria. Las simulaciones del modelo arrojan resultados que son validados con resultados experimentales y comparados con el límite de Cramer Rao en términos del error cuadrático medio. La compensación del diagrama de radiación acerca sustancialmente la exactitud de estimación de la distancia al límite de Cramer Rao. Finalmente, es igual de importante la evaluación teórica como experimental de las prestaciones de los sistemas MIMO-OFDM. Por ello, se presenta el diseño e implementación de un prototipo de medida MIMO-OFDM-SPAA3D autocalibrado con sistema de posicionamiento de antena automático en la banda de 2,45 Ghz con capacidad para evaluar la capacidad de los sistemas MIMO. Además, tiene la capacidad de caracterizar espacialmente canales MIMO, incorporando para ello una etapa de autocalibración para medir la respuesta en frecuencia de los transmisores y receptores de RF, y así poder caracterizar la respuesta de fase del canal con mayor precisión. Este sistema incorpora un posicionador de antena automático 3D (SPAA3D) basado en un scanner con 3 brazos mecánicos sobre los que se desplaza un posicionador de antena de forma independiente, controlado desde un PC. Este posicionador permite obtener una gran cantidad de mediciones del canal en regiones locales, lo cual favorece la caracterización estadística de los parámetros del sistema MIMO. Con este prototipo se realizan varias campañas de medida para evaluar el canal MIMO en términos de capacidad comparando 2 esquemas de polarización y tomando en cuenta la diversidad en frecuencia aportada por la modulación OFDM en distintos escenarios. ABSTRACT Multiple-antennas technologies have been evolved to be the support of the actual and future wireless communication systems in its way to provide the high quality and high data rates required by new data, voice and data services. However, it is important to understand the behavior of the spatial characteristics of the radio channel, since the channel by itself limits the performance of the actual wireless communications systems. This drawback raises the need to understand the spatial structure of the propagation channel in order to design, assess, and develop more efficient multiantenna technologies for the actual and future wireless communications systems. Multiantenna technologies such as ‘Smart Antennas’ and MIMO systems have generated great interest in the field of wireless communications, i.e. cellular communications systems and more recently WLAN (Wireless Local Area Networks), mainly because the higher quality and the high data rate they are able to provide. Their technological benefits are based on the exploitation of the spatial diversity provided by the use of multiple antennas as happened in the past with some multiaccess technologies such as FDMA (Frequency Division Multiplexing Access), TDMA (Time Division Multiplexing Access), and CDMA (Code Division Multiplexing Access), which give diversity in the domains of frequency, time and code, respectively. This Thesis is mainly focus to study the spatial channel characteristics using schemes of multiple antennas considering several diversity schemes such as space, polarization, and frequency. The spatial characteristics will be study in terms of the direction-of-arrival profiles viewed at the receiver side of the radio link. The first step is to do a review of the smart antennas and MIMO systems technologies highlighting their advantages and drawbacks from a mathematical point of view. In the second step, a set of studies concerning the spatial characterization of the radio channel through the DoA profiles are addressed. The performance of several DoA estimation methods is assessed considering several aspects regarding antenna array structure, polarization diversity, and far-field and near-field conditions. Most of the results of these studies come from simulations of data models and measurements with real multiantena prototypes. In the same way, having understand the importance of validate the theoretical data models with experimental results, a 2,4 GHz MIMO-OFDM-SPAA2D prototype is presented. This prototype is intended for evaluating MIMO-OFDM capacity in indoor and outdoor scenarios, characterize the spatial structure of radio channels, assess several diversity schemes such as polarization, space, and frequency diversity, among others aspects. The studies reported are briefly described below. As is stated in Chapter two, the determination of user position is a fundamental task to be resolved for the smart antenna systems. As these systems are equipped with antenna arrays, they can provide the enough spatial diversity to accurately draw the spatial characterization of the radio channel through the DoA profiles, and therefore the source location. However, certain real implementation factors related to antenna errors, signals, and receivers will certainly reduce the performance of such direction finding systems. In that sense, a parameterized narrowband signal model is proposed to evaluate the influence of these factors in the location parameter estimation through extensive MC simulations. The results obtained from several DoA algorithms may be useful to extract some parameter design for directing finding systems based on arrays. The second study goes through the importance that polarization schemes can have for estimating far-field DoA profiles in radio channels, particularly for scenarios that may introduce polarization losses. For this purpose, a narrowband signal model with polarization sensibility is developed to conduct an analysis of several polarization schemes at transmitter (TX) and receiver (RX) through extensive MC simulations. In addition, spatial characterization of quasistatic indoor scenarios is also carried out using a 2.45 GHz MIMO prototype equipped with single and dual-polarized antennas. A good agreement between the measured DoA profiles with the propagation scenario is achieved. The theoretical and experimental evaluation of polarization schemes is performed using virtual arrays. In that case, a DoA estimation method is proposed based on adding an phase reference to properly track the DoA, which shows good results. In the third study, the special case of near-field source localization with virtual arrays is addressed. Most of DoA estimation algorithms are focused in far-field source localization where the radiated wavefronts are assume to be planar waves at the receive array. However, when source are located close to the array, the assumption of plane waves is no longer valid as the wavefronts exhibit a spherical behavior along the array. Thus, a faster and effective method of azimuth, elevation angles-of-arrival, and range estimation for near-field sources is proposed. The efficacy of the proposed method is evaluated with simulation and validated with measurements collected from a measurement campaign carried out in a controlled propagation environment, i.e. anechoic chamber. Moreover, the performance of the method is assessed in terms of the RMSE for several array sizes, several source positions, and taking into account the effect of radiation pattern. In general, better results are obtained with larger array and larger source distances. The effect of the antennas is included in the data model leading to more accurate results, particularly for range rather than for angle estimation. Moreover, a new multivariable searching method based on the MUSIC algorithm, called MUSA (multilevel MUSIC-based algorithm), is presented. This method is proposed to estimate the 3D location parameters in a faster way than other multivariable algorithms, such as MUSIC algorithm, at the cost of increasing the memory size. Finally, in the last chapter, a MIMO-OFDM-SPAA3D prototype is presented to experimentally evaluate different MIMO schemes regarding antennas, polarization, and frequency in different indoor and outdoor scenarios. The prototype has been developed on a Software-Defined Radio (SDR) platform. It allows taking measurements where future wireless systems will be developed. The novelty of this prototype is concerning the following 2 subsystems. The first one is the tridimensional (3D) antenna positioning system (SPAA3D) based on three linear scanners which is developed for making automatic testing possible reducing errors of the antenna array positioning. A set of software has been developed for research works such as MIMO channel characterization, MIMO capacity, OFDM synchronization, and so on. The second subsystem is the RF autocalibration module at the TX and RX. This subsystem allows to properly tracking the spatial structure of indoor and outdoor channels in terms of DoA profiles. Some results are draw regarding performance of MIMO-OFDM systems with different polarization schemes and different propagation environments.
Resumo:
La presente Tesis investiga el campo del reconocimiento automático de imágenes mediante ordenador aplicado al análisis de imágenes médicas en mamografía digital. Hay un interés por desarrollar sistemas de aprendizaje que asistan a los radiólogos en el reconocimiento de las microcalcificaciones para apoyarles en los programas de cribado y prevención del cáncer de mama. Para ello el análisis de las microcalcificaciones se ha revelado como técnica clave de diagnóstico precoz, pero sin embargo el diseño de sistemas automáticos para reconocerlas es complejo por la variabilidad y condiciones de las imágenes mamográficas. En este trabajo se analizan los planteamientos teóricos de diseño de sistemas de reconocimiento de imágenes, con énfasis en los problemas específicos de detección y clasificación de microcalcificaciones. Se ha realizado un estudio que incluye desde las técnicas de operadores morfológicos, redes neuronales, máquinas de vectores soporte, hasta las más recientes de aprendizaje profundo mediante redes neuronales convolucionales, contemplando la importancia de los conceptos de escala y jerarquía a la hora del diseño y sus implicaciones en la búsqueda de la arquitectura de conexiones y capas de la red. Con estos fundamentos teóricos y elementos de diseño procedentes de otros trabajos en este área realizados por el autor, se implementan tres sistemas de reconocimiento de mamografías que reflejan una evolución tecnológica, culminando en un sistema basado en Redes Neuronales Convolucionales (CNN) cuya arquitectura se diseña gracias al análisis teórico anterior y a los resultados prácticos de análisis de escalas llevados a cabo en nuestra base de datos de imágenes. Los tres sistemas se entrenan y validan con la base de datos de mamografías DDSM, con un total de 100 muestras de entrenamiento y 100 de prueba escogidas para evitar sesgos y reflejar fielmente un programa de cribado. La validez de las CNN para el problema que nos ocupa queda demostrada y se propone un camino de investigación para el diseño de su arquitectura. ABSTRACT This Dissertation investigates the field of computer image recognition applied to medical imaging in mammography. There is an interest in developing learning systems to assist radiologists in recognition of microcalcifications to help them in screening programs for prevention of breast cancer. Analysis of microcalcifications has emerged as a key technique for early diagnosis of breast cancer, but the design of automatic systems to recognize them is complicated by the variability and conditions of mammographic images. In this Thesis the theoretical approaches to design image recognition systems are discussed, with emphasis on the specific problems of detection and classification of microcalcifications. Our study includes techniques ranging from morphological operators, neural networks and support vector machines, to the most recent deep convolutional neural networks. We deal with learning theory by analyzing the importance of the concepts of scale and hierarchy at the design stage and its implications in the search for the architecture of connections and network layers. With these theoretical facts and design elements coming from other works in this area done by the author, three mammogram recognition systems which reflect technological developments are implemented, culminating in a system based on Convolutional Neural Networks (CNN), whose architecture is designed thanks to the previously mentioned theoretical study and practical results of analysis conducted on scales in our image database. All three systems are trained and validated against the DDSM mammographic database, with a total of 100 training samples and 100 test samples chosen to avoid bias and stand for a real screening program. The validity of the CNN approach to the problem is demonstrated and a research way to help in designing the architecture of these networks is proposed.
Resumo:
Desde hace más de 20 años, muchos grupos de investigación trabajan en el estudio de técnicas de reconocimiento automático de expresiones faciales. En los últimos años, gracias al avance de las metodologías, ha habido numerosos avances que hacen posible una rápida detección de las caras presentes en una imagen y proporcionan algoritmos de clasificación de expresiones. En este proyecto se realiza un estudio sobre el estado del arte en reconocimiento automático de emociones, para conocer los diversos métodos que existen en el análisis facial y en el reconocimiento de la emoción. Con el fin de poder comparar estos métodos y otros futuros, se implementa una herramienta modular y ampliable y que además integra un método de extracción de características que consiste en la obtención de puntos de interés en la cara y dos métodos para clasificar la expresión, uno mediante comparación de desplazamientos de los puntos faciales, y otro mediante detección de movimientos específicos llamados unidades de acción. Para el entrenamiento del sistema y la posterior evaluación del mismo, se emplean las bases de datos Cohn-Kanade+ y JAFFE, de libre acceso a la comunidad científica. Después, una evaluación de estos métodos es llevada a cabo usando diferentes parámetros, bases de datos y variando el número de emociones. Finalmente, se extraen conclusiones del trabajo y su evaluación, proponiendo las mejoras necesarias e investigación futura. ABSTRACT. Currently, many research teams focus on the study of techniques for automatic facial expression recognition. Due to the appearance of digital image processing, in recent years there have been many advances in the field of face detection, feature extraction and expression classification. In this project, a study of the state of the art on automatic emotion recognition is performed to know the different methods existing in facial feature extraction and emotion recognition. To compare these methods, a user friendly tool is implemented. Besides, a feature extraction method is developed which consists in obtaining 19 facial feature points. Those are passed to two expression classifier methods, one based on point displacements, and one based on the recognition of facial Action Units. Cohn-Kanade+ and JAFFE databases, both freely available to the scientific community, are used for system training and evaluation. Then, an evaluation of the methods is performed with different parameters, databases and varying the number of emotions. Finally, conclusions of the work and its evaluation are extracted, proposing some necessary improvements and future research.
Resumo:
La realización de este proyecto está basado en el estudio realizado por Jean Schoentgen en el cual el autor caracterizó el micro temblor vocal por medio del índice y la frecuencia de modulación. En este proyecto se utilizará la herramienta Matlab para el cálculo de estos parámetros y al finalizar se analizarán los datos obtenidos. El proyecto se ha dividido en tres grandes partes. En la primera de ellas se ha explicado brevemente los conceptos básicos de la voz y conceptos importantes tales como el temblor fisiológico, el patológico y el Jitter vocal entre otros, también se han detallado conceptos matemáticos utilizados en el desarrollo del código. Esto se realizó con el fin que el lector tenga claros algunos conceptos importantes antes del desarrollo del código y así pueda entender con más facilidad el estudio realizado en este proyecto, en esta parte no se ha realizado una explicación muy extensa de cada concepto, entendiendo que el lector posee unos conocimientos básicos de ingeniería, por otra parte existen innumerables libros que explican de una manera más precisa cada uno de estos conceptos. En la segunda parte se llevó a cabo el desarrollo del código. Como se mencionó anteriormente se ha utilizado la herramienta Matlab que es muy utilizada en la mayoría de las asignaturas de la carrera obteniendo así un buen dominio de esta, además posee unos toolbox muy útiles que facilitan los cálculos matemáticos. En esta parte se ilustra paso a paso cada etapa de elaboración del código y algunas graficas de la señal de voz a medida que pasa por cada etapa del código. En la última parte se obtienen los datos de todos los cálculos de los registros de voz y se analiza cada uno de ellos a la vez que se comparan con los del estudio de Jean Schoentgen y se analizan las posibles diferencias. ABSTRACT. The Project is based on the search made by Jean Schoentgen, whose research the micro tremor vocal can be established by frequency modulation and modulation index. This project has been carried out in Matlab to calculate the aforementioned parameters and finally, the results were contrasted with the results from Jean Shoetngen’s research. This project consists of three parts: The first of all, to be able to understand this project to future readers .It was explained different basic concepts about the voice such as physiologic tremor, pathological tremor and Jitter. Furthermore, mathematical concepts were explained in detail, due to these were used in the software development. Then, it was focused on software development such as the elaboration of code and different voice signals that were processed. This part was made with Matlab, which is mathematical software with high-level language for numerical computation, visualization, collaborate across disciplines including signal and image processing and application development. At finally, the acquired calculations were contrasted with the results from Jean Schoentgen’s research.