44 resultados para Esquemas de imagen
em Universidad Politécnica de Madrid
Resumo:
El presente trabajo investiga la diferencia existente entre el contenido de Fe teórico definido en marmatita (esfalerita con 10% a 26% Fe) y el contenido real (9% Fe) determinado por Microsonda Electrónica (MS) en muestras de este mineral procedentes del locus typicus. Se trata de determinar si el mineral estaba correctamente definido en origen, combinando los estudios de MS y el Análisis Digital de Imagen (ADI) sobre probetas pulidas de la Mina de Marmato, Colombia. Se demuestra que las inclusiones microscópicas de otras fases portadoras de Fe (pirrotita, calcopirita) en esfalerita aportan una cantidad de Fe que puede ser significativa (~1.5 % en las muestras analizadas). Dichas fases no podían separarse cuando se definió la marmatita (1929) y, por tanto, el Fe de las mismas se habría atribuido a la esfalerita.
Geo-referenciación aplicada al análisis digital de imagen para la caracterización de menas metálicas
Resumo:
El análisis cuantitativo de las fases minerales visibles en probetas pulidas mediante un sistema experto y automático representan un eficaz complemento a las técnicas tradicionales de microscopía de reflexión. El Análisis digital de imagen, ADI, en comparación con las técnicas habitualmente usadas de cuantificación (platina integradora), supone un ahorro enorme de tiempo, a la vez que facilita un potentísimo instrumento para el tratamiento estadístico de las medidas que se realizan.
Resumo:
La identificación automática de las fases minerales visibles en probetas pulidas mediante un sistema experto es un pre-requisito indispensable para la aplicación de las técnicas tradicionales de microscopía a los problemas industriales con un elevado rendimiento. Para su consecución, ha sido necesario obtener una óptima y homogénea calidad de pulido en las muestras utilizadas, lograr la puesta a punto del equipo de Análisis digital de imagen -ADI- y aplicar un análisis multiespectral sobre la imagen en color (RGB) obtenida en origen. Para este estudio inicial fueron analizadas un conjunto de probetas de menas sulfuradas con los minerales más comunes: la colección Rehwald, descrita por Randohr (1980) y estudiadas de nuevo para este objetivo específico.
Resumo:
Technological and environmental problems related to ore processing are a serious limitation for sustainable development of mineral resources, particularly for countries / companies rich in ores, but with little access to sophisticated technology, e.g. in Latin America. Digital image analysis (DIA) can provide a simple, unexpensive and broadly applicable methodology to assess these problems, but this methodology has to be carefully defined, to produce reproducible and relevant information.
Resumo:
Esta investigación realiza un estudio de la imagen de marca de distintas entidades financieras que operan en España. Para llevar a cabo esta investigación se utiliza una técnica de marketing denominada Evaluación Periódica de la Imagen (EPI), que proporciona una combinación de las ventajas de las técnicas cuantitativas y cualitativas. Los resultados obtenidos muestran que las dos entidades financieras percibidas más iguales entre sí son La Caixa y Caja Madrid; por el contrario, las dos entidades percibidas más diferentes son el Santander y Caja Madrid. Finalmente, el estudio muestra la imagen relativa, imagen individual y un mapa de posicionamiento de las entidades analizadas.
Resumo:
El presente proyecto fin de carrera consiste en el diseño, desarrollo e implementación de una aplicación informática cuya función sea la identificación de distintos ficheros de imagen, audio y video y la interpretación y presentación de los metadatos asociados a los mismos. El software desarrollado, EXTRACTORDATOS_LBS, reconocerá el tipo de formato del fichero bajo estudio a partir del análisis de los bytes de identificación contenidos en la cabecera del archivo. En base a la información registrada en dicha cabecera, la aplicación interpretará el contenido de los metadatos asociados al fichero, mostrando por pantalla aquellos que resulten de interés para el análisis de los mismos. Previamente a la implementación del software se acomete el análisis teórico de los formatos de diversos archivos multimedia, recogidos en múltiples normas y recomendaciones. Tras esa identificación, se procede al desarrollo de la aplicación EXTRACTORDATOS_LBS , que informa de los parámetros de interés contenidos en las cabeceras de los archivos. El desarrollo se ilustra con los diagramas conceptuales asociados a la arquitectura del software implementado. De igual forma, se muestran las salidas por pantalla de una serie de ficheros de muestra, y se presenta el manual de usuario de la aplicación. La versión electrónica de este documento acompaña el ejecutable que permite el análisis de los archivos. This final project consists in the design, development and implementation of a computer application whose function is the identification of different image, audio and video files and the interpretation and presentation of their metadata. The software developed, EXTRACTORDATOS_LBS, will recognize the type of the file under study through the analysis of the identification bytes contained on the file’s header. Based on information registered in this header, the application will interpret the metadata content associated to file, displaying the most interesting ones for their analysis. Prior to the software implementation, a theoretical analysis of the different formats of media files is undertaken. After this identification, the application EXTRACTORDATOS_LBS is developed. This software analyzes and displays the most interesting parameters contained in multimedia file’s header. The development of the application is illustrated with flow charts associated to the architecture of the software. Furthermore, some graphic examples of use of the program are included, as well as the user’s manual. The electronic version of this document attaches the executable file that permits file analysis.
Resumo:
Las técnicas SAR (Synthetic Aperture Radar, radar de apertura sintética) e ISAR (Inverse SAR, SAR inverso) son sistemas radar coherentes de alta resolución, capaces de proporcionar un mapa de la sección radar del blanco en el dominio espacial de distancia y acimut. El objetivo de ambas técnicas radica en conseguir una resolución acimutal más fina generando una apertura sintética a partir del movimiento relativo entre radar y blanco. Los radares imagen complementan la labor de los sistemas ópticos e infrarrojos convencionales, especialmente en condiciones meteorológicas adversas. Los sistemas SAR e ISAR convencionales se diseñan para iluminar blancos en situaciones de línea de vista entre sensor y blanco. Por este motivo, presentan un menor rendimiento en escenarios complejos, como por ejemplo en bosques o entornos urbanos, donde los retornos multitrayecto se superponen a los ecos directos procedentes de los blancos. Se conocen como "imágenes fantasma", puesto que enmascaran a los verdaderos blancos y dan lugar a una calidad visual pobre, complicando en gran medida la detección del blanco. El problema de la mitigación del multitrayecto en imágenes radar adquiere una relevancia teórica y práctica. En esta Tesis Doctoral, se hace uso del concepto de inversión temporal (Time Reversal, TR) para mejorar la calidad visual de las imágenes SAR e ISAR eliminando las "imágenes fantasma" originadas por la propagación multitrayecto (algoritmos TR-SAR y TR-ISAR, respectivamente). No obstante, previamente a la aplicación de estas innovadoras técnicas de mitigación del multi-trayecto, es necesario resolver el problema geométrico asociado al multitrayecto. Centrando la atención en la mejora de las prestaciones de TR-ISAR, se implementan una serie de técnicas de procesado de señal avanzadas antes y después de la etapa basada en inversión temporal (el eje central de esta Tesis). Las primeras (técnicas de pre-procesado) están relacionadas con el multilook averaging, las transformadas tiempo-frecuencia y la transformada de Radon, mientras que las segundas (técnicas de post-procesado) se componen de un conjunto de algoritmos de superresolución. En pocas palabras, todas ellas pueden verse como un valor añadido al concepto de TR, en lugar de ser consideradas como técnicas independientes. En resumen, la utilización del algoritmo diseñado basado en inversión temporal, junto con algunas de las técnicas de procesado de señal propuestas, no deben obviarse si se desean obtener imágenes ISAR de gran calidad en escenarios con mucho multitrayecto. De hecho, las imágenes resultantes pueden ser útiles para posteriores esquemas de reconocimiento automático de blancos (Automatic Target Recognition, ATR). Como prueba de concepto, se hace uso tanto de datos simulados como experimentales obtenidos a partir de radares de alta resolución con el fin de verificar los métodos propuestos.
Resumo:
This paper hallmarks the most relevant contributions carried out by the authors in the VOTESCRIPT project (TIC2000-1630-C02). The main goal of this project was the analysis, definition and implementation of a system which copes with every phases and elements existing in a process of electronic voting using computer networks. A summary of the main criticisms of electronic voting is presented to disclose that the most relevant voting schemes only take into account a technological perspective, just trying to imitate the conventional voting schemes. Nevertheless in these proposals important aspects such individual and global verification are not properly undertaken. The paper includes the proposed solutions of the project to solve these mentioned problems.
Resumo:
Uno de los aspectos fundamentales en un sistema de cirugía guiada por imagen (CGI) es la localización del instrumental quirúrgico con respecto a la anatomía del paciente. Los sistemas basados en sensores ofrecen buenos niveles de precisión, pero son sensibles a distintas fuentes de ruido en el quirófano y contribuyen a la sobrecarga tecnológica del mismo. Una alternativa novedosa es analizar la imagen del vídeo endoscópico para llevar a cabo la detección y localización espacial del instrumental. Se presenta en este trabajo la validación de dos métodos, basados en el diámetro aparente y en la sección transversal del instrumental, para la localización espacial del instrumental a partir de los bordes y la posición 2D de la punta en la imagen. La validación, llevada a cabo en un simulador físico, se realiza comparando los resultados con el sistema Kinescan/IBV. Los resultados muestran para cada método un error medio de 12,7 y 12,8 mm respectivamente. La incorporación de estos algoritmos dentro del paradigma de navegación propuesto en el proyecto THEMIS permitirá al cirujano conocer la posición del instrumental de forma no intrusiva y transparente, sin necesidad de equipamiento adicional en el quirófano.
Resumo:
Algunas levaduras son capaces de producir deterioro en alimentos desarrollándose en su superficie como colonias. La medida del crecimiento de éstas evaluando el aumento de células viables es una técnica laboriosa y tediosa, mientras que la medida del aumento de su radio proporciona un resultado inmediato. En este trabajo, como alternativa a la medición manual del radio de la colonia, se plantea el empleo de técnicas de análisis de imagen que permiten automatizar el proceso de medición. A partir de las imágenes escaladas digitales, adquiridas en escala de gris de las colonias en crecimiento se ha desarrollado un algoritmo de análisis de imagen con el software MATLAB®. Esta herramienta se ha utilizado para procesar diariamente las imágenes de colonias de cuatro especies de levaduras deteriorantes: Zygosaccharomyces rouxii, Debaryomyces hansenii, Saccharomyces cerevisiae y Rhodotorula glutinis. El error de predicción del tamaño de la colonia al aplicar el algoritmo es comparable con el cometido en la medición manual, no superando en ambos casos el 3-4% y obteniéndose un ajuste medio (R2) entre ambas mediciones de 0.99, ajuste consistente e independiente de la especie de levadura estudiada. La observación de que el crecimiento bifásico del radio está correlacionado con las fases de aumento de células viables hace de este algoritmo una excelente herramienta.
Resumo:
A día de hoy, XML (Extensible Markup Language) es uno de los formatos más utilizados para el intercambio y almacenamiento de información estructurada en la World Wide Web. Es habitual que las aplicaciones que utilizan archivos XML presupongan en ellos una estructura determinada, pudiendo producirse errores si se intentase emplear documentos que no la cumplan. A fin de poder expresar este tipo de limitaciones y poder verificar que un documento las cumple, se definió en el mismo estándar XML el DTD, si bien pronto se mostró bastante limitado en cuanto a su capacidad expresiva. Es por este motivo que se decidió crear el XML Schema, un lenguaje XML para definir qué estructura deben tener otros documentos XML. Contar con un esquema tiene múltiples ventajas, siendo la principal de ellas el poder validar documentos contra él para comprobar si su estructura es correcta u otras como la generación automática de código. Sin embargo, definir una estructura común a varios documentos XML de una manera óptima puede convertirse en una tarea ardua si se hace de manera manual. Este problema puede salvarse contando con una herramienta que automatice el proceso de creación de dichos XSDs. En este proyecto, desarrollaremos una herramienta en Java que, a partir de una serie de documentos XML de entrada, inferirá automáticamente un esquema contra el que validen todos ellos, expresando su estructura de manera completa y concisa. Dicha herramienta permitirá elegir varios parámetros de inferencia, a fin de que el esquema generado se adapte lo más posible a los propósitos del usuario. Esta herramienta generará también una serie de estadísticas adicionales, que permitirán conocer más información sobre los ficheros de entrada.
Resumo:
En este proyecto se aborda la transducción óptico-sonora utilizando métodos de tratamiento digital de imagen. Para llevar a cabo el proyecto se consideran únicamente métodos de bajo presupuesto, por lo que para realizar todo el proceso de conversión óptico-sonora se utilizan un ordenador y un escáner doméstico. Como el principal objetivo del proyecto es comprobar si es viable utilizar el tratamiento digital de imagen como conversor no se ha contemplado la utilización de equipamiento profesional. La utilidad de este proyecto está en la restauración del sonido de material fílmico con importantes degradaciones, tales que no sea posible su reproducción en un proyector. Con el prototipo que se propone, realizado con el software de programación Matlab, se consigue digitalizar el audio analógico de las películas en malas condiciones ya que la captura de audio se efectúa de manera óptica sobre las bandas sonoras. Lo conseguido en este proyecto cobra especial importancia si se tiene en cuenta la cantidad de material cinematográfico que hay en películas de celulosa. La conservación de dicho material requiere unas condiciones de almacenamiento muy específicas para que el soporte no se vea afectado, pero con el paso del tiempo es habitual que las bobinas de película presenten deformaciones o incluso ruptura. Aplicando métodos de tratamiento digital de imagen es posible restaurar el audio de fragmentos de película que no puedan ser expuestos a la tensión producida por los rodillos de los proyectores, incluso es posible recuperar el audio de fotogramas concretos ya que la digitalización del audio se realiza capturando la imagen de la forma de onda. Por ello, el procedimiento seguido para digitalizar la película debe ser poco intrusivo para garantizar la conservación del soporte fílmico. Cabe destacar que en este proyecto se ha realizado la conversión óptico-sonora sobre las bandas de sonido analógicas de área variable presentes en la película, pero el procedimiento es aplicable también a las bandas de área variable realizando modificaciones en el prototipo. Esto último queda fuera del objetivo de este proyecto, pero puede ser un trabajo futuro. ABSTRACT This project addresses optical to sound conversion using digital image processing methods. To carry out the project are considered only low-budget methods , so for all optical to sound conversion process using a computer and a home scanner . As the main application of this project is to test the feasibility of using the digital image processing as a converter does not contemplate the use of professional equipment. The main objective of this project is the restoration of sound film material with significant impairments , such is not possible playback on a projector. With the proposed prototype , made with Matlab programming software , you get digitize analog audio bad movies because the audio capture is performed optically on the soundtracks. The achievements in this project is especially important if you consider the amount of film material is in cellulose films . The preservation of such material requires a very specific storage conditions to which the support is not affected , but over time it is common for film reels presenting deformations or even rupture. Applying methods of digital image processing is possible to restore the audio from movie clips that can not be exposed to the tension produced by the rollers of the projectors , it is even possible to retrieve specific frames audio and audio that digitization is done by capturing the image of the waveform. Therefore, the procedure used to digitize the film should be bit intrusive to ensure the conservation of the film medium. Note that in this project was carried out optical to sound conversion on analog variable area soundtracks present in the film, but the procedure is applicable to variable-area bands making changes to the prototype. The latter is beyond the scope of this project, but can be a future work.
Resumo:
Este proyecto es una documentación sintetizada, para los alumnos de Grado en Imagen y Sonido, de todos los conceptos que conciernen a la asignatura Sistemas Audiovisuales. No obstante puede servir para todo aquel al que le interese la materia, sin ser necesariamente estudiante. El material se basa en la recopilación de libros de diversos autores, páginas web y catálogos de productos de empresas del sector audiovisual. Se intenta con esto incentivar en el auto-aprendizaje, proporcionando multitud de fuentes de información. El documento se ha dividido en dos bloques temáticos correspondientes a los temas: 1- Dispositivos de captación y reproducción de sonido e imagen. 2- Señales y formatos de audio y vídeo. Aunque no es tema de este proyecto pero si de la asignatura hay que nombrar el tercer bloque temático, Introducción a los sistemas de transmisión de audio y vídeo. Dado que hay suficiente documentación de estudio sobre éste se ha optado por no incluirlo. Cada bloque temático a su vez contiene cuatro unidades didácticas. Cada unidad se ha desarrollado de manera independiente a las demás, es decir, que cada unidad puede ser estudiada sin necesidad de recurrir a otras unidades para comprender la/s que interesa/n. Por otro lado hay que remarcar que todos los capítulos tienen relación entre sí. La documentación se complementa al final de cada unidad didáctica con un test de evaluación que a su vez ha sido publicado dentro del entorno de Moodle en la página correspondiente a la asignatura. Para ello se ha accedido a esta plataforma on line con el rol de editor de contenido. Para la elaboración de los cuestionarios se han tomado los conceptos clave de cada unidad didáctica, de esta manera los alumnos pueden saber si han comprendido lo que se explica en la documentación y mejorar así sus conocimientos. Para la redacción y estructuración de cada unidad didáctica, así como el documento en general, se ha cogido como referencia la Taxonomía de objetivos de la Educación o Taxonomía de Bloom. Dado que el dominio cognitivo del lector se encuadra dentro del ‘nivel de comprensión’, el documento no resulta tedioso en su estudio. No obstante introduce al alumno en los temas más importantes de la materia, proporcionando una base sólida de conocimiento en sistemas audiovisuales. Es precisamente el interés en hacer lo más accesible posible este documento lo que ha dificultado su elaboración, ya que el área de estudio es muy extensa y es difícil sintetizar sin eliminar contenido importante. No obstante para hacer más fiable el documento se ha seguido las pautas temáticas y argumentales marcadas por el Departamento Ingeniería Audiovisual y Comunicaciones de la Escuela Universitaria de Ingeniería Técnica de Telecomunicaciones de la Universidad Politécnica de Madrid verificando cada uno de los capítulos con los profesores de este departamento. Al tratarse de un proyecto con fines académicos, el texto se ha apoyado por figuras, esquemas, tablas, anexos y desarrollo de ecuaciones para hacer más comprensible lo que se expone. Algunos de estas informaciones se incluyen en inglés y no se ha creído conveniente su traducción dado que gran parte de la información que encontrará el alumno a lo largo de la carrera vendrá escrita en este idioma. Por último hay que decir al lector que es conveniente, pero no necesario, tener ciertas nociones de cálculo, álgebra, ondas y circuitos para seguir con fluidez lo que a continuación se expone. ABSTRACT. This project concerns all the concepts and topics of the subject Audiovisual Systems. It has been created for students of Sound and Image Degree, however everyone who's interested in this subject could use it even if isn’t a student. The document is divided into two main thematic sections corresponding to the topics: 1- Catchment and reproduction devices of sound and image. 2- Audio and video signals and formats. Even if this subject it isn’t mention in this project, it’s very important to quote a third important thematic of this block , such as Introduction about Transmission of Audio and Video System. Since there is enough study-documentation about this topic, it has been taken the choice to don’t integrate this chapter in this project. Every thematic block in this project is divided in chapters that have been developed in an independent way: that’s means that for each unit it is not necessary to look forward to other chapters in this project On the other hand it is necessary to emphasize that all the chapters are related one to each other. Every didactic unit and chapter ends with an evaluation test , that has been published with Moodle System using a content editor account. Those exercises will help in a easy way the student to improve his skills and his own ability. Collection of books of various authors, websites and product catalogs of audiovisual companies are used in this document and are included for stimulate the curiosity of the student. The key concepts of each unit have been used for making tests, so in this way students could be able to know if they have understood what the documentation explains and improve his skills. For writing and building each didactic unit, such as in the general document, it has been taken reference from Bloom’s Taxonomy. Since the skills and competence of the student are concentrated in the ‘comprehension level’, it will not be very complicated or hard to study. In spite of everything, all of thematic treated and discussed in documentation gives a solid knowledge of topic about audiovisual systems. The most difficult thing of realizing this document it was to take very complex topic and try to explain them as simply as possible In spite of everything for making this document as much accurated as possible it has been taken as point of reference rules established by the Department of Audiovisual Engineering & Communications of University School of Telecommunications Engineering (EUITT-UPM). This Project reach academic goal, for this reason in this document images, tables, annexes and outlines are enclosed in this document for an easier compression. At last, it’s necessary to say that each lector must have necessary a basic knowledge about arithmetic, calculus, waves and electronic circuits in the order that he could follow in a fluently way what the documentation set out.
Resumo:
La presente Tesis analiza las posibilidades que ofrecen en la actualidad las tecnologías del habla para la detección de patologías clínicas asociadas a la vía aérea superior. El estudio del habla que tradicionalmente cubre tanto la producción como el proceso de transformación del mensaje y las señales involucradas, desde el emisor hasta alcanzar al receptor, ofrece una vía de estudio alternativa para estas patologías. El hecho de que la señal emitida no solo contiene este mensaje, sino también información acerca del locutor, ha motivado el desarrollo de sistemas orientados a la identificación y verificación de la identidad de los locutores. Estos trabajos han recibido recientemente un nuevo impulso, orientándose tanto hacia la caracterización de rasgos que son comunes a varios locutores, como a las diferencias existentes entre grabaciones de un mismo locutor. Los primeros resultan especialmente relevantes para esta Tesis dado que estos rasgos podrían evidenciar la presencia de características relacionadas con una cierta condición común a varios locutores, independiente de su identidad. Tal es el caso que se enfrenta en esta Tesis, donde los rasgos identificados se relacionarían con una de la patología particular y directamente vinculada con el sistema de físico de conformación del habla. El caso del Síndrome de Apneas Hipopneas durante el Sueno (SAHS) resulta paradigmático. Se trata de una patología con una elevada prevalencia mundo, que aumenta con la edad. Los pacientes de esta patología experimentan episodios de cese involuntario de la respiración durante el sueño, que se prolongan durante varios segundos y que se reproducen a lo largo de la noche impidiendo el correcto descanso. En el caso de la apnea obstructiva, estos episodios se deben a la imposibilidad de mantener un camino abierto a través de la vía aérea, de forma que el flujo de aire se ve interrumpido. En la actualidad, el diagnostico de estos pacientes se realiza a través de un estudio polisomnográfico, que se centra en el análisis de los episodios de apnea durante el sueño, requiriendo que el paciente permanezca en el hospital durante una noche. La complejidad y el elevado coste de estos procedimientos, unidos a las crecientes listas de espera, han evidenciado la necesidad de contar con técnicas rápidas de detección, que si bien podrían no obtener tasas tan elevadas, permitirían reorganizar las listas de espera en función del grado de severidad de la patología en cada paciente. Entre otros, los sistemas de diagnostico por imagen, así como la caracterización antropométrica de los pacientes, han evidenciado la existencia de patrones anatómicos que tendrían influencia directa sobre el habla. Los trabajos dedicados al estudio del SAHS en lo relativo a como esta afecta al habla han sido escasos y algunos de ellos incluso contradictorios. Sin embargo, desde finales de la década de 1980 se conoce la existencia de patrones específicos relativos a la articulación, la fonación y la resonancia. Sin embargo, su descripción resultaba difícilmente aprovechable a través de un sistema de reconocimiento automático, pero apuntaba la existencia de un nexo entre voz y SAHS. En los últimos anos las técnicas de procesado automático han permitido el desarrollo de sistemas automáticos que ya son capaces de identificar diferencias significativas en el habla de los pacientes del SAHS, y que los distinguen de los locutores sanos. Por contra, poco se conoce acerca de la conexión entre estos nuevos resultados, los sé que habían obtenido en el pasado y la patogénesis del SAHS. Esta Tesis continua la labor desarrollada en este ámbito considerando específicamente: el estudio de la forma en que el SAHS afecta el habla de los pacientes, la mejora en las tasas de clasificación automática y la combinación de la información obtenida con los predictores utilizados por los especialistas clínicos en sus evaluaciones preliminares. Las dos primeras tareas plantean problemas simbióticos, pero diferentes. Mientras el estudio de la conexión entre el SAHS y el habla requiere de modelos acotados que puedan ser interpretados con facilidad, los sistemas de reconocimiento se sirven de un elevado número de dimensiones para la caracterización y posterior identificación de patrones. Así, la primera tarea debe permitirnos avanzar en la segunda, al igual que la incorporación de los predictores utilizados por los especialistas clínicos. La Tesis aborda el estudio tanto del habla continua como del habla sostenida, con el fin de aprovechar las sinergias y diferencias existentes entre ambas. En el análisis del habla continua se tomo como punto de partida un esquema que ya fue evaluado con anterioridad, y sobre el cual se ha tratado la evaluación y optimización de la representación del habla, así como la caracterización de los patrones específicos asociados al SAHS. Ello ha evidenciado la conexión entre el SAHS y los elementos fundamentales de la señal de voz: los formantes. Los resultados obtenidos demuestran que el éxito de estos sistemas se debe, fundamentalmente, a la capacidad de estas representaciones para describir dichas componentes, obviando las dimensiones ruidosas o con poca capacidad discriminativa. El esquema resultante ofrece una tasa de error por debajo del 18%, sirviéndose de clasificadores notablemente menos complejos que los descritos en el estado del arte y de una única grabación de voz de corta duración. En relación a la conexión entre el SAHS y los patrones observados, fue necesario considerar las diferencias inter- e intra-grupo, centrándonos en la articulación característica del locutor, sustituyendo los complejos modelos de clasificación por el estudio de los promedios espectrales. El resultado apunta con claridad hacia ciertas regiones del eje de frecuencias, sugiriendo la existencia de un estrechamiento sistemático en la sección del tracto en la región de la orofaringe, ya prevista en la patogénesis de este síndrome. En cuanto al habla sostenida, se han reproducido los estudios realizados sobre el habla continua en grabaciones de la vocal /a/ sostenida. Los resultados son cualitativamente análogos a los anteriores, si bien en este caso las tasas de clasificación resultan ser más bajas. Con el objetivo de identificar el sentido de este resultado se reprodujo el estudio de los promedios espectrales y de la variabilidad inter e intra-grupo. Ambos estudios mostraron importantes diferencias con los anteriores que podrían explicar estos resultados. Sin embargo, el habla sostenida ofrece otras oportunidades al establecer un entorno controlado para el estudio de la fonación, que también había sido identificada como una fuente de información para la detección del SAHS. De su estudio se pudo observar que, en el conjunto de datos disponibles, no existen variaciones que pudieran asociarse fácilmente con la fonación. Únicamente aquellas dimensiones que describen la distribución de energía a lo largo del eje de frecuencia evidenciaron diferencias significativas, apuntando, una vez más, en la dirección de las resonancias espectrales. Analizados los resultados anteriores, la Tesis afronta la fusión de ambas fuentes de información en un único sistema de clasificación. Con ello es posible mejorar las tasas de clasificación, bajo la hipótesis de que la información presente en el habla continua y el habla sostenida es fundamentalmente distinta. Esta tarea se realizo a través de un sencillo esquema de fusión que obtuvo un 88.6% de aciertos en clasificación (tasa de error del 11.4%), lo que representa una mejora significativa respecto al estado del arte. Finalmente, la combinación de este clasificador con los predictores utilizados por los especialistas clínicos ofreció una tasa del 91.3% (tasa de error de 8.7%), que se encuentra dentro del margen ofrecido por esquemas más costosos e intrusivos, y que a diferencia del propuesto, no pueden ser utilizados en la evaluación previa de los pacientes. Con todo, la Tesis ofrece una visión clara sobre la relación entre el SAHS y el habla, evidenciando el grado de madurez alcanzado por la tecnología del habla en la caracterización y detección del SAHS, poniendo de manifiesto que su uso para la evaluación de los pacientes ya sería posible, y dejando la puerta abierta a futuras investigaciones que continúen el trabajo aquí iniciado. ABSTRACT This Thesis explores the potential of speech technologies for the detection of clinical disorders connected to the upper airway. The study of speech traditionally covers both the production process and post processing of the signals involved, from the speaker up to the listener, offering an alternative path to study these pathologies. The fact that utterances embed not just the encoded message but also information about the speaker, has motivated the development of automatic systems oriented to the identification and verificaton the speaker’s identity. These have recently been boosted and reoriented either towards the characterization of traits that are common to several speakers, or to the differences between records of the same speaker collected under different conditions. The first are particularly relevant to this Thesis as these patterns could reveal the presence of features that are related to a common condition shared among different speakers, regardless of their identity. Such is the case faced in this Thesis, where the traits identified would relate to a particular pathology, directly connected to the speech production system. The Obstructive Sleep Apnea syndrome (OSA) is a paradigmatic case for analysis. It is a disorder with high prevalence among adults and affecting a larger number of them as they grow older. Patients suffering from this disorder experience episodes of involuntary cessation of breath during sleep that may last a few seconds and reproduce throughout the night, preventing proper rest. In the case of obstructive apnea, these episodes are related to the collapse of the pharynx, which interrupts the air flow. Currently, OSA diagnosis is done through a polysomnographic study, which focuses on the analysis of apnea episodes during sleep, requiring the patient to stay at the hospital for the whole night. The complexity and high cost of the procedures involved, combined with the waiting lists, have evidenced the need for screening techniques, which perhaps would not achieve outstanding performance rates but would allow clinicians to reorganize these lists ranking patients according to the severity of their condition. Among others, imaging diagnosis and anthropometric characterization of patients have evidenced the existence of anatomical patterns related to OSA that have direct influence on speech. Contributions devoted to the study of how this disorder affects scpeech are scarce and somehow contradictory. However, since the late 1980s the existence of specific patterns related to articulation, phonation and resonance is known. By that time these descriptions were virtually useless when coming to the development of an automatic system, but pointed out the existence of a link between speech and OSA. In recent years automatic processing techniques have evolved and are now able to identify significant differences in the speech of OSAS patients when compared to records from healthy subjects. Nevertheless, little is known about the connection between these new results with those published in the past and the pathogenesis of the OSA syndrome. This Thesis is aimed to progress beyond the previous research done in this area by addressing: the study of how OSA affects patients’ speech, the enhancement of automatic OSA classification based on speech analysis, and its integration with the information embedded in the predictors generally used by clinicians in preliminary patients’ examination. The first two tasks, though may appear symbiotic at first, are quite different. While studying the connection between speech and OSA requires simple narrow models that can be easily interpreted, classification requires larger models including a large number dimensions for the characterization and posterior identification of the observed patterns. Anyhow, it is clear that any progress made in the first task should allow us to improve our performance on the second one, and that the incorporation of the predictors used by clinicians shall contribute in this same direction. The Thesis considers both continuous and sustained speech analysis, to exploit the synergies and differences between them. On continuous speech analysis, a conventional speech processing scheme, designed and evaluated before this Thesis, was taken as a baseline. Over this initial system several alternative representations of the speech information were proposed, optimized and tested to select those more suitable for the characterization of OSA-specific patterns. Evidences were found on the existence of a connection between OSA and the fundamental constituents of the speech: the formants. Experimental results proved that the success of the proposed solution is well explained by the ability of speech representations to describe these specific OSA-related components, ignoring the noisy ones as well those presenting low discrimination capabilities. The resulting scheme obtained a 18% error rate, on a classification scheme significantly less complex than those described in the literature and operating on a single speech record. Regarding the connection between OSA and the observed patterns, it was necessary to consider inter-and intra-group differences for this analysis, and to focus on the articulation, replacing the complex classification models by the long-term average spectra. Results clearly point to certain regions on the frequency axis, suggesting the existence of a systematic narrowing in the vocal tract section at the oropharynx. This was already described in the pathogenesis of this syndrome. Regarding sustained speech, similar experiments as those conducted on continuous speech were reproduced on sustained phonations of vowel / a /. Results were qualitatively similar to the previous ones, though in this case perfomance rates were found to be noticeably lower. Trying to derive further knowledge from this result, experiments on the long-term average spectra and intraand inter-group variability ratios were also reproduced on sustained speech records. Results on both experiments showed significant differences from the previous ones obtained from continuous speech which could explain the differences observed on peformance. However, sustained speech also provided the opportunity to study phonation within the controlled framework it provides. This was also identified in the literature as a source of information for the detection of OSA. In this study it was found that, for the available dataset, no sistematic differences related to phonation could be found between the two groups of speakers. Only those dimensions which relate energy distribution along the frequency axis provided significant differences, pointing once again towards the direction of resonant components. Once classification schemes on both continuous and sustained speech were developed, the Thesis addressed their combination into a single classification system. Under the assumption that the information in continuous and sustained speech is fundamentally different, it should be possible to successfully merge the two of them. This was tested through a simple fusion scheme which obtained a 88.6% correct classification (11.4% error rate), which represents a significant improvement over the state of the art. Finally, the combination of this classifier with the variables used by clinicians obtained a 91.3% accuracy (8.7% error rate). This is within the range of alternative, but costly and intrusive schemes, which unlike the one proposed can not be used in the preliminary assessment of patients’ condition. In the end, this Thesis has shed new light on the underlying connection between OSA and speech, and evidenced the degree of maturity reached by speech technology on OSA characterization and detection, leaving the door open for future research which shall continue in the multiple directions that have been pointed out and left as future work.
Resumo:
En este proyecto se exponen, por un lado, los fundamentos de un nuevo sistema de codificación de imagen. Este sistema, llamado Logarithmical Hoping Encoding (LHE) codifica cada píxel de la imagen utilizando saltos logarítmicos en el dominio del espacio, es decir, trabajando con los valores de luminancia y crominancia de los píxeles, sin necesidad de pasar al dominio de la frecuencia. Además, se realiza el análisis de dicho sistema y se ofrecen resultados comparativos con formatos de compresión actuales, tales como JPEG. Por otro lado, se presentan las primeras ideas para el desarrollo de un sistema que permita comprimir vídeo utilizando la tecnología LHE. Así mismo, se muestran los primeros resultados obtenidos y las conclusiones derivadas de los mismos.