43 resultados para Grabaciones sonoras
Resumo:
Un acúfeno (tinnitus) es la percepción de un sonido en ausencia de estimulación acústica externa, es decir, la experiencia consciente de un sonido que se origina en la propia cabeza del paciente. En colaboración con el departamento de acústica (CAEND) del Consejo Superior de Investigaciones Científicas (CSIC), se pretende revertir (de forma paliativa) las molestias, con ayuda de terapias sonoras que estimulan el sistema auditivo. Primero, se analizan los tratamientos existentes que se utilizan para atender a los pacientes diagnosticados. Por último, se diseñan dos aplicaciones informáticas referentes a las terapias: Auditory Discrimination Training (ADT) y Enriched Acoustic Environment (EAE). Abstract Tinnitus is the perception of sound in the absence of external acoustic stimulation, in addition, the conscious experience a sound originating from the patient’s own head. In collaboration with the department of acoustic (CAEND) of the Consejo Superior de Investigaciones Científicas (CSIC), is to reverse (for palliation) discomfort, using sound therapies that stimulate the auditory system. First, we analyze the existing treatments are used to treat patients diagnosed. Finally, two applications are designed regarding therapies: Auditory Discrimination Training (ADT) and Enriched Acoustic Environment (EAE).
Resumo:
Due to its small size and the restrictions on source and listener positions, the design of sound reproduction systems for car cabins is particularly cumbersome. In the present project the measurement of the impulse response between a single loudspeaker and a listener position, with special emphasis on the directional characteristics, will be examined. The propagation paths inside a car are very short, meaning that it is very difficult for the existing commercial measurement systems to resolve the different reflections arriving to the listener. This paper propose a first approach of an algorithm based on time difference of arrival along a measurement technique aiming at finding the reflections and their direction of arrival to the listener. To this end a circular microphone array at a known position is employed, along with Maximum-Length Sequences (MLS) measurement technique. The results are processed so as to extract the directional properties, demonstrate the physical limitations that can influence or prevent this detection in practice. Measurements were carried out in a free-field environment (anechoic chamber) making use of different panels closer around the microphone array. RESUMEN. El diseño de sistemas de reproducción de audio para cabinas de coche es especialmente complicado debido al reducido tamaño del espacio y las restricciones de los altavoces y posiciones de escucha de los ocupantes. En el presente proyecto, se examinan mediciones de la respuesta al impulso entre un altavoz y una posición de escucha con especial énfasis en las características direccionales. Los caminos de propagación de las ondas sonoras dentro de un coche son muy cortos, lo que hace difícil para los instrumentos de medida existentes en el mercado determinar las direcciones de llegada de las diferentes reflexiones que llegan a una posición de escucha. Este trabajo propone una primera aproximación de un algoritmo, basado en las diferencias temporales de llegada de una onda a diferentes puntos de medida, y una particular técnica de medida de la respuesta al impulso para obtener las direcciones de llegada de reflexiones a una posición de escucha. Para ello, se emplea una matriz circular de micrófonos en una posición conocida junto con la técnica de medida MLS (Maximum Length Sequence). Los resultados obtenidos son procesados para extraer la dirección de llegada de las reflexiones acústicas y encontrar las limitaciones que influyan en la detección de dichas reflexiones. Las mediciones se llevan a cabo en un entorno de campo libre y utilizando diferentes superficies reflectantes alrededor de la matriz de micrófonos.
Resumo:
Las plantas industriales de exploración y producción de petróleo y gas disponen de numerosos sistemas de comunicación que permiten el correcto funcionamiento de los procesos que tienen lugar en ella así como la seguridad de la propia planta. Para el presente Proyecto Fin de Carrera se ha llevado a cabo el diseño del sistema de megafonía PAGA (Public Address and General Alarm) y del circuito cerrado de televisión (CCTV) en la unidad de procesos Hydrocrcaker encargada del craqueo de hidrógeno. Partiendo de los requisitos definidos por las especificaciones corporativas de los grupos petroleros para ambos sistemas, PAGA y CCTV, se han expuesto los principios teóricos sobre los que se fundamenta cada uno de ellos y las pautas a seguir para el diseño y demostración del buen funcionamiento a partir de software específico. Se ha empleado las siguientes herramientas software: EASE para la simulación acústica, PSpice para la simulación eléctrica de las etapas de amplificación en la megafonía; y JVSG para el diseño de CCTV. La sonorización tanto de las unidades como del resto de instalaciones interiores ha de garantizar la inteligibilidad de los mensajes transmitidos. La realización de una simulación acústica permite conocer cómo va a ser el comportamiento de la megafonía sin necesidad de instalar el sistema, lo cual es muy útil para este tipo de proyectos cuya ingeniería se realiza previamente a la construcción de la planta. Además se comprueba el correcto diseño de las etapas de amplificación basadas en líneas de alta impedancia o de tensión constante (100 V). El circuito cerrado de televisión (CCTV) garantiza la transmisión de señales visuales de todos los accesos a las instalaciones y unidades de la planta así como la visión en tiempo real del correcto funcionamiento de los procesos químicos llevados a cabo en la refinería. El sistema dispone de puestos de control remoto para el manejo y gestión de las cámaras desplegadas; y de un sistema de almacenamiento de las grabaciones en discos duros (RAID-5) a través de una red SAN (Storage Area Network). Se especifican las diferentes fases de un proyecto de ingeniería en el sector de E&P de hidrocarburos entre las que se destaca: propuesta y adquisición, reunión de arranque (KOM, Kick Off Meeting), estudio in situ (Site Survey), plan de proyecto, diseño y documentación, procedimientos de pruebas, instalación, puesta en marcha y aceptaciones del sistema. Se opta por utilizar terminología inglesa dado al ámbito global del sector. En la última parte del proyecto se presenta un presupuesto aproximado de los materiales empleados en el diseño de PAGA y CCTV. ABSTRACT. Integrated communications for Oil and Gas allows reducing risks, improving productivity, reducing costs, and countering threats to safety and security. Both PAGA system (Public Address and General Alarm) and Closed Circuit Television have been designed for this project in order to ensure a reliable security of an oil refinery. Based on the requirements defined by corporate specifications for both systems (PAGA and CCTV), theoretical principles have been presented as well as the guidelines for the design and demonstration of a reliable design. The following software has been used: EASE for acoustic simulation; PSpice for simulation of the megaphony amplification loops; and JVSG tool for CCTV design. Acoustic for both the units and the other indoor facilities must ensure intelligibility of the transmitted messages. An acoustic simulation allows us to know how will be the performance of the PAGA system without installing loudspeakers, which is very useful for this type of project whose engineering is performed prior to the construction of the plant. Furthermore, it has been verified the correct design of the amplifier stages based on high impedance lines or constant voltage (100 V). Closed circuit television (CCTV) ensures the transmission of visual signals of all access to facilities as well as real-time view of the proper functioning of chemical processes carried out at the refinery. The system has remote control stations for the handling and management of deployed cameras. It is also included a storage system of the recordings on hard drives (RAID - 5) through a SAN (Storage Area Network). Phases of an engineering project in Oil and Gas are defined in the current project. It includes: proposal and acquisition, kick-off meeting (KOM), Site Survey, project plan, design and documentation, testing procedures (SAT and FAT), installation, commissioning and acceptance of the systems. Finally, it has been presented an estimate budget of the materials used in the design of PAGA and CCTV.
Resumo:
En este proyecto se aborda la transducción óptico-sonora utilizando métodos de tratamiento digital de imagen. Para llevar a cabo el proyecto se consideran únicamente métodos de bajo presupuesto, por lo que para realizar todo el proceso de conversión óptico-sonora se utilizan un ordenador y un escáner doméstico. Como el principal objetivo del proyecto es comprobar si es viable utilizar el tratamiento digital de imagen como conversor no se ha contemplado la utilización de equipamiento profesional. La utilidad de este proyecto está en la restauración del sonido de material fílmico con importantes degradaciones, tales que no sea posible su reproducción en un proyector. Con el prototipo que se propone, realizado con el software de programación Matlab, se consigue digitalizar el audio analógico de las películas en malas condiciones ya que la captura de audio se efectúa de manera óptica sobre las bandas sonoras. Lo conseguido en este proyecto cobra especial importancia si se tiene en cuenta la cantidad de material cinematográfico que hay en películas de celulosa. La conservación de dicho material requiere unas condiciones de almacenamiento muy específicas para que el soporte no se vea afectado, pero con el paso del tiempo es habitual que las bobinas de película presenten deformaciones o incluso ruptura. Aplicando métodos de tratamiento digital de imagen es posible restaurar el audio de fragmentos de película que no puedan ser expuestos a la tensión producida por los rodillos de los proyectores, incluso es posible recuperar el audio de fotogramas concretos ya que la digitalización del audio se realiza capturando la imagen de la forma de onda. Por ello, el procedimiento seguido para digitalizar la película debe ser poco intrusivo para garantizar la conservación del soporte fílmico. Cabe destacar que en este proyecto se ha realizado la conversión óptico-sonora sobre las bandas de sonido analógicas de área variable presentes en la película, pero el procedimiento es aplicable también a las bandas de área variable realizando modificaciones en el prototipo. Esto último queda fuera del objetivo de este proyecto, pero puede ser un trabajo futuro. ABSTRACT This project addresses optical to sound conversion using digital image processing methods. To carry out the project are considered only low-budget methods , so for all optical to sound conversion process using a computer and a home scanner . As the main application of this project is to test the feasibility of using the digital image processing as a converter does not contemplate the use of professional equipment. The main objective of this project is the restoration of sound film material with significant impairments , such is not possible playback on a projector. With the proposed prototype , made with Matlab programming software , you get digitize analog audio bad movies because the audio capture is performed optically on the soundtracks. The achievements in this project is especially important if you consider the amount of film material is in cellulose films . The preservation of such material requires a very specific storage conditions to which the support is not affected , but over time it is common for film reels presenting deformations or even rupture. Applying methods of digital image processing is possible to restore the audio from movie clips that can not be exposed to the tension produced by the rollers of the projectors , it is even possible to retrieve specific frames audio and audio that digitization is done by capturing the image of the waveform. Therefore, the procedure used to digitize the film should be bit intrusive to ensure the conservation of the film medium. Note that in this project was carried out optical to sound conversion on analog variable area soundtracks present in the film, but the procedure is applicable to variable-area bands making changes to the prototype. The latter is beyond the scope of this project, but can be a future work.
Resumo:
El actual proyecto consiste en la creación de una interfaz gráfica de usuario (GUI) en entorno de MATLAB que realice una representación gráfica de la base de datos de HRTF (Head-Related Transfer Function). La función de transferencia de la cabeza es una herramienta muy útil en el estudio de la capacidad del ser humano para percibir su entorno sonoro, además de la habilidad de éste en la localización de fuentes sonoras en el espacio que le rodea. La HRTF biaural (terminología para referirse al conjunto de HRTF del oído izquierdo y del oído derecho) en sí misma, posee información de especial interés ya que las diferencias entre las HRTF de cada oído, conceden la información que nuestro sistema de audición utiliza en la percepción del campo sonoro. Por ello, la funcionalidad de la interfaz gráfica creada presenta gran provecho dentro del estudio de este campo. Las diferencias interaurales se caracterizan en amplitud y en tiempo, variando en función de la frecuencia. Mediante la transformada inversa de Fourier de la señal HRTF, se obtiene la repuesta al impulso de la cabeza, es decir, la HRIR (Head-Related Impulse Response). La cual, además de tener una gran utilidad en la creación de software o dispositivos de generación de sonido envolvente, se utiliza para obtener las diferencias ITD (Interaural Time Difference) e ILD (Interaural Time Difference), comúnmente denominados “parámetros de localización espacial”. La base de datos de HRTF contiene la información biaural de diferentes puntos de ubicación de la fuente sonora, formando una red de coordenadas esféricas que envuelve la cabeza del sujeto. Dicha red, según las medidas realizadas en la cámara anecoica de la EUITT (Escuela Universitaria de Ingeniería Técnica de Telecomunicación), presenta una precisión en elevación de 10º y en azimut de 5º. Los receptores son dos micrófonos alojados en el maniquí acústico llamado HATS (Hats and Torso Simulator) modelo 4100D de Brüel&Kjaer. Éste posee las características físicas que influyen en la percepción del entorno como son las formas del pabellón auditivo (pinna), de la cabeza, del cuello y del torso humano. Será necesario realizar los cálculos de interpolación para todos aquellos puntos no contenidos en la base de datos HRTF, este proceso es sumamente importante no solo para potenciar la capacidad de la misma sino por su utilidad para la comparación entre otras bases de datos existentes en el estudio de este ámbito. La interfaz gráfica de usuario está concebida para un manejo sencillo, claro y predecible, a la vez que interactivo. Desde el primer boceto del programa se ha tenido clara su filosofía, impuesta por las necesidades de un usuario que busca una herramienta práctica y de manejo intuitivo. Su diseño de una sola ventana reúne tanto los componentes de obtención de datos como los que hacen posible la representación gráfica de las HRTF, las HRIR y los parámetros de localización espacial, ITD e ILD. El usuario podrá ir alternando las representaciones gráficas a la vez que introduce las coordenadas de los puntos que desea visualizar, definidas por phi (elevación) y theta (azimut). Esta faceta de la interfaz es la que le otorga una gran facilidad de acceso y lectura de la información representada en ella. Además, el usuario puede introducir valores incluidos en la base de datos o valores intermedios a estos, de esta manera, se indica a la interfaz la necesidad de realizar la interpolación de los mismos. El método de interpolación escogido es el de la ponderación de la distancia inversa entre puntos. Dependiendo de los valores introducidos por el usuario se realizará una interpolación de dos o cuatro puntos, siendo éstos limítrofes al valor introducido, ya sea de phi o theta. Para añadir versatilidad a la interfaz gráfica de usuario, se ha añadido la opción de generar archivos de salida en forma de imagen de las gráficas representadas, de tal forma que el usuario pueda extraer los datos que le interese para cualquier valor de phi y theta. Se completa el presente proyecto fin de carrera con un trabajo de investigación y estudio comparativo de la función y la aplicación de las bases de datos de HRTF dentro del marco científico y de investigación. Esto ha hecho posible concentrar información relacionada a través de revistas científicas de investigación como la JAES (Journal of the Audio Engineering Society) o la ASA (Acoustical Society of America), además, del IEEE ( Institute of Electrical and Electronics Engineers) o la “Web of knowledge” entre otras. Además de realizar la búsqueda en estas fuentes, se ha optado por vías de información más comunes como Google Académico o el portal de acceso “Ingenio” a los todos los recursos electrónicos contenidos en la base de datos de la universidad. El estudio genera una ampliación en el conocimiento de la labor práctica de las HRTF. La mayoría de los estudios enfocan sus esfuerzos en mejorar la percepción del evento sonoro mediante su simulación en la escucha estéreo o multicanal. A partir de las HRTF, esto es posible mediante el análisis y el cálculo de datos como pueden ser las regresiones, siendo éstas muy útiles en la predicción de una medida basándose en la información de la actual. Otro campo de especial interés es el de la generación de sonido 3D. Mediante la base de datos HRTF es posible la simulación de una señal biaural. Se han diseñado algoritmos que son implementados en dispositivos DSP, de tal manera que por medio de retardos interaurales y de diferencias espectrales es posible llegar a un resultado óptimo de sonido envolvente, sin olvidar la importancia de los efectos de reverberación para conseguir un efecto creíble de sonido envolvente. Debido a la complejidad computacional que esto requiere, gran parte de los estudios coinciden en desarrollar sistemas más eficientes, llegando a objetivos tales como la generación de sonido 3D en tiempo real. ABSTRACT. This project involves the creation of a Graphic User Interface (GUI) in the Matlab environment which creates a graphic representation of the HRTF (Head-Related Transfer Function) database. The head transfer function is a very useful tool in the study of the capacity of human beings to perceive their sound environment, as well as their ability to localise sound sources in the area surrounding them. The binaural HRTF (terminology which refers to the HRTF group of the left and right ear) in itself possesses information of special interest seeing that the differences between the HRTF of each ear admits the information that our system of hearing uses in the perception of each sound field. For this reason, the functionality of the graphic interface created presents great benefits within the study of this field. The interaural differences are characterised in space and in time, varying depending on the frequency. By means of Fourier's transformed inverse of the HRTF signal, the response to the head impulse is obtained, in other words, the HRIR (Head-Related Impulse Response). This, as well as having a great use in the creation of software or surround sound generating devices, is used to obtain ITD differences (Interaural Time Difference) and ILD (Interaural Time Difference), commonly named “spatial localisation parameters”. The HRTF database contains the binaural information of different points of sound source location, forming a network of spherical coordinates which surround the subject's head. This network, according to the measures carried out in the anechoic chamber at the EUITT (School of Telecommunications Engineering) gives a precision in elevation of 10º and in azimuth of 5º. The receivers are two microphones placed on the acoustic mannequin called HATS (Hats and Torso Simulator) Brüel&Kjaer model 4100D. This has the physical characteristics which affect the perception of the surroundings which are the forms of the auricle (pinna), the head, neck and human torso. It will be necessary to make interpolation calculations for all those points which are not contained the HRTF database. This process is extremely important not only to strengthen the database's capacity but also for its usefulness in making comparisons with other databases that exist in the study of this field. The graphic user interface is conceived for a simple, clear and predictable use which is also interactive. Since the first outline of the program, its philosophy has been clear, based on the needs of a user who requires a practical tool with an intuitive use. Its design with only one window unites not only the components which obtain data but also those which make the graphic representation of the HRTFs possible, the hrir and the ITD and ILD spatial location parameters. The user will be able to alternate the graphic representations at the same time as entering the point coordinates that they wish to display, defined by phi (elevation) and theta (azimuth). The facet of the interface is what provides the great ease of access and reading of the information displayed on it. In addition, the user can enter values included in the database or values which are intermediate to these. It is, likewise, indicated to the interface the need to carry out the interpolation of these values. The interpolation method is the deliberation of the inverse distance between points. Depending on the values entered by the user, an interpolation of two or four points will be carried out, with these being adjacent to the entered value, whether that is phi or theta. To add versatility to the graphic user interface, the option of generating output files in the form of an image of the graphics displayed has been added. This is so that the user may extract the information that interests them for any phi and theta value. This final project is completed with a research and comparative study essay on the function and application of HRTF databases within the scientific and research framework. It has been possible to collate related information by means of scientific research magazines such as the JAES (Journal of the Audio Engineering Society), the ASA (Acoustical Society of America) as well as the IEEE (Institute of Electrical and Electronics Engineers) and the “Web of knowledge” amongst others. In addition to carrying out research with these sources, I also opted to use more common sources of information such as Academic Google and the “Ingenio” point of entry to all the electronic resources contained on the university databases. The study generates an expansion in the knowledge of the practical work of the HRTF. The majority of studies focus their efforts on improving the perception of the sound event by means of its simulation in stereo or multichannel listening. With the HRTFs, this is possible by means of analysis and calculation of data as can be the regressions. These are very useful in the prediction of a measure being based on the current information. Another field of special interest is that of the generation of 3D sound. Through HRTF databases it is possible to simulate the binaural signal. Algorithms have been designed which are implemented in DSP devices, in such a way that by means of interaural delays and wavelength differences it is possible to achieve an excellent result of surround sound, without forgetting the importance of the effects of reverberation to achieve a believable effect of surround sound. Due to the computational complexity that this requires, a great many studies agree on the development of more efficient systems which achieve objectives such as the generation of 3D sound in real time.
Resumo:
Este proyecto fin de carrera trata del sistema de grabación y reproducción sonora ambiofónico, destacar que este sistema y la tecnología que emplea es de dominio público. La ambiofonía se basa en un amalgama de investigaciones recientes y de los ya bien sabidos principios psicoacústicos y binaurales. Estos avances han expandido nuevas fronteras en lo concerniente a la grabación y reproducción de audio, así como de presentar al oyente un campo sonoro a la entrada de sus oídos lo más parecido posible al campo sonoro al que se expondría al oyente en el momento y lugar de la toma de sonido, es decir, reconstruye un campo sonora binaural. Este sistema ha podido desarrollarse, de una manera bastante satisfactoria, gracias a todos los estudios y textos anteriores en materia de psicoacústica y del mecanismo de escucha humano. Otro factor gracias al cual es posible y asequible, tanto el desarrollo como el disfrute de esta tecnología, es el hecho que en nuestros días es muy económico disponer de ordenadores lo suficientemente potentes y rápidos para realizar el procesado de señales que se requiere de una manera bastante rápida. Los desarrolladores de dicha tecnología han publicado diversos documentos y archivos descargables de la red con aplicaciones para la implementación de sistemas ambiofónicos de manera gratuita para uso privado. El sistema ambiofónico se basa en la combinación de factores psicoacústicos ignorados o subestimados y lo ya sabido sobre las propiedades acústicas de salas, tanto de salas en las que tienen lugar las ejecuciones musicales (auditorios, teatros, salas de conciertos...), como de salas de escucha (salones de domicilios, controles de estudios...). En la parte práctica del proyecto se van a realizar una serie de grabaciones musicales empleando tanto técnicas estereofónicas tradicionales como ambiofónicas de grabación con el fin de describir y comparar ambas técnicas microfónicas. También servirá para estudiar hasta que punto es favorable subjetivamente para el oyente el hecho de realizar la toma de sonido teniendo en cuenta las propiedades del sistema de reproducción ambiofónico. Esta comparación nos dará una idea de hasta donde se puede llegar, en cuanto a sensación de realidad para el oyente, al tener en cuenta durante el proceso de grabación efectos como la respuesta del pabellón auditivo del oyente, la cual es única, y que posteriormente la diafonía interaural va a ser cancelada mediante un procesado digital de señal. ABSTRACT. This final project is about the ambiophonic recording and playback system, note that this system and the technology it uses is of public domain. Ambiophonics is based on an amalgam of recent research and to the well known and binaural psychoacoustic principles. These advances have expanded new frontiers with regard to the audio recording and playback, as well as to present the listener a sound field at the entrance of their ears as close as possible to the sound field that would the listener be exposed to at the time and place of the mucial interpretation, so we can say that ambiophonics reconstructs a binaural sound field . This system has been developed, in a fairly satisfactory way, thanks to all the studies and previous texts on psychoacoustics and human listening mechanism. Another factor by which it is possible and affordable, both the development and the enjoyment of this technology, is the fact that in our days is inexpensive to usres to own computers that are powerful and fast enough to perform the signal processing that is required in a short time. The developers of this technology have published several documents and downloadable files on the network with applications for ambiophonics system implementation for free. Ambiophonics is based on a combination of factors ignored or underestimated psychoacousticly and what is already known about the acoustic properties of rooms, including rooms where musical performances take place (auditoriums, theaters, concert halls...), and listening rooms (concet halls, studios controls...). In the practical part of the project will be making a series of musical recordings using both traditional stereo recording techniques and recording techiniques compatible with ambiophonics in order to describe and compare both recording techniques. It will also examine to what extent is subjectively favorable for the listener the fact of considering the playback system properties of ambiophonics during the recording stage. This comparison will give us an idea of how far can we get, in terms of sense of reality to the listener, keeping in mind during the recording process the effects introduced by the response of the ear of the listener, which is unique, and that the subsequently interaural crosstalk will be canceled by a digital signal processing.
Resumo:
As a consequence of cinema screens being placed in front of screen-speakers, a reduction in sound quality has been noticed. Cinema screens not only let the sound go through them, but also absorb a small amount of it and reflect the sound which impacts on the screen to the back, coming forward again in case it impacts on the loudspeaker. This backwards reflection in addition to the signal coming from the loudspeaker can lead to constructive or destructive interference at certain frequencies which usually results in comb filtering. In this project, this effect has been studied through researching amongst various data sheet provided by different manufacturers, acoustical measurements completed in the large anechoic chamber of the ISVR and some theoretical models developed with MatLab software. If results obtained with MatLab are accurate enough in comparison to the real measurements taken in the anechoic chamber this would lead to a good way to predict which would be the attenuation added to the system at each frequency, given that not all manufacturers provide an attenuation curve, but only an average attenuation. This average attenuation might be useless as sound waves have different wavelengths and its propagation through partitions varies. In fact, sound is composed by high and low frequencies, where high frequencies are characterised by a small wavelength which is usually easier to attenuate than low frequencies that characterised by bigger wavelengths. Furthermore, this information would be of great value to both screen manufacturers, who could offer a much more precise data in their data sheets; and customers, who would have a great amount of information to their disposal before purchasing and installing anything in their cinemas, being able to know by themselves which screen or loudspeaker should be best to meet their expectative. RESUMEN. La aparición de la digitalización de las bandas sonoras para las películas hace posible la mejora en la calidad de sonido de los cines. Sin embargo, un aspecto a tener en cuenta en esta calidad del sonido es la transmisión de éste a través de la pantalla, ya que normalmente tras ella se encuentran situados los altavoces. Las propiedades acústicas varían dependiendo del tipo de pantalla que se utilice, además de haber poca información a la que acceder para poder valorar su comportamiento. A lo largo de este proyecto, se analizan tres muestras de pantallas distintas donadas por distintos fabricantes para poder llegar a la conclusión de dependiendo del tipo de pantalla cuál es la distancia óptima a la que localizar la pantalla respecto al altavoz y con qué inclinación. Dicho análisis se realizó en la cámara anecoica del ISVR (University of Southampton) mediante la construcción de un marco de madera de 2x2 m en el que tensar las pantallas de cine, y un altavoz cuyo comportamiento sea el más similar al de los altavoces de pantalla reales. Los datos se captaron mediante cuatro micrófonos colocados en posiciones distintas y conectados al software Pulse de Brüel & Kjær, a través del cual se obtuvieron las respuestas en frecuencia del altavoz sin pantalla y con ella a diferentes distancias del altavoz. Posteriormente, los datos se analizaron con MatLab donde se calculó la atenuación, el factor de transmisión de la presión (PTF) y el análisis cepstrum. Finalmente, se realizó un modelo teórico del comportamiento de las pantallas perforadas basado en las placas perforadas utilizadas para atenuar el sonido entre distintas habitaciones. Como conclusión se llegó a que las pantallas curvadas son acústicamente más transparentes que las pantallas perforadas que a partir de 6 kHz son más acústicamente opacas. En las pantallas perforadas la atenuación depende del número de perforaciones por unidad de área y el diámetro de éstas. Dicha atenuación se reducirá si se reduce el diámetro de las perforaciones de la pantalla, o si se incrementa la cantidad de perforaciones. Acerca del efecto filtro peine, para obtener la mínima amplitud de éste la pantalla se deberá situar a una distancia entre 15 y 30 cm del altavoz, encontrando a la distancia de 30 cm que la última reflexión analizada a través de Cepstrum llega 5 ms más tarde que la señal directa, por lo cual no debería dañar el sonido ni la claridad del habla.
Resumo:
La presente Tesis analiza las posibilidades que ofrecen en la actualidad las tecnologías del habla para la detección de patologías clínicas asociadas a la vía aérea superior. El estudio del habla que tradicionalmente cubre tanto la producción como el proceso de transformación del mensaje y las señales involucradas, desde el emisor hasta alcanzar al receptor, ofrece una vía de estudio alternativa para estas patologías. El hecho de que la señal emitida no solo contiene este mensaje, sino también información acerca del locutor, ha motivado el desarrollo de sistemas orientados a la identificación y verificación de la identidad de los locutores. Estos trabajos han recibido recientemente un nuevo impulso, orientándose tanto hacia la caracterización de rasgos que son comunes a varios locutores, como a las diferencias existentes entre grabaciones de un mismo locutor. Los primeros resultan especialmente relevantes para esta Tesis dado que estos rasgos podrían evidenciar la presencia de características relacionadas con una cierta condición común a varios locutores, independiente de su identidad. Tal es el caso que se enfrenta en esta Tesis, donde los rasgos identificados se relacionarían con una de la patología particular y directamente vinculada con el sistema de físico de conformación del habla. El caso del Síndrome de Apneas Hipopneas durante el Sueno (SAHS) resulta paradigmático. Se trata de una patología con una elevada prevalencia mundo, que aumenta con la edad. Los pacientes de esta patología experimentan episodios de cese involuntario de la respiración durante el sueño, que se prolongan durante varios segundos y que se reproducen a lo largo de la noche impidiendo el correcto descanso. En el caso de la apnea obstructiva, estos episodios se deben a la imposibilidad de mantener un camino abierto a través de la vía aérea, de forma que el flujo de aire se ve interrumpido. En la actualidad, el diagnostico de estos pacientes se realiza a través de un estudio polisomnográfico, que se centra en el análisis de los episodios de apnea durante el sueño, requiriendo que el paciente permanezca en el hospital durante una noche. La complejidad y el elevado coste de estos procedimientos, unidos a las crecientes listas de espera, han evidenciado la necesidad de contar con técnicas rápidas de detección, que si bien podrían no obtener tasas tan elevadas, permitirían reorganizar las listas de espera en función del grado de severidad de la patología en cada paciente. Entre otros, los sistemas de diagnostico por imagen, así como la caracterización antropométrica de los pacientes, han evidenciado la existencia de patrones anatómicos que tendrían influencia directa sobre el habla. Los trabajos dedicados al estudio del SAHS en lo relativo a como esta afecta al habla han sido escasos y algunos de ellos incluso contradictorios. Sin embargo, desde finales de la década de 1980 se conoce la existencia de patrones específicos relativos a la articulación, la fonación y la resonancia. Sin embargo, su descripción resultaba difícilmente aprovechable a través de un sistema de reconocimiento automático, pero apuntaba la existencia de un nexo entre voz y SAHS. En los últimos anos las técnicas de procesado automático han permitido el desarrollo de sistemas automáticos que ya son capaces de identificar diferencias significativas en el habla de los pacientes del SAHS, y que los distinguen de los locutores sanos. Por contra, poco se conoce acerca de la conexión entre estos nuevos resultados, los sé que habían obtenido en el pasado y la patogénesis del SAHS. Esta Tesis continua la labor desarrollada en este ámbito considerando específicamente: el estudio de la forma en que el SAHS afecta el habla de los pacientes, la mejora en las tasas de clasificación automática y la combinación de la información obtenida con los predictores utilizados por los especialistas clínicos en sus evaluaciones preliminares. Las dos primeras tareas plantean problemas simbióticos, pero diferentes. Mientras el estudio de la conexión entre el SAHS y el habla requiere de modelos acotados que puedan ser interpretados con facilidad, los sistemas de reconocimiento se sirven de un elevado número de dimensiones para la caracterización y posterior identificación de patrones. Así, la primera tarea debe permitirnos avanzar en la segunda, al igual que la incorporación de los predictores utilizados por los especialistas clínicos. La Tesis aborda el estudio tanto del habla continua como del habla sostenida, con el fin de aprovechar las sinergias y diferencias existentes entre ambas. En el análisis del habla continua se tomo como punto de partida un esquema que ya fue evaluado con anterioridad, y sobre el cual se ha tratado la evaluación y optimización de la representación del habla, así como la caracterización de los patrones específicos asociados al SAHS. Ello ha evidenciado la conexión entre el SAHS y los elementos fundamentales de la señal de voz: los formantes. Los resultados obtenidos demuestran que el éxito de estos sistemas se debe, fundamentalmente, a la capacidad de estas representaciones para describir dichas componentes, obviando las dimensiones ruidosas o con poca capacidad discriminativa. El esquema resultante ofrece una tasa de error por debajo del 18%, sirviéndose de clasificadores notablemente menos complejos que los descritos en el estado del arte y de una única grabación de voz de corta duración. En relación a la conexión entre el SAHS y los patrones observados, fue necesario considerar las diferencias inter- e intra-grupo, centrándonos en la articulación característica del locutor, sustituyendo los complejos modelos de clasificación por el estudio de los promedios espectrales. El resultado apunta con claridad hacia ciertas regiones del eje de frecuencias, sugiriendo la existencia de un estrechamiento sistemático en la sección del tracto en la región de la orofaringe, ya prevista en la patogénesis de este síndrome. En cuanto al habla sostenida, se han reproducido los estudios realizados sobre el habla continua en grabaciones de la vocal /a/ sostenida. Los resultados son cualitativamente análogos a los anteriores, si bien en este caso las tasas de clasificación resultan ser más bajas. Con el objetivo de identificar el sentido de este resultado se reprodujo el estudio de los promedios espectrales y de la variabilidad inter e intra-grupo. Ambos estudios mostraron importantes diferencias con los anteriores que podrían explicar estos resultados. Sin embargo, el habla sostenida ofrece otras oportunidades al establecer un entorno controlado para el estudio de la fonación, que también había sido identificada como una fuente de información para la detección del SAHS. De su estudio se pudo observar que, en el conjunto de datos disponibles, no existen variaciones que pudieran asociarse fácilmente con la fonación. Únicamente aquellas dimensiones que describen la distribución de energía a lo largo del eje de frecuencia evidenciaron diferencias significativas, apuntando, una vez más, en la dirección de las resonancias espectrales. Analizados los resultados anteriores, la Tesis afronta la fusión de ambas fuentes de información en un único sistema de clasificación. Con ello es posible mejorar las tasas de clasificación, bajo la hipótesis de que la información presente en el habla continua y el habla sostenida es fundamentalmente distinta. Esta tarea se realizo a través de un sencillo esquema de fusión que obtuvo un 88.6% de aciertos en clasificación (tasa de error del 11.4%), lo que representa una mejora significativa respecto al estado del arte. Finalmente, la combinación de este clasificador con los predictores utilizados por los especialistas clínicos ofreció una tasa del 91.3% (tasa de error de 8.7%), que se encuentra dentro del margen ofrecido por esquemas más costosos e intrusivos, y que a diferencia del propuesto, no pueden ser utilizados en la evaluación previa de los pacientes. Con todo, la Tesis ofrece una visión clara sobre la relación entre el SAHS y el habla, evidenciando el grado de madurez alcanzado por la tecnología del habla en la caracterización y detección del SAHS, poniendo de manifiesto que su uso para la evaluación de los pacientes ya sería posible, y dejando la puerta abierta a futuras investigaciones que continúen el trabajo aquí iniciado. ABSTRACT This Thesis explores the potential of speech technologies for the detection of clinical disorders connected to the upper airway. The study of speech traditionally covers both the production process and post processing of the signals involved, from the speaker up to the listener, offering an alternative path to study these pathologies. The fact that utterances embed not just the encoded message but also information about the speaker, has motivated the development of automatic systems oriented to the identification and verificaton the speaker’s identity. These have recently been boosted and reoriented either towards the characterization of traits that are common to several speakers, or to the differences between records of the same speaker collected under different conditions. The first are particularly relevant to this Thesis as these patterns could reveal the presence of features that are related to a common condition shared among different speakers, regardless of their identity. Such is the case faced in this Thesis, where the traits identified would relate to a particular pathology, directly connected to the speech production system. The Obstructive Sleep Apnea syndrome (OSA) is a paradigmatic case for analysis. It is a disorder with high prevalence among adults and affecting a larger number of them as they grow older. Patients suffering from this disorder experience episodes of involuntary cessation of breath during sleep that may last a few seconds and reproduce throughout the night, preventing proper rest. In the case of obstructive apnea, these episodes are related to the collapse of the pharynx, which interrupts the air flow. Currently, OSA diagnosis is done through a polysomnographic study, which focuses on the analysis of apnea episodes during sleep, requiring the patient to stay at the hospital for the whole night. The complexity and high cost of the procedures involved, combined with the waiting lists, have evidenced the need for screening techniques, which perhaps would not achieve outstanding performance rates but would allow clinicians to reorganize these lists ranking patients according to the severity of their condition. Among others, imaging diagnosis and anthropometric characterization of patients have evidenced the existence of anatomical patterns related to OSA that have direct influence on speech. Contributions devoted to the study of how this disorder affects scpeech are scarce and somehow contradictory. However, since the late 1980s the existence of specific patterns related to articulation, phonation and resonance is known. By that time these descriptions were virtually useless when coming to the development of an automatic system, but pointed out the existence of a link between speech and OSA. In recent years automatic processing techniques have evolved and are now able to identify significant differences in the speech of OSAS patients when compared to records from healthy subjects. Nevertheless, little is known about the connection between these new results with those published in the past and the pathogenesis of the OSA syndrome. This Thesis is aimed to progress beyond the previous research done in this area by addressing: the study of how OSA affects patients’ speech, the enhancement of automatic OSA classification based on speech analysis, and its integration with the information embedded in the predictors generally used by clinicians in preliminary patients’ examination. The first two tasks, though may appear symbiotic at first, are quite different. While studying the connection between speech and OSA requires simple narrow models that can be easily interpreted, classification requires larger models including a large number dimensions for the characterization and posterior identification of the observed patterns. Anyhow, it is clear that any progress made in the first task should allow us to improve our performance on the second one, and that the incorporation of the predictors used by clinicians shall contribute in this same direction. The Thesis considers both continuous and sustained speech analysis, to exploit the synergies and differences between them. On continuous speech analysis, a conventional speech processing scheme, designed and evaluated before this Thesis, was taken as a baseline. Over this initial system several alternative representations of the speech information were proposed, optimized and tested to select those more suitable for the characterization of OSA-specific patterns. Evidences were found on the existence of a connection between OSA and the fundamental constituents of the speech: the formants. Experimental results proved that the success of the proposed solution is well explained by the ability of speech representations to describe these specific OSA-related components, ignoring the noisy ones as well those presenting low discrimination capabilities. The resulting scheme obtained a 18% error rate, on a classification scheme significantly less complex than those described in the literature and operating on a single speech record. Regarding the connection between OSA and the observed patterns, it was necessary to consider inter-and intra-group differences for this analysis, and to focus on the articulation, replacing the complex classification models by the long-term average spectra. Results clearly point to certain regions on the frequency axis, suggesting the existence of a systematic narrowing in the vocal tract section at the oropharynx. This was already described in the pathogenesis of this syndrome. Regarding sustained speech, similar experiments as those conducted on continuous speech were reproduced on sustained phonations of vowel / a /. Results were qualitatively similar to the previous ones, though in this case perfomance rates were found to be noticeably lower. Trying to derive further knowledge from this result, experiments on the long-term average spectra and intraand inter-group variability ratios were also reproduced on sustained speech records. Results on both experiments showed significant differences from the previous ones obtained from continuous speech which could explain the differences observed on peformance. However, sustained speech also provided the opportunity to study phonation within the controlled framework it provides. This was also identified in the literature as a source of information for the detection of OSA. In this study it was found that, for the available dataset, no sistematic differences related to phonation could be found between the two groups of speakers. Only those dimensions which relate energy distribution along the frequency axis provided significant differences, pointing once again towards the direction of resonant components. Once classification schemes on both continuous and sustained speech were developed, the Thesis addressed their combination into a single classification system. Under the assumption that the information in continuous and sustained speech is fundamentally different, it should be possible to successfully merge the two of them. This was tested through a simple fusion scheme which obtained a 88.6% correct classification (11.4% error rate), which represents a significant improvement over the state of the art. Finally, the combination of this classifier with the variables used by clinicians obtained a 91.3% accuracy (8.7% error rate). This is within the range of alternative, but costly and intrusive schemes, which unlike the one proposed can not be used in the preliminary assessment of patients’ condition. In the end, this Thesis has shed new light on the underlying connection between OSA and speech, and evidenced the degree of maturity reached by speech technology on OSA characterization and detection, leaving the door open for future research which shall continue in the multiple directions that have been pointed out and left as future work.
Resumo:
Este Proyecto Fin de Carrera está destinado a la ilustración y aprendizaje del uso de varios dispositivos de los laboratorios del Departamento de Ingeniería Audiovisual y Comunicaciones, de la Escuela Universitaria de Ingeniería Técnica de Telecomunicación, de la Universidad Politécnica de Madrid, en forma de vídeos tutoriales basados en mediciones y prácticas habituales de las asignaturas del departamento para que puedan ser utilizados por los alumnos de la escuela como apoyo a las explicaciones del profesor en ocasiones puntuales. En concreto se han realizado hasta seis vídeos tutoriales en los que se explica: el diseño de un circuito impreso y la creación y fabricación de éste. Por otro lado, también se ha explicado el fenómeno del ruido de fase y cómo es el proceso de su medida, como una de las muchas características de un analizador de espectros. A modo de análisis, se ha realizado otro tutorial acerca de la modulación en FM, sus características y sus aplicaciones. Por último se ha hecho un estudio del comportamiento de un analizador de redes, exponiendo su funcionamiento y explicando su proceso de calibración. Para la realización de estos tutoriales se han utilizado diferentes aplicaciones sobre creación de vídeos multimedia, animación, producción de audio y narración. En especial se han usado: Sprint-Layout 5.0, Adobe Flash Professional CS5.5, Camtasia studio 7, Corel VideoStudio Pro X4, Loquendo TTS7 y WinPlot. Para el apartado de las grabaciones de las diferentes escenas se ha necesitado el uso de distintos instrumentos de medida del laboratorio tales como: analizador de espectros, analizador de redes, generador de señal, generador de funciones, osciloscopio y otros equipos adicionales como: cámara de vídeo y trípode del departamento. Para la composición de los diferentes tutoriales se ha comenzado creando un guion, para cada uno de ellos, estableciendo la aparición de las imágenes, vídeos, y locución. A continuación se exponen los diferentes temas en los que se han basado estos tutoriales de laboratorio, uno a uno. ABSTRACT. This Project is destined to learn the use of several devices at the laboratory of “Ingeniería Audiovisual y Comunicaciones” Department at “Escuela Universitaria de Ingeniería técnica de Telecomunicaciones” of “Universidad Politécnica de Madrid”, on the way as tutorial videos base on the subjects from this department to be used by the college students as help of the teacher’s explanations. In this project you will find up to six tutorial videos, showing: printed circuit design, printed circuit board manufacture. You can also find an explanation about the phenomenon of phase noise and how it’s its measurement process, as one of the many features of a spectrum analyzer. Another tutorial video is based on FM modulation, its features and applications. The last tutorial explains the networks analyzer functionalities and its calibration process. To carry out these tutorials different applications have been used to create multimedia videos, animation, audio production and storytelling. Such as Sprint Layout 5.0, Camtasia 7.0, Corel VideoStudio Pro X4, Adobe Flash Professional CS5.5, Loquendo TTS7 y WinPlot. About the recording side of the different scenes, several equipment have been required at the laboratory, such as spectrums analyzer, signal generator, oscilloscope, function generator, network analyzer and other additional devices, such as: a video camera with its tripod. The composition of the different tutorials has begun creating a script, for each of them, setting the times of appearance of images, video, speech and music. After this abstract, the different topics of the tutorials are showed, one by one.
Resumo:
El objetivo de este Proyecto Fin de Carrera es el estudio y simulación de la sonorización de una sala de cine mediante la utilización del sistema DOLBY ATMOS. Para ello, se simulará la sala 6 del complejo de cines Kinépolis de Madrid utilizando el programa de simulación electroacústica EASE en el que se dispondrá el sistema de sonido DOLBY ATMOS. Primero se procederá a realizar el modelo geométrico en el programa EASE, a partir de los planos de la instalación y medidas realizadas en el recinto. Este programa de simulación permite obtener los parámetros acústicos y electroacústicos necesarios para realizar el estudio de la sala. Luego se diseñará el sistema de sonido de acuerdo a las disposiciones del sistema DOLBY ATMOS, mediante la ubicación de sistemas de altavoces de cine existentes en el mercado, siempre intentando mantener el uso de la sala de forma convencional como DOLBY DIGITAL y cumpliendo los requisitos de uniformidad y ángulos de apuntamiento recomendados por DOLBY. A continuación, una vez dispuestos los altavoces, se procederá a su configuración, realizando una ecualización y ajuste de nivel de manera individual para cada una de las fuentes sonoras, tanto de los altavoces de pantalla, altavoces de surround de pared y techo y los altavoces de subgraves. Como resultado de todo ello, se comprobarán parámetros como la inteligibilidad, respuesta impulsiva, respuesta en frecuencia y tiempo de reverberación en diferentes puntos de escucha, comparando los resultados obtenidos entre ellos. También se realizará una configuración compatible con el sistema de sonido 7.1, realizando su correspondiente configuración, ecualización, ajuste y aplicando los retardos necesarios. Una vez esté todo configurado, será dar un presupuesto de lo que supondría la reformar de un cine convencional a un sistema DOLBY ATMOS, teniendo en cuenta el número de altavoces disponibles en la sala actual, los modelos utilizados, amplificadores y mano de obra. También se realizará un diagrama de conexionado del sistema de sonido utilizado en el proyecto, incluyendo todos los parámetros necesarios de la configuración. Por último se comprobará la viabilidad técnica y económica del sistema diseñado, viendo cuál es la opción que más se adecua a cada necesidad y sugiriendo soluciones a los posibles problemas que se puedan encontrar. ABSTRACT. The main aim of this Project is the study and simulation of the sound of a movie theater by using DOLBY ATMOS system. It is going to be simulated the movie theatre 6 at Kinepolis cinema complex in Madrid using the simulation program EASE according to the sound system DOLBY ATMOS. First of all we proceed to conduct the geometric pattern in the EASE program, from installation drawings and measurements made on the premises. This simulation program allows getting the acoustic and electroacoustic parameters necessary for the study of the theatre. Then the sound system designed according to the suggestions of ATMOS DOLBY, by locating theater speaker systems on the market, always trying to keep the use of the room for DOLBY DIGITAL conventional and meeting the requirements of uniformity and pointing angles DOLBY recommended. Then, once the speakers are prepared, you can proceed to configure, make equalization and level setting individually for each of the sound sources, both screen speakers, surround speakers (wall and ceiling) and subwoofer. As a result, parameters are checked as intelligibility, impulse response, frequency response and reverberation time in different listening points, comparing the results between each other. There will also be configured to support 7.1 sound system, making the corresponding settings, equalization, level setting and applying the necessary delays. Once everything is configured, it will give an estimate of what would be the reform of a conventional film DOLBY ATMOS system, taking into account the number of speakers available in the current room, the models used, amplifiers and labor. Also there will be a wiring diagram of the sound system used in this project, including all of the configuration parameters needed. Finally, check the technical and economic feasibility of the designed system, seeing what is the option that best suits to each need and suggesting possible solutions to problems you might find during the process.
Resumo:
Las tecnologías de realidad acústica virtual ofrecen una herramienta muy apropiada para la reconstrucción del patrimonio inmaterial del sonido de los recintos históricos. Este trabajo es parte de un proyecto de investigación cuyo objetivo es la restauración virtual del sonido del Antiguo Rito Hispánico y que consiste en la auralización del Canto Mozárabe en una serie de iglesias pre-Románicas de la península ibérica. En este caso se presentan los resultados más relevantes de las auralizaciones realizadas para la iglesia de Santa María de Melque. Para ello se ha elaborado un modelo acústico virtual de la iglesia en las condiciones que, según la documentación arqueológica, tenía el recinto original, se han realizado grabaciones anecoicas de una serie de piezas del repertorio primitivo del Canto Mozárabe y se han efectuado las auralizaciones correspondientes a diferentes configuraciones litúrgicas del Antiguo Rito Hispánico. ABSTRACT Acoustic Virtual Reality technology offers a highly appropriate tool for the reconstruction of the acoustic intangible heritage of the sound of historical enclosures. This work is part of a research project whose aim is the virtual restoration of the sound of the Old Hispanic Rite, auralizing the Mozarabic Chant in Pre-Romanesque churches of the Iberian Peninsula. This paper shows the most relevant results of the auralization of Santa María de Melque church. For that purpose, an acoustic virtual model has been created according to archaeological documentation of the original building conditions, anechoic recordings of several Early Mozarabic Chant musical pieces have been recorded and auralization corresponding to Old Hispanic liturgical Rite multiple settings has been completed.
Resumo:
En esta tesis doctoral se propone una técnica biométrica de verificación en teléfonos móviles consistente en realizar una firma en el aire con la mano que sujeta el teléfono móvil. Los acelerómetros integrados en el dispositivo muestrean las aceleraciones del movimiento de la firma en el aire, generando tres señales temporales que pueden utilizarse para la verificación del usuario. Se proponen varios enfoques para la implementación del sistema de verificación, a partir de los enfoques más utilizados en biometría de firma manuscrita: correspondencia de patrones, con variantes de los algoritmos de Needleman-Wusch (NW) y Dynamic Time Warping (DTW), modelos ocultos de Markov (HMM) y clasificador estadístico basado en Máquinas de Vector Soporte (SVM). Al no existir bases de datos públicas de firmas en el aire y con el fin de evaluar los métodos propuestos en esta tesis doctoral, se han capturado dos con distintas características; una con falsificaciones reales a partir del estudio de las grabaciones de usuarios auténticos y otra con muestras de usuarios obtenidas en diferentes sesiones a lo largo del tiempo. Utilizando estas bases de datos se han evaluado una gran cantidad de algoritmos para implementar un sistema de verificación basado en firma en el aire. Esta evaluación se ha realizado de acuerdo con el estándar ISO/IEC 19795, añadiendo el caso de verificación en mundo abierto no incluido en la norma. Además, se han analizado las características que hacen que una firma sea suficientemente segura. Por otro lado, se ha estudiado la permanencia de las firmas en el aire a lo largo del tiempo, proponiendo distintos métodos de actualización, basados en una adaptación dinámica del patrón, para mejorar su rendimiento. Finalmente, se ha implementado un prototipo de la técnica de firma en el aire para teléfonos Android e iOS. Los resultados de esta tesis doctoral han tenido un gran impacto, generando varias publicaciones en revistas internacionales, congresos y libros. La firma en el aire ha sido nombrada también en varias revistas de divulgación, portales de noticias Web y televisión. Además, se han obtenido varios premios en competiciones de ideas innovadoras y se ha firmado un acuerdo de explotación de la tecnología con una empresa extranjera. ABSTRACT This thesis proposes a biometric verification technique on mobile phones consisting on making a signature in the air with the hand holding a mobile phone. The accelerometers integrated in the device capture the movement accelerations, generating three temporal signals that can be used for verification. This thesis suggests several approaches for implementing the verification system, based on the most widely used approaches in handwritten signature biometrics: template matching, with a lot of variations of the Needleman- Wusch (NW) and Dynamic Time Warping (DTW) algorithms, Hidden Markov Models (HMM) and Supported Vector Machines (SVM). As there are no public databases of in-air signatures and with the aim of assessing the proposed methods, there have been captured two databases; one. with real falsification attempts from the study of recordings captured when genuine users made their signatures in front of a camera, and other, with samples obtained in different sessions over a long period of time. These databases have been used to evaluate a lot of algorithms in order to implement a verification system based on in-air signatures. This evaluation has been conducted according to the standard ISO/IEC 19795, adding the open-set verification scenario not included in the norm. In addition, the characteristics of a secure signature are also investigated, as well as the permanence of in-air signatures over time, proposing several updating strategies to improve its performance. Finally, a prototype of in-air signature has been developed for iOS and Android phones. The results of this thesis have achieved a high impact, publishing several articles in SCI journals, conferences and books. The in-air signature deployed in this thesis has been also referred in numerous media. Additionally, this technique has won several awards in the entrepreneurship field and also an exploitation agreement has been signed with a foreign company.
Resumo:
En esta investigación se aborda el tema de los paisajes sonoros urbanos a partir del análisis de doce espacios públicos abiertos de la Ciudad de Córdoba (Argentina) tomados como casos de estudio, buscando definir e interrelacionar los indicadores objetivos que pueden caracterizar el paisaje sonoro y su relación con componentes físicos del paisaje. En una primera etapa, la investigación se orienta a profundizar en el estudio de las variables que influyen en la percepción acústica de los espacios exteriores, los tipos de fuentes sonoras y el nivel de aceptación que las mismas producen en los usuarios. El estudio se ha realizado por medio de encuestas y mediciones objetivas, destinadas a reconocer paisajes sonoros cuyo contenido semántico puede ser de importancia para la identidad de los habitantes y detectar las fuentes sonoras involucradas. El proceso de análisis cruzado realizado entre los datos objetivos y subjetivos permitió identificar los descriptores acústicos que se pueden interrelacionar con la respuesta de los usuarios para definir la calidad de un paisaje sonoro. En paralelo a las mediciones de nivel de ruido se realizaron registros de audio de los intervalos, de cuyo procesamiento posterior se pudieron deducir parámetros psicoacústicos que complementan los descriptores acústicos anteriores, y que en conjunto son utilizados para describir objetivamente la calidad sonora de los espacios urbanos. En el proceso se seleccionaron aquellos descriptores que se evidencian como significativos y con mejor correlación con los niveles de calidad del paisaje sonoro, adoptando en este trabajo la sonoridad, la nitidez, la relación LCeq-LAeq y la diferencia L10-L90. Cada uno de los parámetros describe o refleja un aspecto característico de un ambiente sonoro de alta calidad o “hi-fi”, como la presencia de sonidos con posible contenido semántico (nitidez), la presencia o no de bajas frecuencias y la relación figura-fondo de los escenarios sonoros. En la investigación se observa que, si bien existe una correlación de estos indicadores con la calidad sonora de los espacios, la misma no es lineal. Por el contrario, la importancia o influencia relativa dependen de las interrelaciones que se producen entre los parámetros estudiados, quedando en evidencia la dificultad de aplicar una metodología de análisis basada en la lógica clásica. Como alternativa se aplica un modelo de análisis y correlación de los parámetros con la calidad sonora basada en los postulados de la lógica difusa, observando que se logra una aproximación muy ajustada a la respuesta subjetiva de los habitantes. Este ajuste alcanzado entre los resultados del modelo y la respuesta subjetiva de los usuarios permite confirmar el modelo borroso como una herramienta efectiva para el estudio, no solo de los paisajes sonoros, sino también para aquellas situaciones donde los parámetros objetivos deben ser relacionados con la respuesta subjetiva de los usuarios.
Resumo:
The introduction of open-plan offices in the 1960s with the intent of making the workplace more flexible, efficient, and team-oriented resulted in a higher noise floor level, which not only made concentrated work more difficult, but also caused physiological problems, such as increased stress, in addition to a loss of speech privacy. Irrelevant background human speech, in particular, has proven to be a major factor in disrupting concentration and lowering performance. Therefore, reducing the intelligibility of speech and has been a goal of increasing importance in recent years. One method employed to do so is the use of masking noises, which consists in emitting a continuous noise signal over a loudspeaker system that conceals the perturbing speech. Studies have shown that while effective, the maskers employed to date – normally filtered pink noise – are generally poorly accepted by users. The collaborative "Private Workspace" project, within the scope of which this thesis was carried out, attempts to develop a coupled, adaptive noise masking system along with a physical structure to be used for open-plan offices so as to combat these issues. There is evidence to suggest that nature sounds might be more accepted as masker, in part because they can have a visual object that acts as the source for the sound. Direct audio recordings are not recommended for various reasons, and thus the nature sounds must be synthesized. This work done consists of the synthesis of a sound texture to be used as a masker as well as its evaluation. The sound texture is composed of two parts: a wind-like noise synthesized with subtractive synthesis, and a leaf-like noise synthesized through granular synthesis. Different combinations of these two noises produced five variations of the masker, which were evaluated at different levels along with white noise and pink noise using a modified version of an Oldenburger Satztest to test for an affect on speech intelligibility and a questionnaire to asses its subjective acceptance. The goal was to find which of the synthesized noises works best as a speech masker. This thesis first uses a theoretical introduction to establish the basics of sound perception, psychoacoustic masking, and sound texture synthesis. The design of each of the noises, as well as their respective implementations in MATLAB, is explained, followed by the procedures used to evaluate the maskers. The results obtained in the evaluation are analyzed. Lastly, conclusions are drawn and future work is and modifications to the masker are proposed. RESUMEN. La introducción de las oficinas abiertas en los años 60 tenía como objeto flexibilizar el ambiente laboral, hacerlo más eficiente y que estuviera más orientado al trabajo en equipo. Como consecuencia, subió el nivel de ruido de fondo, que no sólo dificulta la concentración, sino que causa problemas fisiológicos, como el aumento del estrés, además de reducir la privacidad. Hay estudios que prueban que las conversaciones de fondo en particular tienen un efecto negativo en el nivel de concentración y disminuyen el rendimiento de los trabajadores. Por lo tanto, reducir la inteligibilidad del habla es uno de los principales objetivos en la actualidad. Un método empleado para hacerlo ha sido el uso de ruido enmascarante, que consiste en reproducir señales continuas de ruido a través de un sistema de altavoces que enmascare el habla. Aunque diversos estudios demuestran que es un método eficaz, los ruidos utilizados hasta la fecha (normalmente ruido rosa filtrado), no son muy bien aceptados por los usuarios. El proyecto colaborativo "Private Workspace", dentro del cual se engloba el trabajo realizado en este Proyecto Fin de Grado, tiene por objeto desarrollar un sistema de ruido enmascarador acoplado y adaptativo, además de una estructura física, para su uso en oficinas abiertas con el fin de combatir los problemas descritos anteriormente. Existen indicios de que los sonidos naturales son mejor aceptados, en parte porque pueden tener una estructura física que simule ser la fuente de los mismos. La utilización de grabaciones directas de estos sonidos no está recomendada por varios motivos, y por lo tanto los sonidos naturales deben ser sintetizados. El presente trabajo consiste en la síntesis de una textura de sonido (en inglés sound texture) para ser usada como ruido enmascarador, además de su evaluación. La textura está compuesta de dos partes: un sonido de viento sintetizado mediante síntesis sustractiva y un sonido de hojas sintetizado mediante síntesis granular. Diferentes combinaciones de estos dos sonidos producen cinco variaciones de ruido enmascarador. Estos cinco ruidos han sido evaluados a diferentes niveles, junto con ruido blanco y ruido rosa, mediante una versión modificada de un Oldenburger Satztest para comprobar cómo afectan a la inteligibilidad del habla, y mediante un cuestionario para una evaluación subjetiva de su aceptación. El objetivo era encontrar qué ruido de los que se han sintetizado funciona mejor como enmascarador del habla. El proyecto consiste en una introducción teórica que establece las bases de la percepción del sonido, el enmascaramiento psicoacústico, y la síntesis de texturas de sonido. Se explica a continuación el diseño de cada uno de los ruidos, así como su implementación en MATLAB. Posteriormente se detallan los procedimientos empleados para evaluarlos. Los resultados obtenidos se analizan y se extraen conclusiones. Por último, se propone un posible trabajo futuro y mejoras al ruido sintetizado.
Resumo:
Análisis de múltiples grabaciones de las cuatro baladas y los cuatro scherzos de Chopin realizadas por diversos intérpretes. El objetivo del proyecto será determinar las diferencias objetivas existentes entre las diferentes ejecuciones y respecto a una partitura de referencia. OBJETIVOS: Analizar las grabaciones realizadas de obras de Chopin atendiendo a criterios objetivos como el tempo y la dinámica. MÉTODO Y FASES DEL TRABAJO: Se realizará un estudio diferencial para determinar las variaciones de parámetros objetivos existentes en las diferentes grabaciones respecto a una, que será tomada como referencia, mediante herramientas informáticas. MEDIOS: Se utilizarán versiones digitalizadas de las grabaciones y la edición crítica de Jan Ekier (National Edition) de las partituras. Para la realización del análisis se recurrirá al software SonicVisualiser desarrollado por el Centre for Digital Music (Queen Mary, University of London) en conjunto con los plugins destinados al análisis temporal y espectral disponibles. Así mismo, serán utilizadas otras herramientas desarrolladas durante el Mazurka's Project realizado por el Research Centre for the History and Analysis of Recorded Music para facilitar la visualización de datos en el presente documento. OBJETIVE: To analyze several records from Chopin’s repertoire, according to objective criteria like tempi and dynamics evolution. METHODOLOGY: A differential analysis is going to be made to determine how this criterion differs from every digitalized record to another one stabilized in advance as model. In order to do so, we’ll use software tools as well as auditions to get the best detail. MEDIA: Digital editions of the recordings and the critical edition by Prof. Jan Ekier music scores have been used. We’ve chosen the software tool SonicVisualiser developed by Centre for Digital Music (Queen Mary, University of London) in conjunction with some of the temporal and spectral plugins available for this platform as our main analysis tool. We’ve also used some other tools developed by the Research Centre for the History and Analysis of Recorded Music to appropriately display some important information in the present document.