Biblioteca Digital

633 resultados para Nonnative speaker

Evaluation of a transplantation algorithm for expressive speech synthesis

Relevância:

10.00% 10.00%

Publicador:

Resumo:

When designing human-machine interfaces it is important to consider not only the bare bones functionality but also the ease of use and accessibility it provides. When talking about voice-based inter- faces, it has been proven that imbuing expressiveness into the synthetic voices increases signi?cantly its perceived naturalness, which in the end is very helpful when building user friendly interfaces. This paper proposes an adaptation based expressiveness transplantation system capable of copying the emotions of a source speaker into any desired target speaker with just a few minutes of read speech and without requiring the record- ing of additional expressive data. This system was evaluated through a perceptual test for 3 speakers showing up to an average of 52% emotion recognition rates relative to the natural voice recognition rates, while at the same time keeping good scores in similarity and naturality.

GMM-based classifiers for the automatic detection of obstructive sleep apnea

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The aim of automatic pathological voice detection systems is to serve as tools, to medical specialists, for a more objective, less invasive and improved diagnosis of diseases. In this respect, the gold standard for those system include the usage of a optimized representation of the spectral envelope, either based on cepstral coefﬁcients from the mel-scaled Fourier spectral envelope (Mel-Frequency Cepstral Coefﬁcients) or from an all-pole estimation (Linear Prediction Coding Cepstral Coefﬁcients) forcharacterization, and Gaussian Mixture Models for posterior classiﬁcation. However, the study of recently proposed GMM-based classiﬁers as well as Nuisance mitigation techniques, such as those employed in speaker recognition, has not been widely considered inpathology detection labours. The present work aims at testing whether or not the employment of such speaker recognition tools might contribute to improve system performance in pathology detection systems, speciﬁcally in the automatic detection of Obstructive Sleep Apnea. The testing procedure employs an Obstructive Sleep Apnea database, in conjunction with GMM-based classiﬁers looking for a better performance. The results show that an improved performance might be obtained by using such approach.

User Experience in Human-Technology Interaction. Communication, context and evaluation methodology

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En esta Tesis se presentan dos líneas de investigación relacionadas y que contribuyen a las áreas de Interacción Hombre-Tecnología (o Máquina; siglas en inglés: HTI o HMI), lingüística computacional y evaluación de la experiencia del usuario. Las dos líneas en cuestión son el diseño y la evaluación centrada en el usuario de sistemas de Interacción Hombre-Máquina avanzados. En la primera parte de la Tesis (Capítulos 2 a 4) se abordan cuestiones fundamentales del diseño de sistemas HMI avanzados. El Capítulo 2 presenta una panorámica del estado del arte de la investigación en el ámbito de los sistemas conversacionales multimodales, con la que se enmarca el trabajo de investigación presentado en el resto de la Tesis. Los Capítulos 3 y 4 se centran en dos grandes aspectos del diseño de sistemas HMI: un gestor del diálogo generalizado para tratar la Interacción Hombre-Máquina multimodal y sensible al contexto, y el uso de agentes animados personificados (ECAs) para mejorar la robustez del diálogo, respectivamente. El Capítulo 3, sobre gestión del diálogo, aborda el tratamiento de la heterogeneidad de la información proveniente de las modalidades comunicativas y de los sensores externos. En este capítulo se propone, en un nivel de abstracción alto, una arquitectura para la gestión del diálogo con influjos heterogéneos de información, apoyándose en el uso de State Chart XML. En el Capítulo 4 se presenta una contribución a la representación interna de intenciones comunicativas, y su traducción a secuencias de gestos a ejecutar por parte de un ECA, diseñados específicamente para mejorar la robustez en situaciones de diálogo críticas que pueden surgir, por ejemplo, cuando se producen errores de entendimiento en la comunicación entre el usuario humano y la máquina. Se propone, en estas páginas, una extensión del Functional Mark-up Language definido en el marco conceptual SAIBA. Esta extensión permite representar actos comunicativos que realizan intenciones del emisor (la máquina) que no se pretende sean captadas conscientemente por el receptor (el usuario humano), pero con las que se pretende influirle a éste e influir el curso del diálogo. Esto se consigue mediante un objeto llamado Base de Intenciones Comunicativas (en inglés, Communication Intention Base, o CIB). La representación en el CIB de intenciones “no claradas” además de las explícitas permite la construcción de actos comunicativos que realizan simultáneamente varias intenciones comunicativas. En el Capítulo 4 también se describe un sistema experimental para el control remoto (simulado) de un asistente domótico, con autenticación de locutor para dar acceso, y con un ECA en el interfaz de cada una de estas tareas. Se incluye una descripción de las secuencias de comportamiento verbal y no verbal de los ECAs, que fueron diseñados específicamente para determinadas situaciones con objeto de mejorar la robustez del diálogo. Los Capítulos 5 a 7 conforman la parte de la Tesis dedicada a la evaluación. El Capítulo 5 repasa antecedentes relevantes en la literatura de tecnologías de la información en general, y de sistemas de interacción hablada en particular. Los principales antecedentes en el ámbito de la evaluación de la interacción sobre los cuales se ha desarrollado el trabajo presentado en esta Tesis son el Technology Acceptance Model (TAM), la herramienta Subjective Assessment of Speech System Interfaces (SASSI), y la Recomendación P.851 de la ITU-T. En el Capítulo 6 se describen un marco y una metodología de evaluación aplicados a la experiencia del usuario con sistemas HMI multimodales. Se desarrolló con este propósito un novedoso marco de evaluación subjetiva de la calidad de la experiencia del usuario y su relación con la aceptación por parte del mismo de la tecnología HMI (el nombre dado en inglés a este marco es Subjective Quality Evaluation Framework). En este marco se articula una estructura de clases de factores subjetivos relacionados con la satisfacción y aceptación por parte del usuario de la tecnología HMI propuesta. Esta estructura, tal y como se propone en la presente tesis, tiene dos dimensiones ortogonales. Primero se identifican tres grandes clases de parámetros relacionados con la aceptación por parte del usuario: “agradabilidad ” (likeability: aquellos que tienen que ver con la experiencia de uso, sin entrar en valoraciones de utilidad), rechazo (los cuales sólo pueden tener una valencia negativa) y percepción de utilidad. En segundo lugar, este conjunto clases se reproduce para distintos “niveles, o focos, percepción del usuario”. Éstos incluyen, como mínimo, un nivel de valoración global del sistema, niveles correspondientes a las tareas a realizar y objetivos a alcanzar, y un nivel de interfaz (en los casos propuestos en esta tesis, el interfaz es un sistema de diálogo con o sin un ECA). En el Capítulo 7 se presenta una evaluación empírica del sistema descrito en el Capítulo 4. El estudio se apoya en los mencionados antecedentes en la literatura, ampliados con parámetros para el estudio específico de los agentes animados (los ECAs), la auto-evaluación de las emociones de los usuarios, así como determinados factores de rechazo (concretamente, la preocupación por la privacidad y la seguridad). También se evalúa el marco de evaluación subjetiva de la calidad propuesto en el capítulo anterior. Los análisis de factores efectuados revelan una estructura de parámetros muy cercana conceptualmente a la división de clases en utilidad-agradabilidad-rechazo propuesta en dicho marco, resultado que da cierta validez empírica al marco. Análisis basados en regresiones lineales revelan estructuras de dependencias e interrelación entre los parámetros subjetivos y objetivos considerados. El efecto central de mediación, descrito en el Technology Acceptance Model, de la utilidad percibida sobre la relación de dependencia entre la intención de uso y la facilidad de uso percibida, se confirma en el estudio presentado en la presente Tesis. Además, se ha encontrado que esta estructura de relaciones se fortalece, en el estudio concreto presentado en estas páginas, si las variables consideradas se generalizan para cubrir más ampliamente las categorías de agradabilidad y utilidad contempladas en el marco de evaluación subjetiva de calidad. Se ha observado, asimismo, que los factores de rechazo aparecen como un componente propio en los análisis de factores, y además se distinguen por su comportamiento: moderan la relación entre la intención de uso (que es el principal indicador de la aceptación del usuario) y su predictor más fuerte, la utilidad percibida. Se presentan también resultados de menor importancia referentes a los efectos de los ECAs sobre los interfaces de los sistemas de diálogo y sobre los parámetros de percepción y las valoraciones de los usuarios que juegan un papel en conformar su aceptación de la tecnología. A pesar de que se observa un rendimiento de la interacción dialogada ligeramente mejor con ECAs, las opiniones subjetivas son muy similares entre los dos grupos experimentales (uno interactuando con un sistema de diálogo con ECA, y el otro sin ECA). Entre las pequeñas diferencias encontradas entre los dos grupos destacan las siguientes: en el grupo experimental sin ECA (es decir, con interfaz sólo de voz) se observó un efecto más directo de los problemas de diálogo (por ejemplo, errores de reconocimiento) sobre la percepción de robustez, mientras que el grupo con ECA tuvo una respuesta emocional más positiva cuando se producían problemas. Los ECAs parecen generar inicialmente expectativas más elevadas en cuanto a las capacidades del sistema, y los usuarios de este grupo se declaran más seguros de sí mismos en su interacción. Por último, se observan algunos indicios de efectos sociales de los ECAs: la “amigabilidad ” percibida los ECAs estaba correlada con un incremento la preocupación por la seguridad. Asimismo, los usuarios del sistema con ECAs tendían más a culparse a sí mismos, en lugar de culpar al sistema, de los problemas de diálogo que pudieran surgir, mientras que se observó una ligera tendencia opuesta en el caso de los usuarios del sistema con interacción sólo de voz. ABSTRACT This Thesis presents two related lines of research work contributing to the general fields of Human-Technology (or Machine) Interaction (HTI, or HMI), computational linguistics, and user experience evaluation. These two lines are the design and user-focused evaluation of advanced Human-Machine (or Technology) Interaction systems. The first part of the Thesis (Chapters 2 to 4) is centred on advanced HMI system design. Chapter 2 provides a background overview of the state of research in multimodal conversational systems. This sets the stage for the research work presented in the rest of the Thesis. Chapers 3 and 4 focus on two major aspects of HMI design in detail: a generalised dialogue manager for context-aware multimodal HMI, and embodied conversational agents (ECAs, or animated agents) to improve dialogue robustness, respectively. Chapter 3, on dialogue management, deals with how to handle information heterogeneity, both from the communication modalities or from external sensors. A highly abstracted architectural contribution based on State Chart XML is proposed. Chapter 4 presents a contribution for the internal representation of communication intentions and their translation into gestural sequences for an ECA, especially designed to improve robustness in critical dialogue situations such as when miscommunication occurs. We propose an extension of the functionality of Functional Mark-up Language, as envisaged in much of the work in the SAIBA framework. Our extension allows the representation of communication acts that carry intentions that are not for the interlocutor to know of, but which are made to influence him or her as well as the flow of the dialogue itself. This is achieved through a design element we have called the Communication Intention Base. Such r pr s ntation of “non- clar ” int ntions allows th construction of communication acts that carry several communication intentions simultaneously. Also in Chapter 4, an experimental system is described which allows (simulated) remote control to a home automation assistant, with biometric (speaker) authentication to grant access, featuring embodied conversation agents for each of the tasks. The discussion includes a description of the behavioural sequences for the ECAs, which were designed for specific dialogue situations with particular attention given to the objective of improving dialogue robustness. Chapters 5 to 7 form the evaluation part of the Thesis. Chapter 5 reviews evaluation approaches in the literature for information technologies, as well as in particular for speech-based interaction systems, that are useful precedents to the contributions of the present Thesis. The main evaluation precedents on which the work in this Thesis has built are the Technology Acceptance Model (TAM), the Subjective Assessment of Speech System Interfaces (SASSI) tool, and ITU-T Recommendation P.851. Chapter 6 presents the author’s work in establishing an valuation framework and methodology applied to the users’ experience with multimodal HMI systems. A novel user-acceptance Subjective Quality Evaluation Framework was developed by the author specifically for this purpose. A class structure arises from two orthogonal sets of dimensions. First we identify three broad classes of parameters related with user acceptance: likeability factors (those that have to do with the experience of using the system), rejection factors (which can only have a negative valence) and perception of usefulness. Secondly, the class structure is further broken down into several “user perception levels”; at the very least: an overall system-assessment level, task and goal-related levels, and an interface level (e.g., a dialogue system with or without an ECA). An empirical evaluation of the system described in Chapter 4 is presented in Chapter 7. The study was based on the abovementioned precedents in the literature, expanded with categories covering the inclusion of an ECA, the users’ s lf-assessed emotions, and particular rejection factors (privacy and security concerns). The Subjective Quality Evaluation Framework proposed in the previous chapter was also scrutinised. Factor analyses revealed an item structure very much related conceptually to the usefulness-likeability-rejection class division introduced above, thus giving it some empirical weight. Regression-based analysis revealed structures of dependencies, paths of interrelations, between the subjective and objective parameters considered. The central mediation effect, in the Technology Acceptance Model, of perceived usefulness on the dependency relationship of intention-to-use with perceived ease of use was confirmed in this study. Furthermore, the pattern of relationships was stronger for variables covering more broadly the likeability and usefulness categories in the Subjective Quality Evaluation Framework. Rejection factors were found to have a distinct presence as components in factor analyses, as well as distinct behaviour: they were found to moderate the relationship between intention-to-use (the main measure of user acceptance) and its strongest predictor, perceived usefulness. Insights of secondary importance are also given regarding the effect of ECAs on the interface of spoken dialogue systems and the dimensions of user perception and judgement attitude that may have a role in determining user acceptance of the technology. Despite observing slightly better performance values in the case of the system with the ECA, subjective opinions regarding both systems were, overall, very similar. Minor differences between two experimental groups (one interacting with an ECA, the other only through speech) include a more direct effect of dialogue problems (e.g., non-understandings) on perceived dialogue robustness for the voice-only interface test group, and a more positive emotional response for the ECA test group. Our findings further suggest that the ECA generates higher initial expectations, and users seem slightly more confident in their interaction with the ECA than do those without it. Finally, mild evidence of social effects of ECAs was also found: the perceived friendliness of the ECA increased security concerns, and ECA users may tend to blame themselves rather than the system when dialogue problems are encountered, while the opposite may be true for voice-only users.

Relevance of the glottal pulse and the vocal tract in gender detection

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Gender detection is a very important objective to improve efficiency in tasks as speech or speaker recognition, among others. Traditionally gender detection has been focused on fundamental frequency (f0) and cepstral features derived from voiced segments of speech. The methodology presented here consists in obtaining uncorrelated glottal and vocal tract components which are parameterized as mel-frequency coefficients. K-fold and cross-validation using QDA and GMM classifiers showed that better detection rates are reached when glottal source and vocal tract parameters are used in a gender-balanced database of running speech from 340 speakers.

Synchronizing sound from different devices over a TCP network

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Nowadays, we can send audio on the Internet for multiples uses like telephony, broadcast audio or teleconferencing. The issue comes when you need to synchronize the sound from different sources because the network where we are going to work could lose packets and introduce delay in the delivery. This can also come because the sound cards could be work in different speeds. In this project, we will work with two computers emitting sound (one will simulate the left channel (mono) of a stereo signal, and the other the right channel) and connected with a third computer by a TCP network. The last computer must get the sound from both computers and reproduce it in a speaker properly (without delay). So, basically, the main goal of the project is to synchronize multi-track sound over a network. TCP networks introduce latency into data transfers. Streaming audio suffers from two problems: a delay and an offset between the channels. This project explores the causes of latency, investigates the affect of the inter-channel offset and proposes a solution to synchronize the received channels. In conclusion, a good synchronization of the sound is required in a time when several audio applications are being developed. When two devices are ready to send audio over a network, this multi-track sound will arrive at the third computer with an offset giving a negative effect to the listener. This project has dealt with this offset achieving a good synchronization of the multitrack sound getting a good effect on the listener. This was achieved thanks to the division of the project into several steps having constantly a good vision of the problem, a good scalability and having controlled the latency at all times. As we can see in the chapter 4 of the project, a lack of synchronization over c. 100μs is audible to the listener. RESUMEN. A día de hoy, podemos transmitir audio a través de Internet por varios motivos como pueden ser: una llamada telefónica, una emisión de audio o una teleconferencia. El problema viene cuando necesitas sincronizar ese sonido producido por los diferentes orígenes ya que la red a la que nos vamos a conectar puede perder los paquetes y/o introducir un retardo en las entregas de los mismos. Así mismo, estos retardos también pueden venir producidos por las diferentes velocidades a las que trabajan las tarjetas de sonido de cada dispositivo. En este proyecto, se ha trabajado con dos ordenadores emitiendo sonido de manera intermitente (uno se encargará de simular el canal izquierdo (mono) de la señal estéreo emitida, y el otro del canal derecho), estando conectados a través de una red TCP a un tercer ordenador, el cual debe recibir el sonido y reproducirlo en unos altavoces adecuadamente y sin retardo (deberá juntar los dos canales y reproducirlo como si de estéreo de tratara). Así, el objetivo principal de este proyecto es el de encontrar la manera de sincronizar el sonido producido por los dos ordenadores y escuchar el conjunto en unos altavoces finales. Las redes TCP introducen latencia en la transferencia de datos. El streaming de audio emitido a través de una red de este tipo puede sufrir dos grandes contratiempos: retardo y offset, los dos existentes en las comunicaciones entre ambos canales. Este proyecto se centra en las causas de ese retardo, investiga el efecto que provoca el offset entre ambos canales y propone una solución para sincronizar los canales en el dispositivo receptor. Para terminar, una buena sincronización del sonido es requerida en una época donde las aplicaciones de audio se están desarrollando continuamente. Cuando los dos dispositivos estén preparados para enviar audio a través de la red, la señal de sonido multi-canal llegará al tercer ordenador con un offset añadido, por lo que resultará en una mala experiencia en la escucha final. En este proyecto se ha tenido que lidiar con ese offset mencionado anteriormente y se ha conseguido una buena sincronización del sonido multi-canal obteniendo un buen efecto en la escucha final. Esto ha sido posible gracias a una división del proyecto en diversas etapas que proporcionaban la facilidad de poder solucionar los errores en cada paso dando una importante visión del problema y teniendo controlada la latencia en todo momento. Como se puede ver en el capítulo 4 del proyecto, la falta de sincronización sobre una diferencia de 100μs entre dos canales (offset) empieza a ser audible en la escucha final.

High-fidelity piezoelectric loudspeaker

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This project reports on a literature review about piezoelectric loudspeakers and on an experimental research about how to improve some features of a particular horned piezoelectric tweeter. The work involves an investigation of the performance and principle of operation of piezoelectric loudspeakers to understand how the sound is generated and what its main parameters are. Also, previous research papers about how to improve this type of speakers are reported. The knowledge gained was used to reconsider and re-purpose a particular piezoelectric transducer. After characterising the original state of the device with acoustical and electroacoustical measurements, some improvements were implemented. Moreover, interesting conclusions were reached based on the results of the tests that were carried out. A structural study with a scanning laser was then completed. These sections demonstrated the need for providing the speaker with a rear suspension that guides the vibration of the membrane. Finally, an inverse filter was designed in order to get a flat output response. After simulating the results with Matlab, validating experiments were run in the anechoic chamber with great success. RESUMEN. Este proyecto consta de un estudio detallado sobre piezoelectricidad y altavoces piezoeléctricos, así como de una parte experimental consistente en mejorar algunas características de un altavoz piezoeléctrico particular: un tweeter de bocina. El estudio profundiza en cuáles son los principios de funcionamiento y los principales parámetros de este tipo de altavoces. Con el conocimiento adquirido a partir de trabajos de previos sobre el tema e investigación bibliográfica se ha llevado a cabo la parte experimental. Esta parte ha requerido de una serie de medidas acústicas y electroacústicas para, primero, caracterizar el altavoz en su estado original y para posteriormente buscar y validar posibles mejoras, principalmente en la respuesta en frecuencia. Además, se ha realizado un estudio estructural del diafragma a partir de medidas tomadas con un vibrómetro laser Doppler. De estos tres procesos se concluyó que el altavoz bajo estudio tiene un problema en el soporte del cristal piezoeléctrico y se demostró la necesidad de equipar el dispositivo de una suspensión trasera que controle el movimiento del diafragma. Finalmente, se ha diseñado e implementado en Matlab un filtro inverso, con el objetivo de conseguir una respuesta plana a la salida del altavoz. Su funcionamiento fue validado en la cámara anecoica satisfactoriamente.

Speech Signals Feature Extraction Model for a Speaker’s Gender and Age Identification System

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Durante el proceso de producción de voz, los factores anatómicos, fisiológicos o psicosociales del individuo modifican los órganos resonadores, imprimiendo en la voz características particulares. Los sistemas ASR tratan de encontrar los matices característicos de una voz y asociarlos a un individuo o grupo. La edad y sexo de un hablante son factores intrínsecos que están presentes en la voz. Este trabajo intenta diferenciar esas características, aislarlas y usarlas para detectar el género y la edad de un hablante. Para dicho fin, se ha realizado el estudio y análisis de las características basadas en el pulso glótico y el tracto vocal, evitando usar técnicas clásicas (como pitch y sus derivados) debido a las restricciones propias de dichas técnicas. Los resultados finales de nuestro estudio alcanzan casi un 100% en reconocimiento de género mientras en la tarea de reconocimiento de edad el reconocimiento se encuentra alrededor del 80%. Parece ser que la voz queda afectada por el género del hablante y las hormonas, aunque no se aprecie en la audición. ABSTRACT Particular elements of the voice are printed during the speech production process and are related to anatomical and physiological factors of the phonatory system or psychosocial factors acquired by the speaker. ASR systems attempt to find those peculiar nuances of a voice and associate them to an individual or a group. Age and gender are inherent factors to the speaker which may be represented in voice. This work attempts to differentiate those characteristics, isolate them and use them to detect speaker’s gender and age. Features based on glottal pulse and vocal tract are studied and analyzed in order to achieve good results in both tasks. Classical methodologies (such as pitch and derivates) are avoided since the requirements of those techniques may be too restrictive. The final scores achieve almost 100% in gender recognition whereas in age recognition those scores are around 80%. Factors related to the gender and hormones seem to affect the voice although they are not audible.

Estudio acústico y electroacústico de la sala 5 de los cines Kinépolis de Madrid

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En el proyecto se realiza el estudio del comportamiento acústico y electroacústico de la sala 5 de los cines Kinépolis de Madrid. El objetivo es determinar las características acústicas de la sala mediante la realización de las medidas in-situ para después analizar y simular la misma con EASE4.4, realizar una sonorización apropiada para reproducción de cine, valorar la sala actual y proponer algunas mejoras. El desarrollo del proyecto se ha dividido en tres partes. En primer lugar, se realizan las medidas espaciales y acústicas in-situ con el programa de toma de medidas Dirac 5.5. En este paso, se obtienen las medidas reales (usadas en la simulación 3D posterior) y los dos parámetros acústicos importantes inherentes a la sala, el tiempo de reverberación y el ruido de fondo. Además, se estudia el conexionado de altavoces y de los equipos instalados en sala. En segundo lugar, se hace la simulación de la sala, para ello se realiza su diseño con el programa de simulación acústica EASE 4.4, con el que se ajustan las condiciones de campo a las existentes en Kinépolis, asegurando que el comportamiento acústico de la sala simulada sea similar al real. También se distribuirá el sistema electroacústico con la descripción del conexionado y la configuración de los altavoces. En la simulación, durante el estudio acústico, además de desarrollar el dimensionado del recinto, se ajustan los materiales de tal manera que el tiempo de reverberación sea el de la sala de estudio considerando también el ruido de fondo. En cuanto al estudio electroacústico, se distribuyen los altavoces en las posiciones medidas in-situ de la instalación y se detalla su conexionado. De esta manera, se realizan los cálculos para ajustar sus respuestas para proporcionar un recubrimiento sonoro uniforme y el efecto precedencia desde la zona frontal al oyente deseado. Finalmente, y a partir de los datos obtenidos en la simulación, se hace una valoración a través de diversos criterios de inteligibilidad, se extraen las conclusiones del estudio y se proponen una serie de mejoras en la sala real para obtener unas prestaciones sonoras óptimas. Se consigue con el proyecto, tras el aprendizaje de las herramientas específicas utilizadas, la recopilación de documentación y el análisis de datos de la sala, aplicar los conceptos teóricos de manera práctica a un caso real. ABSTRACT. During the project is carried out the acoustic and electroacoustic study of the room cinema 5 of the Kinépolis group in Madrid. The objective is to determine the acoustic characteristics of the room by performing the in-situ measurements in order to analyze and simulate it with the software EASE 4.4 making an appropriate sound for movie playback, assess the current room, and propose some improvements. Development of the project is composed of three parts. First, the performing of the spatial and acoustic in-situ measurements with the program Dirac 5.5. On this step, the real measures are obtained (that will be used on the next 3D simulation) and the two important parameters inherent to the room, the reverberation time and the noise level. In addition, the speaker connections and the installations of the cinema’s equipment are studied. Secondly, the simulation of the room cinema is performed. This simulation is done with the acoustic simulation program EASE 4.4 in which its field conditions conform to the conditions of Kinépolis, ensuring that the acoustic behavior of the simulated room is similar to the real room. Also, the electroacustic system is distributed with the wiring and the speaker setup. During the acoustic study of the simulation, in addition to do the dimensions of the cinema room, the materials are adjusted in order to synchronize reverberation time to that of the real room. The noise level is taking in account too. For the electroacustic studio, the speakers will be distributed in the positions measured in-situ to do the installation and its detailed connection. By this way, the calculations are done to adjust to the responses in a way to give a sound uniform coating with the precedence effect desired on the front area of the listeners. Lastly, and from the data obtained in the simulation, an assessment is done through the various criteria of intelligibility, conclusions are drawn from the study and a number of improvements are proposed in the actual room for obtain optimal sound benefits. With this project is achieved, after gain learning of the specific tolls used, the documentation collected and the data analysis of the room, to apply theoretical concepts in a practical way for a real case.

Refuerzo sonoro del pabellón de deportes Manín Larraz (Tauste, Zaragoza)

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Diseño y simulación del comportamiento acústico del recinto bajo estudio con el sistema refuerzo sonoro instalado. El objeto de este proyecto fin de carrera es el de diseñar y simular el comportamiento acústico de un pabellón polideportivo con la instalación de un sistema de refuerzo sonoro adecuado a sus características arquitectónicas (y a los eventos a realizar). En estas simulaciones se utilizarán varias herramientas de diseño para poder comparar resultados y así obtener una mejor sonorización del recinto. Se llevarán a cabo varios diseños de sistemas de refuerzo sonoro para este recinto deportivo con el conocido programa de simulación sonora EASE, que incorpora sistemas de varias vías, filtros, etc. Otro software de simulación sonora a usar será EASE Focus, más intuitivo y principalmente enfocado a fuentes sonoras del tipo "arrays lineales", en dos dimensiones. En cuanto al método y las fases de trabajo, inicialmente, será necesario obtener información del estado actual del mercado del sector de instalaciones de sonorización y las características que los eventos a realizar requieren de estos sistemas de refuerzo sonoro. Se deberá a su vez estudiar los diferentes tipos de sistemas existentes (altavoces, procesadores, amplificadores...) a disposición de los técnicos de sonido. Una vez recogida esta información, se procederá a diseñar y simular los sistemas de refuerzo sonoro elegidos con las mencionadas herramientas de simulación sonora EASE y EASE Focus. ABSTRACT. Design and simulation of the acoustic behavior of the enclosure/complex under study with installed sound reinforcement. The purpose of this final project is to design and simulate the acoustic behavior of a sports arena with the installation of an adequate systems sound radiation to its architectural features (and events to be organisated). In these simulations several design tools to compare results and get a better sound enclosure shall be used. Be carried out several designs of speaker systems for this sports arena known program EASE with sound simulation and tools that incorporates several avenues systems, filters, etc. Another sound simulation software using EASE Focus is very used professionally, more intuitive and mainly focused on sound sources groupings (clusters) of type "linear array", in one or more dimensions. It must in turn studying different types of systems (loudspeakers, processors, amplifiers ...) available to the sound technicians. Once collected this information, proceed to design and simulate the sound reinforcement systems chosen with sound simulation tools mentioned EASE and EASE Focus. As for the method and the phases of work initially be necessary to obtain information on the current state of the sector sound systems and features that make the events of these systems require sound reinforcement market.

A comparison of open-source segmentation architectures for dealing with imperfect data from the media in speech synthesis

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Traditional Text-To-Speech (TTS) systems have been developed using especially-designed non-expressive scripted recordings. In order to develop a new generation of expressive TTS systems in the Simple4All project, real recordings from the media should be used for training new voices with a whole new range of speaking styles. However, for processing this more spontaneous material, the new systems must be able to deal with imperfect data (multi-speaker recordings, background and foreground music and noise), filtering out low-quality audio segments and creating mono-speaker clusters. In this paper we compare several architectures for combining speaker diarization and music and noise detection which improve the precision and overall quality of the segmentation.

Descripción de parámetros glóticos basados en el modelado de los pliegues vocales para la detección de patología de la voz

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Las patologías de la voz se han transformado en los últimos tiempos en una problemática social con cierto calado. La contaminación de las ciudades, hábitos como el de fumar, el uso de aparatos de aire acondicionado, etcétera, contribuyen a ello. Esto alcanza más relevancia en profesionales que utilizan su voz de manera frecuente, como, por ejemplo, locutores, cantantes, profesores o teleoperadores. Por todo ello resultan de especial interés las técnicas de ayuda al diagnóstico que son capaces de extraer conclusiones clínicas a partir de una muestra de la voz grabada con un micrófono, frente a otras invasivas que implican la exploración utilizando laringoscopios, fibroscopios o videoendoscopios, técnicas en cualquier caso mucho más molestas para los pacientes al exigir la introducción parcial del instrumental citado por la garganta, en actuaciones consideradas de tipo quirúrgico. Dentro de aquellas técnicas se ha avanzado mucho en un período de tiempo relativamente corto. En lo que se refiere al diagnóstico de patologías, hemos pasado en los últimos quince años de trabajar principalmente con parámetros extraídos de la señal de voz –tanto en el dominio del tiempo como en el de la frecuencia– y con escalas elaboradas con valoraciones subjetivas realizadas por expertos a hacerlo también con parámetros procedentes de estimaciones de la fuente glótica. La importancia de utilizar la fuente glótica reside, a grandes rasgos, en que se trata de una señal vinculada directamente al estado de la estructura laríngea del locutor y también en que está generalmente menos influida por el tracto vocal que la señal de voz. Es conocido que el tracto vocal guarda más relación con el mensaje hablado, y su presencia dificulta el proceso de detección de patología vocal. Estas estimaciones de la fuente glótica han sido obtenidas a través de técnicas de filtrado inverso desarrolladas por nuestro grupo de investigación. Hemos conseguido, además, profundizar en la naturaleza de la señal glótica: somos capaces de descomponerla y relacionarla con parámetros biomecánicos de los propios pliegues vocales, obteniendo estimaciones de elementos como la masa, la pérdida de energía o la elasticidad del cuerpo y de la cubierta del pliegue, entre otros. De las componentes de la fuente glótica surgen también los denominados parámetros biométricos, relacionados con la forma de la señal, que constituyen por sí mismos una firma biométrica del individuo. También trabajaremos con parámetros temporales, relacionados con las diferentes etapas que se observan dentro de la señal glótica durante un ciclo de fonación. Por último, consideraremos parámetros clásicos de perturbación y energía de la señal. En definitiva, contamos ahora con una considerable cantidad de parámetros glóticos que conforman una base estadística multidimensional, destinada a ser capaz de discriminar personas con voces patológicas o disfónicas de aquellas que no presentan patología en la voz o con voces sanas o normofónicas. Esta tesis doctoral se ocupa de varias cuestiones: en primer lugar, es necesario analizar cuidadosamente estos nuevos parámetros, por lo que ofreceremos una completa descripción estadística de los mismos. También estudiaremos cuestiones como la distribución de los parámetros atendiendo a criterios como el de normalidad estadística de los mismos, ocupándonos especialmente de la diferencia entre las distribuciones que presentan sujetos sanos y sujetos con patología vocal. Para todo ello emplearemos diferentes técnicas estadísticas: generación de elementos y diagramas descriptivos, pruebas de normalidad y diversos contrastes de hipótesis, tanto paramétricos como no paramétricos, que considerarán la diferencia entre los grupos de personas sanas y los grupos de personas con alguna patología relacionada con la voz. Además, nos interesa encontrar relaciones estadísticas entre los parámetros, de cara a eliminar posibles redundancias presentes en el modelo, a reducir la dimensionalidad del problema y a establecer un criterio de importancia relativa en los parámetros en cuanto a su capacidad discriminante para el criterio patológico/sano. Para ello se aplicarán técnicas estadísticas como la Correlación Lineal Bivariada y el Análisis Factorial basado en Componentes Principales. Por último, utilizaremos la conocida técnica de clasificación Análisis Discriminante, aplicada a diferentes combinaciones de parámetros y de factores, para determinar cuáles de ellas son las que ofrecen tasas de acierto más prometedoras. Para llevar a cabo la experimentación se ha utilizado una base de datos equilibrada y robusta formada por doscientos sujetos, cien de ellos pertenecientes al género femenino y los restantes cien al género masculino, con una proporción también equilibrada entre los sujetos que presentan patología vocal y aquellos que no la presentan. Una de las aplicaciones informáticas diseñada para llevar a cabo la recogida de muestras también es presentada en esta tesis. Los distintos estudios estadísticos realizados nos permitirán identificar aquellos parámetros que tienen una mayor contribución a la hora de detectar la presencia de patología vocal. Alguno de los estudios, además, nos permitirá presentar una ordenación de los parámetros en base a su importancia para realizar la detección. Por otra parte, también concluiremos que en ocasiones es conveniente realizar una reducción de la dimensionalidad de los parámetros para mejorar las tasas de detección. Por fin, las propias tasas de detección constituyen quizá la conclusión más importante del trabajo. Todos los análisis presentes en el trabajo serán realizados para cada uno de los dos géneros, de acuerdo con diversos estudios previos que demuestran que los géneros masculino y femenino deben tratarse de forma independiente debido a las diferencias orgánicas observadas entre ambos. Sin embargo, en lo referente a la detección de patología vocal contemplaremos también la posibilidad de trabajar con la base de datos unificada, comprobando que las tasas de acierto son también elevadas. Abstract Voice pathologies have become recently in a social problem that has reached a certain concern. Pollution in cities, smoking habits, air conditioning, etc. contributes to it. This problem is more relevant for professionals who use their voice frequently: speakers, singers, teachers, actors, telemarketers, etc. Therefore techniques that are capable of drawing conclusions from a sample of the recorded voice are of particular interest for the diagnosis as opposed to other invasive ones, involving exploration by laryngoscopes, fiber scopes or video endoscopes, which are techniques much less comfortable for patients. Voice quality analysis has come a long way in a relatively short period of time. In regard to the diagnosis of diseases, we have gone in the last fifteen years from working primarily with parameters extracted from the voice signal (both in time and frequency domains) and with scales drawn from subjective assessments by experts to produce more accurate evaluations with estimates derived from the glottal source. The importance of using the glottal source resides broadly in that this signal is linked to the state of the speaker's laryngeal structure. Unlike the voice signal (phonated speech) the glottal source, if conveniently reconstructed using adaptive lattices, may be less influenced by the vocal tract. As it is well known the vocal tract is related to the articulation of the spoken message and its influence complicates the process of voice pathology detection, unlike when using the reconstructed glottal source, where vocal tract influence has been almost completely removed. The estimates of the glottal source have been obtained through inverse filtering techniques developed by our research group. We have also deepened into the nature of the glottal signal, dissecting it and relating it to the biomechanical parameters of the vocal folds, obtaining several estimates of items such as mass, loss or elasticity of cover and body of the vocal fold, among others. From the components of the glottal source also arise the so-called biometric parameters, related to the shape of the signal, which are themselves a biometric signature of the individual. We will also work with temporal parameters related to the different stages that are observed in the glottal signal during a cycle of phonation. Finally, we will take into consideration classical perturbation and energy parameters. In short, we have now a considerable amount of glottal parameters in a multidimensional statistical basis, designed to be able to discriminate people with pathologic or dysphonic voices from those who do not show pathology. This thesis addresses several issues: first, a careful analysis of these new parameters is required, so we will offer a complete statistical description of them. We will also discuss issues such as distribution of the parameters, considering criteria such as their statistical normality. We will take special care in the analysis of the difference between distributions from healthy subjects and the distributions from pathological subjects. To reach these goals we will use different statistical techniques such as: generation of descriptive items and diagramas, tests for normality and hypothesis testing, both parametric and nonparametric. These latter techniques consider the difference between the groups of healthy subjects and groups of people with an illness related to voice. In addition, we are interested in finding statistical relationships between parameters. There are various reasons behind that: eliminate possible redundancies in the model, reduce the dimensionality of the problem and establish a criterion of relative importance in the parameters. The latter reason will be done in terms of discriminatory power for the criterion pathological/healthy. To this end, statistical techniques such as Bivariate Linear Correlation and Factor Analysis based on Principal Components will be applied. Finally, we will use the well-known technique of Discriminant Analysis classification applied to different combinations of parameters and factors to determine which of these combinations offers more promising success rates. To perform the experiments we have used a balanced and robust database, consisting of two hundred speakers, one hundred of them males and one hundred females. We have also used a well-balanced proportion where subjects with vocal pathology as well as subjects who don´t have a vocal pathology are equally represented. A computer application designed to carry out the collection of samples is also presented in this thesis. The different statistical analyses performed will allow us to determine which parameters contribute in a more decisive way in the detection of vocal pathology. Therefore, some of the analyses will even allow us to present a ranking of the parameters based on their importance for the detection of vocal pathology. On the other hand, we will also conclude that it is sometimes desirable to perform a dimensionality reduction in order to improve the detection rates. Finally, detection rates themselves are perhaps the most important conclusion of the work. All the analyses presented in this work have been performed for each of the two genders in agreement with previous studies showing that male and female genders should be treated independently, due to the observed functional differences between them. However, with regard to the detection of vocal pathology we will consider the possibility of working with the unified database, ensuring that the success rates obtained are also high.

Aislamiento acústico a ruido aéreo en techos con materiales ecológicos

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El incremento de la contaminación acústica se ha convertido en un problema medioambiental lo cual ha generado un aumento en la demanda del aislamiento de los edificios para lograr el confort acústico. Existen métodos de medición de aislamiento acústico a ruido aéreo de fachadas bajo ensayo “in situ” pero no para techos. El objetivo de esta investigación consiste en determinar el aislamiento acústico de prototipos de techos ecológicos multicapas adaptando la metodología recomendada por normas internacionales. Se propusieron cuatro prototipos de techos con distintos materiales naturales como especies vegetales y sustratos de fibra de coco, superpuestos sobre un techo base liviano. Al sustrato se le varió su espesor de 10 a 20 cm, sus condiciones seca o húmeda y su densidad: 100%, 66% y 33% fibra de coco. En los resultados se determinó que las especies vegetales no aportaron aislamiento, pero al incrementar el espesor y densidad del sustrato mejoró el aislamiento sonoro. También se determinó que el aislamiento acústico en condición seca fue mejor que en condición húmeda. Se planteó una metodología para determinar el aislamiento acústico a ruido aéreo en techos bajo ensayo “in situ” empleando el método global con altavoz, ésta se estructuró en tres partes: la primera describe el módulo experimental y la plataforma tecnológica; la segunda aborda procedimientos para medir los niveles de presión sonora, niveles de ruido de fondo y los tiempos de reverberación, en bandas de frecuencia de tercios de octava; en la tercera se explica el cálculo de los promedios de estos parámetros, así como también la diferencia de niveles estandarizada, el índice de reducción sonora aparente con sus valores globales y su incertidumbre. Así mismo, se determinó un algoritmo de predicción del aislamiento acústico, analizando los valores obtenidos en las mediciones “in situ” como la Diferencia de nivel estandarizada ponderada y el Índice ponderado de reducción sonora, los cuales se relacionaron con el peso y el espesor de los materiales de las diferentes multicapas. A través de un análisis de regresión se establecieron modelos para predecir la Diferencia de nivel estandarizada y el Índice de reducción sonora aparente en bandas de octavas. Los resultados del modelo propuesto son cercanos a los datos medidos “in situ”. Por otra parte, se realizaron mediciones térmicas en un módulo experimental y otro de referencia en tres períodos del día. En el módulo experimental se construyeron los prototipos de techos ecológicos y en el de referencia un techo de construcción tradicional, se compararon los resultados de ambos módulos y su interacción con la temperatura exterior. Se detectó que las temperaturas internas del módulo experimental en condición seca tienden a mantener sus valores durante todo el día, en horas de la mañana sus valores son superiores a los del módulo de referencia y temperatura exterior. Al mediodía y en la tarde las temperaturas internas del módulo experimental son inferiores a las del módulo de referencia, incrementándose esta última a medida que aumenta temperatura exterior. Finalmente, a partir de las mediciones “in situ” se realizaron cuatro modelos de correlación acústica-térmica, los tres primeros relacionando la temperatura y el nivel de presión sonora en tres momentos del día, en la tarde se aprecia que a medida que aumenta la temperatura aumentan los niveles de presión sonora. En el cuarto modelo se estableció una correlación acústica-térmica entre la resistencia térmica de los materiales de las multicapas con su índice de reducción sonora, obteniéndose un coeficiente de correlación moderado. La presente investigación plantea retos desde el punto de vista ambiental, permite cuantificar el aislamiento acústico de los techos y mejorar la calidad de vida en áreas urbanas; el empleo de los materiales de procedencia local como los utilizados fomenta el respeto por la naturaleza y producen un menor impacto ambiental. ABSTRACT Sound contamination increase has generated a raise in insulation demand of buildings in order to achieve a sound comfort, and this has become into an environmental problem. There are measurements methods for air borne soundproofing in facades through “in situ” test but there are not for roofs. The purpose of this research is to determine sound insulation of multilayer green roof prototypes following the methodology suggested by international standards. Four prototypes of roofs with different types of vegetation and overlapped coconut fiber substrates over a light roof were proposed. Thickness of substrate varied from 10 to 20 cm, as well as its dry a humid condition and its density: 100%, 66% y 33% of coconut fiber. Results determined that vegetation did not contribute to insulation but when increasing substrate’s thickness and density, sound insulation was improved. Likewise, it was determined that sound insulation in dry condition was greater than in humid condition. A methodology to determine airborne sound insulation in roofs through “in situ” test using a speaker global method was stated. This was structured in three parts: the first part describes the experimental module and the technological platform; the second one establishes the procedures to measure sound pressure levels; levels of background noise and time of reverberation in frequency bands of thirds of octave, and in the third part, averages of these parameters, as well as the difference of standardized levels, the apparent sound reduction with its global values and uncertainty were calculated. Likewise, a prediction algorithm of sound insulation was determined by analyzing values obtained in “in-situ” measures such as the difference of weighted standardized level and the weighted index of sound reduction which they were related to weight and thickness of different multilayer materials. Models to predict the standardized level difference and the apparent sound reduction index in bands of octaves were established by a regression analysis. Results for the proposed model are close to data measured “in situ”. On the other hand, thermal measures were done in an experimental module, as well as in another as for reference in three periods of the day. Green prototypes roofs were built in the experimental module and a traditional roof were built in the reference one. Results of both modules were compared as well as the interaction with outside temperature. Internal temperatures of the experimental module in dry condition tend to keep their values throughout the day; in the morning, its values are higher than those of the reference module and external temperatures. Finally, four models of sound-thermal correlation were done from measures “in situ”. The first three were related to temperature and sound pressure level in three moments of the day. In the afternoon, it is observed that when temperature increases, sound pressure levels increases too. In the fourth model, a sound and thermal correlation was established between thermal resistance of multilayer materials with their sound reduction index, and a moderated correlation coefficient was obtained. This research poses challenges from the environmental point of view, and it allows quantifying sound insulation of roofs as well as improving quality of life in urban areas; the use of local vegetation promotes respect for nature and it produces a smaller environmental impact as well.

Cancelación activa del ruido utilizando el KIT TMS320C5515 EZDSP

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El control, o cancelación activa de ruido, consiste en la atenuación del ruido presente en un entorno acústico mediante la emisión de una señal igual y en oposición de fase al ruido que se desea atenuar. La suma de ambas señales en el medio acústico produce una cancelación mutua, de forma que el nivel de ruido resultante es mucho menor al inicial. El funcionamiento de estos sistemas se basa en los principios de comportamiento de los fenómenos ondulatorios descubiertos por Augustin-Jean Fresnel, Christiaan Huygens y Thomas Young entre otros. Desde la década de 1930, se han desarrollado prototipos de sistemas de control activo de ruido, aunque estas primeras ideas eran irrealizables en la práctica o requerían de ajustes manuales cada poco tiempo que hacían inviable su uso. En la década de 1970, el investigador estadounidense Bernard Widrow desarrolla la teoría de procesado adaptativo de señales y el algoritmo de mínimos cuadrados LMS. De este modo, es posible implementar filtros digitales cuya respuesta se adapte de forma dinámica a las condiciones variables del entorno. Con la aparición de los procesadores digitales de señal en la década de 1980 y su evolución posterior, se abre la puerta para el desarrollo de sistemas de cancelación activa de ruido basados en procesado de señal digital adaptativo. Hoy en día, existen sistemas de control activo de ruido implementados en automóviles, aviones, auriculares o racks de equipamiento profesional. El control activo de ruido se basa en el algoritmo fxlms, una versión modificada del algoritmo LMS de filtrado adaptativo que permite compensar la respuesta acústica del entorno. De este modo, se puede filtrar una señal de referencia de ruido de forma dinámica para emitir la señal adecuada que produzca la cancelación. Como el espacio de cancelación acústica está limitado a unas dimensiones de la décima parte de la longitud de onda, sólo es viable la reducción de ruido en baja frecuencia. Generalmente se acepta que el límite está en torno a 500 Hz. En frecuencias medias y altas deben emplearse métodos pasivos de acondicionamiento y aislamiento, que ofrecen muy buenos resultados. Este proyecto tiene como objetivo el desarrollo de un sistema de cancelación activa de ruidos de carácter periódico, empleando para ello electrónica de consumo y un kit de desarrollo DSP basado en un procesador de muy bajo coste. Se han desarrollado una serie de módulos de código para el DSP escritos en lenguaje C, que realizan el procesado de señal adecuado a la referencia de ruido. Esta señal procesada, una vez emitida, produce la cancelación acústica. Empleando el código implementado, se han realizado pruebas que generan la señal de ruido que se desea eliminar dentro del propio DSP. Esta señal se emite mediante un altavoz que simula la fuente de ruido a cancelar, y mediante otro altavoz se emite una versión filtrada de la misma empleando el algoritmo fxlms. Se han realizado pruebas con distintas versiones del algoritmo, y se han obtenido atenuaciones de entre 20 y 35 dB medidas en márgenes de frecuencia estrechos alrededor de la frecuencia del generador, y de entre 8 y 15 dB medidas en banda ancha. ABSTRACT. Active noise control consists on attenuating the noise in an acoustic environment by emitting a signal equal but phase opposed to the undesired noise. The sum of both signals results in mutual cancellation, so that the residual noise is much lower than the original. The operation of these systems is based on the behavior principles of wave phenomena discovered by Augustin-Jean Fresnel, Christiaan Huygens and Thomas Young. Since the 1930’s, active noise control system prototypes have been developed, though these first ideas were practically unrealizable or required manual adjustments very often, therefore they were unusable. In the 1970’s, American researcher Bernard Widrow develops the adaptive signal processing theory and the Least Mean Squares algorithm (LMS). Thereby, implementing digital filters whose response adapts dynamically to the variable environment conditions, becomes possible. With the emergence of digital signal processors in the 1980’s and their later evolution, active noise cancellation systems based on adaptive signal processing are attained. Nowadays active noise control systems have been successfully implemented on automobiles, planes, headphones or racks for professional equipment. Active noise control is based on the fxlms algorithm, which is actually a modified version of the LMS adaptive filtering algorithm that allows compensation for the acoustic response of the environment. Therefore it is possible to dynamically filter a noise reference signal to obtain the appropriate cancelling signal. As the noise cancellation space is limited to approximately one tenth of the wavelength, noise attenuation is only viable for low frequencies. It is commonly accepted the limit of 500 Hz. For mid and high frequencies, conditioning and isolating passive techniques must be used, as they produce very good results. The objective of this project is to develop a noise cancellation system for periodic noise, by using consumer electronics and a DSP development kit based on a very-low-cost processor. Several C coded modules have been developed for the DSP, implementing the appropriate signal processing to the noise reference. This processed signal, once emitted, results in noise cancellation. The developed code has been tested by generating the undesired noise signal in the DSP. This signal is emitted through a speaker simulating the noise source to be removed, and another speaker emits an fxlms filtered version of the same signal. Several versions of the algorithm have been tested, obtaining attenuation levels around 20 – 35 dB measured in a tight bandwidth around the generator frequency, or around 8 – 15 dB measured in broadband.

Modelado de fuente glotal para extraer características de la identidad del locutor

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La producción de la voz humana se lleva a cabo en el tracto vocal. Los sintetizadores consiguen emular a las distintas partes del tracto vocal, y gracias a ellos se pueden modificar características propias del hablante. Una de estas modificaciones consiste variar el tono de un locutor inicial, mezclando parámetros de éste con los de un locutor deseado. En este proyecto se ha desarrollado un modelo propuesto para este cambio de identidad. Partiendo de las señales de voz originales se han extraído parámetros para crear una base de datos para cada locutor. Las voces se sintetizarán mezclando estas bases de datos y otros parámetros correspondientes a distintos locutores dando como resultado una señal de voz con características de dos locutores diferentes. Finalmente se realizarán pruebas auditivas para comprobar la identidad del locutor de la voz sintetizada. ABSTRACT. Human voice production is carried out in the vocal tract. Each part of the vocal tract is emulated in synthesizers, and for that, speaker features can be modified. One of these modifications is to change the initial speaker tone, mixing parameters of this speaker with the parameters of a desired speaker. In this project it has been developed a proposed model for this identity change. Starting from the originals voice signals its parameters have been extracted to built a database for each speaker. Voices will be synthesized mixing these databases with parameters of the others speakers giving as result a voice signal with features of two different speakers. Finally, hearing tests will be made to check the speaker identity of the synthesized voice.

Estudio acústico del estadio "La Peineta" utilizando line arrays

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El proyecto fin de carrera consiste en un estudio acústico del Estadio de la Peineta (estadio de fútbol perteneciente al club Atlético de Madrid el cual se encuentra en construcción). Se realizará el diseño por completo de una maqueta del estadio utilizando el programa EASE. Esta maqueta se hará a escala real, exactamente como se está construyendo el estadio. A dicha maqueta se le incorporarán los diferentes materiales absorbentes específicos a cada una de las superficies que compongan el estadio. Se crearán tantas zonas de audiencia como superficies se obtenga en cada grada sobre donde se realizarán dos estudios acústicos diferentes. El primer estudio se realizará con un total de 24 clústeres de altavoces los cuales están compuestos por 10 altavoces Aero 50. La colocación estratégica de cada uno de estos altavoces se estudiará con la herramienta EASE Focus 2. Una vez obtenidas las posiciones se importarán cada uno de estos clústeres de altavoces su respectiva configuración. El otro estudio se realizará con la mitad de arrays de altavoces con la intención de tener una comparativa de recubrimiento entre un estudio y otro. Las pruebas de simulación serán analizando el nivel de presión sonora que provoca cada uno de estos estudios cuando tienen sus altavoces en funcionamiento. Se utilizará el módulo de “Area mapping” para estudiar el mapeo en cada una de las zonas de audiencia definidas, así como cada una de las distribuciones por área que predominan. Se irán anotando cada uno de los problemas e ideas que van surgiendo a lo largo de dicho proyecto para proponer una continuación y mejora del mismo. Se planteará una serie de pasos e pruebas al final de la memoria ya que se trata de un proyecto sin cerrar y puede ser continuado por otra persona. ABSTRACT. The final project is an acoustic studio Peineta Stadium (soccer stadium belongs to the club Atletico Madrid which is under construction). The design is made entirely of a model of the stadium using the EASE program. This model will be full scale, exactly as is building the stadium. A model that should be incorporated into the various specific absorbent material to each of the surfaces that make up the stadium. Hearing so many areas as surfaces is obtained in each tier on which two different acoustic studies will be conducted will be created. The first study was conducted with a total of 24 speaker clusters which are composed of 10 speakers Aero 50. The strategic placement of each of these speakers will be studied with the EASE Focus 2. Once obtained tool positions are imported each these clusters of the respective speaker configuration. The other study was conducted with half speaker arrays with the intention of having a comparative study between a coating and another. Simulation tests will be analyzing the sound pressure level which causes each of these studies have their speakers when in operation. Module "mapping area" will be used to study the mapping in each of the areas defined audience, and each of the area distributions predominate. They will be written down each of the issues and ideas that arise throughout the project to propose a continuation and improvement. a series of steps and tests at the end of the memory will be raised because it is a project without closing and may be continued for another person.

«
1
2
...
28
29
30
31
32
33
34
...
42
43
»