842 resultados para speaker diarization


Relevância:

10.00% 10.00%

Publicador:

Resumo:

Gender detection is a very important objective to improve efficiency in tasks as speech or speaker recognition, among others. Traditionally gender detection has been focused on fundamental frequency (f0) and cepstral features derived from voiced segments of speech. The methodology presented here consists in obtaining uncorrelated glottal and vocal tract components which are parameterized as mel-frequency coefficients. K-fold and cross-validation using QDA and GMM classifiers showed that better detection rates are reached when glottal source and vocal tract parameters are used in a gender-balanced database of running speech from 340 speakers.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Nowadays, we can send audio on the Internet for multiples uses like telephony, broadcast audio or teleconferencing. The issue comes when you need to synchronize the sound from different sources because the network where we are going to work could lose packets and introduce delay in the delivery. This can also come because the sound cards could be work in different speeds. In this project, we will work with two computers emitting sound (one will simulate the left channel (mono) of a stereo signal, and the other the right channel) and connected with a third computer by a TCP network. The last computer must get the sound from both computers and reproduce it in a speaker properly (without delay). So, basically, the main goal of the project is to synchronize multi-track sound over a network. TCP networks introduce latency into data transfers. Streaming audio suffers from two problems: a delay and an offset between the channels. This project explores the causes of latency, investigates the affect of the inter-channel offset and proposes a solution to synchronize the received channels. In conclusion, a good synchronization of the sound is required in a time when several audio applications are being developed. When two devices are ready to send audio over a network, this multi-track sound will arrive at the third computer with an offset giving a negative effect to the listener. This project has dealt with this offset achieving a good synchronization of the multitrack sound getting a good effect on the listener. This was achieved thanks to the division of the project into several steps having constantly a good vision of the problem, a good scalability and having controlled the latency at all times. As we can see in the chapter 4 of the project, a lack of synchronization over c. 100μs is audible to the listener. RESUMEN. A día de hoy, podemos transmitir audio a través de Internet por varios motivos como pueden ser: una llamada telefónica, una emisión de audio o una teleconferencia. El problema viene cuando necesitas sincronizar ese sonido producido por los diferentes orígenes ya que la red a la que nos vamos a conectar puede perder los paquetes y/o introducir un retardo en las entregas de los mismos. Así mismo, estos retardos también pueden venir producidos por las diferentes velocidades a las que trabajan las tarjetas de sonido de cada dispositivo. En este proyecto, se ha trabajado con dos ordenadores emitiendo sonido de manera intermitente (uno se encargará de simular el canal izquierdo (mono) de la señal estéreo emitida, y el otro del canal derecho), estando conectados a través de una red TCP a un tercer ordenador, el cual debe recibir el sonido y reproducirlo en unos altavoces adecuadamente y sin retardo (deberá juntar los dos canales y reproducirlo como si de estéreo de tratara). Así, el objetivo principal de este proyecto es el de encontrar la manera de sincronizar el sonido producido por los dos ordenadores y escuchar el conjunto en unos altavoces finales. Las redes TCP introducen latencia en la transferencia de datos. El streaming de audio emitido a través de una red de este tipo puede sufrir dos grandes contratiempos: retardo y offset, los dos existentes en las comunicaciones entre ambos canales. Este proyecto se centra en las causas de ese retardo, investiga el efecto que provoca el offset entre ambos canales y propone una solución para sincronizar los canales en el dispositivo receptor. Para terminar, una buena sincronización del sonido es requerida en una época donde las aplicaciones de audio se están desarrollando continuamente. Cuando los dos dispositivos estén preparados para enviar audio a través de la red, la señal de sonido multi-canal llegará al tercer ordenador con un offset añadido, por lo que resultará en una mala experiencia en la escucha final. En este proyecto se ha tenido que lidiar con ese offset mencionado anteriormente y se ha conseguido una buena sincronización del sonido multi-canal obteniendo un buen efecto en la escucha final. Esto ha sido posible gracias a una división del proyecto en diversas etapas que proporcionaban la facilidad de poder solucionar los errores en cada paso dando una importante visión del problema y teniendo controlada la latencia en todo momento. Como se puede ver en el capítulo 4 del proyecto, la falta de sincronización sobre una diferencia de 100μs entre dos canales (offset) empieza a ser audible en la escucha final.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This project reports on a literature review about piezoelectric loudspeakers and on an experimental research about how to improve some features of a particular horned piezoelectric tweeter. The work involves an investigation of the performance and principle of operation of piezoelectric loudspeakers to understand how the sound is generated and what its main parameters are. Also, previous research papers about how to improve this type of speakers are reported. The knowledge gained was used to reconsider and re-purpose a particular piezoelectric transducer. After characterising the original state of the device with acoustical and electroacoustical measurements, some improvements were implemented. Moreover, interesting conclusions were reached based on the results of the tests that were carried out. A structural study with a scanning laser was then completed. These sections demonstrated the need for providing the speaker with a rear suspension that guides the vibration of the membrane. Finally, an inverse filter was designed in order to get a flat output response. After simulating the results with Matlab, validating experiments were run in the anechoic chamber with great success. RESUMEN. Este proyecto consta de un estudio detallado sobre piezoelectricidad y altavoces piezoeléctricos, así como de una parte experimental consistente en mejorar algunas características de un altavoz piezoeléctrico particular: un tweeter de bocina. El estudio profundiza en cuáles son los principios de funcionamiento y los principales parámetros de este tipo de altavoces. Con el conocimiento adquirido a partir de trabajos de previos sobre el tema e investigación bibliográfica se ha llevado a cabo la parte experimental. Esta parte ha requerido de una serie de medidas acústicas y electroacústicas para, primero, caracterizar el altavoz en su estado original y para posteriormente buscar y validar posibles mejoras, principalmente en la respuesta en frecuencia. Además, se ha realizado un estudio estructural del diafragma a partir de medidas tomadas con un vibrómetro laser Doppler. De estos tres procesos se concluyó que el altavoz bajo estudio tiene un problema en el soporte del cristal piezoeléctrico y se demostró la necesidad de equipar el dispositivo de una suspensión trasera que controle el movimiento del diafragma. Finalmente, se ha diseñado e implementado en Matlab un filtro inverso, con el objetivo de conseguir una respuesta plana a la salida del altavoz. Su funcionamiento fue validado en la cámara anecoica satisfactoriamente.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Durante el proceso de producción de voz, los factores anatómicos, fisiológicos o psicosociales del individuo modifican los órganos resonadores, imprimiendo en la voz características particulares. Los sistemas ASR tratan de encontrar los matices característicos de una voz y asociarlos a un individuo o grupo. La edad y sexo de un hablante son factores intrínsecos que están presentes en la voz. Este trabajo intenta diferenciar esas características, aislarlas y usarlas para detectar el género y la edad de un hablante. Para dicho fin, se ha realizado el estudio y análisis de las características basadas en el pulso glótico y el tracto vocal, evitando usar técnicas clásicas (como pitch y sus derivados) debido a las restricciones propias de dichas técnicas. Los resultados finales de nuestro estudio alcanzan casi un 100% en reconocimiento de género mientras en la tarea de reconocimiento de edad el reconocimiento se encuentra alrededor del 80%. Parece ser que la voz queda afectada por el género del hablante y las hormonas, aunque no se aprecie en la audición. ABSTRACT Particular elements of the voice are printed during the speech production process and are related to anatomical and physiological factors of the phonatory system or psychosocial factors acquired by the speaker. ASR systems attempt to find those peculiar nuances of a voice and associate them to an individual or a group. Age and gender are inherent factors to the speaker which may be represented in voice. This work attempts to differentiate those characteristics, isolate them and use them to detect speaker’s gender and age. Features based on glottal pulse and vocal tract are studied and analyzed in order to achieve good results in both tasks. Classical methodologies (such as pitch and derivates) are avoided since the requirements of those techniques may be too restrictive. The final scores achieve almost 100% in gender recognition whereas in age recognition those scores are around 80%. Factors related to the gender and hormones seem to affect the voice although they are not audible.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En el proyecto se realiza el estudio del comportamiento acústico y electroacústico de la sala 5 de los cines Kinépolis de Madrid. El objetivo es determinar las características acústicas de la sala mediante la realización de las medidas in-situ para después analizar y simular la misma con EASE4.4, realizar una sonorización apropiada para reproducción de cine, valorar la sala actual y proponer algunas mejoras. El desarrollo del proyecto se ha dividido en tres partes. En primer lugar, se realizan las medidas espaciales y acústicas in-situ con el programa de toma de medidas Dirac 5.5. En este paso, se obtienen las medidas reales (usadas en la simulación 3D posterior) y los dos parámetros acústicos importantes inherentes a la sala, el tiempo de reverberación y el ruido de fondo. Además, se estudia el conexionado de altavoces y de los equipos instalados en sala. En segundo lugar, se hace la simulación de la sala, para ello se realiza su diseño con el programa de simulación acústica EASE 4.4, con el que se ajustan las condiciones de campo a las existentes en Kinépolis, asegurando que el comportamiento acústico de la sala simulada sea similar al real. También se distribuirá el sistema electroacústico con la descripción del conexionado y la configuración de los altavoces. En la simulación, durante el estudio acústico, además de desarrollar el dimensionado del recinto, se ajustan los materiales de tal manera que el tiempo de reverberación sea el de la sala de estudio considerando también el ruido de fondo. En cuanto al estudio electroacústico, se distribuyen los altavoces en las posiciones medidas in-situ de la instalación y se detalla su conexionado. De esta manera, se realizan los cálculos para ajustar sus respuestas para proporcionar un recubrimiento sonoro uniforme y el efecto precedencia desde la zona frontal al oyente deseado. Finalmente, y a partir de los datos obtenidos en la simulación, se hace una valoración a través de diversos criterios de inteligibilidad, se extraen las conclusiones del estudio y se proponen una serie de mejoras en la sala real para obtener unas prestaciones sonoras óptimas. Se consigue con el proyecto, tras el aprendizaje de las herramientas específicas utilizadas, la recopilación de documentación y el análisis de datos de la sala, aplicar los conceptos teóricos de manera práctica a un caso real. ABSTRACT. During the project is carried out the acoustic and electroacoustic study of the room cinema 5 of the Kinépolis group in Madrid. The objective is to determine the acoustic characteristics of the room by performing the in-situ measurements in order to analyze and simulate it with the software EASE 4.4 making an appropriate sound for movie playback, assess the current room, and propose some improvements. Development of the project is composed of three parts. First, the performing of the spatial and acoustic in-situ measurements with the program Dirac 5.5. On this step, the real measures are obtained (that will be used on the next 3D simulation) and the two important parameters inherent to the room, the reverberation time and the noise level. In addition, the speaker connections and the installations of the cinema’s equipment are studied. Secondly, the simulation of the room cinema is performed. This simulation is done with the acoustic simulation program EASE 4.4 in which its field conditions conform to the conditions of Kinépolis, ensuring that the acoustic behavior of the simulated room is similar to the real room. Also, the electroacustic system is distributed with the wiring and the speaker setup. During the acoustic study of the simulation, in addition to do the dimensions of the cinema room, the materials are adjusted in order to synchronize reverberation time to that of the real room. The noise level is taking in account too. For the electroacustic studio, the speakers will be distributed in the positions measured in-situ to do the installation and its detailed connection. By this way, the calculations are done to adjust to the responses in a way to give a sound uniform coating with the precedence effect desired on the front area of the listeners. Lastly, and from the data obtained in the simulation, an assessment is done through the various criteria of intelligibility, conclusions are drawn from the study and a number of improvements are proposed in the actual room for obtain optimal sound benefits. With this project is achieved, after gain learning of the specific tolls used, the documentation collected and the data analysis of the room, to apply theoretical concepts in a practical way for a real case.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Diseño y simulación del comportamiento acústico del recinto bajo estudio con el sistema refuerzo sonoro instalado. El objeto de este proyecto fin de carrera es el de diseñar y simular el comportamiento acústico de un pabellón polideportivo con la instalación de un sistema de refuerzo sonoro adecuado a sus características arquitectónicas (y a los eventos a realizar). En estas simulaciones se utilizarán varias herramientas de diseño para poder comparar resultados y así obtener una mejor sonorización del recinto. Se llevarán a cabo varios diseños de sistemas de refuerzo sonoro para este recinto deportivo con el conocido programa de simulación sonora EASE, que incorpora sistemas de varias vías, filtros, etc. Otro software de simulación sonora a usar será EASE Focus, más intuitivo y principalmente enfocado a fuentes sonoras del tipo "arrays lineales", en dos dimensiones. En cuanto al método y las fases de trabajo, inicialmente, será necesario obtener información del estado actual del mercado del sector de instalaciones de sonorización y las características que los eventos a realizar requieren de estos sistemas de refuerzo sonoro. Se deberá a su vez estudiar los diferentes tipos de sistemas existentes (altavoces, procesadores, amplificadores...) a disposición de los técnicos de sonido. Una vez recogida esta información, se procederá a diseñar y simular los sistemas de refuerzo sonoro elegidos con las mencionadas herramientas de simulación sonora EASE y EASE Focus. ABSTRACT. Design and simulation of the acoustic behavior of the enclosure/complex under study with installed sound reinforcement. The purpose of this final project is to design and simulate the acoustic behavior of a sports arena with the installation of an adequate systems sound radiation to its architectural features (and events to be organisated). In these simulations several design tools to compare results and get a better sound enclosure shall be used. Be carried out several designs of speaker systems for this sports arena known program EASE with sound simulation and tools that incorporates several avenues systems, filters, etc. Another sound simulation software using EASE Focus is very used professionally, more intuitive and mainly focused on sound sources groupings (clusters) of type "linear array", in one or more dimensions. It must in turn studying different types of systems (loudspeakers, processors, amplifiers ...) available to the sound technicians. Once collected this information, proceed to design and simulate the sound reinforcement systems chosen with sound simulation tools mentioned EASE and EASE Focus. As for the method and the phases of work initially be necessary to obtain information on the current state of the sector sound systems and features that make the events of these systems require sound reinforcement market.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Las patologías de la voz se han transformado en los últimos tiempos en una problemática social con cierto calado. La contaminación de las ciudades, hábitos como el de fumar, el uso de aparatos de aire acondicionado, etcétera, contribuyen a ello. Esto alcanza más relevancia en profesionales que utilizan su voz de manera frecuente, como, por ejemplo, locutores, cantantes, profesores o teleoperadores. Por todo ello resultan de especial interés las técnicas de ayuda al diagnóstico que son capaces de extraer conclusiones clínicas a partir de una muestra de la voz grabada con un micrófono, frente a otras invasivas que implican la exploración utilizando laringoscopios, fibroscopios o videoendoscopios, técnicas en cualquier caso mucho más molestas para los pacientes al exigir la introducción parcial del instrumental citado por la garganta, en actuaciones consideradas de tipo quirúrgico. Dentro de aquellas técnicas se ha avanzado mucho en un período de tiempo relativamente corto. En lo que se refiere al diagnóstico de patologías, hemos pasado en los últimos quince años de trabajar principalmente con parámetros extraídos de la señal de voz –tanto en el dominio del tiempo como en el de la frecuencia– y con escalas elaboradas con valoraciones subjetivas realizadas por expertos a hacerlo también con parámetros procedentes de estimaciones de la fuente glótica. La importancia de utilizar la fuente glótica reside, a grandes rasgos, en que se trata de una señal vinculada directamente al estado de la estructura laríngea del locutor y también en que está generalmente menos influida por el tracto vocal que la señal de voz. Es conocido que el tracto vocal guarda más relación con el mensaje hablado, y su presencia dificulta el proceso de detección de patología vocal. Estas estimaciones de la fuente glótica han sido obtenidas a través de técnicas de filtrado inverso desarrolladas por nuestro grupo de investigación. Hemos conseguido, además, profundizar en la naturaleza de la señal glótica: somos capaces de descomponerla y relacionarla con parámetros biomecánicos de los propios pliegues vocales, obteniendo estimaciones de elementos como la masa, la pérdida de energía o la elasticidad del cuerpo y de la cubierta del pliegue, entre otros. De las componentes de la fuente glótica surgen también los denominados parámetros biométricos, relacionados con la forma de la señal, que constituyen por sí mismos una firma biométrica del individuo. También trabajaremos con parámetros temporales, relacionados con las diferentes etapas que se observan dentro de la señal glótica durante un ciclo de fonación. Por último, consideraremos parámetros clásicos de perturbación y energía de la señal. En definitiva, contamos ahora con una considerable cantidad de parámetros glóticos que conforman una base estadística multidimensional, destinada a ser capaz de discriminar personas con voces patológicas o disfónicas de aquellas que no presentan patología en la voz o con voces sanas o normofónicas. Esta tesis doctoral se ocupa de varias cuestiones: en primer lugar, es necesario analizar cuidadosamente estos nuevos parámetros, por lo que ofreceremos una completa descripción estadística de los mismos. También estudiaremos cuestiones como la distribución de los parámetros atendiendo a criterios como el de normalidad estadística de los mismos, ocupándonos especialmente de la diferencia entre las distribuciones que presentan sujetos sanos y sujetos con patología vocal. Para todo ello emplearemos diferentes técnicas estadísticas: generación de elementos y diagramas descriptivos, pruebas de normalidad y diversos contrastes de hipótesis, tanto paramétricos como no paramétricos, que considerarán la diferencia entre los grupos de personas sanas y los grupos de personas con alguna patología relacionada con la voz. Además, nos interesa encontrar relaciones estadísticas entre los parámetros, de cara a eliminar posibles redundancias presentes en el modelo, a reducir la dimensionalidad del problema y a establecer un criterio de importancia relativa en los parámetros en cuanto a su capacidad discriminante para el criterio patológico/sano. Para ello se aplicarán técnicas estadísticas como la Correlación Lineal Bivariada y el Análisis Factorial basado en Componentes Principales. Por último, utilizaremos la conocida técnica de clasificación Análisis Discriminante, aplicada a diferentes combinaciones de parámetros y de factores, para determinar cuáles de ellas son las que ofrecen tasas de acierto más prometedoras. Para llevar a cabo la experimentación se ha utilizado una base de datos equilibrada y robusta formada por doscientos sujetos, cien de ellos pertenecientes al género femenino y los restantes cien al género masculino, con una proporción también equilibrada entre los sujetos que presentan patología vocal y aquellos que no la presentan. Una de las aplicaciones informáticas diseñada para llevar a cabo la recogida de muestras también es presentada en esta tesis. Los distintos estudios estadísticos realizados nos permitirán identificar aquellos parámetros que tienen una mayor contribución a la hora de detectar la presencia de patología vocal. Alguno de los estudios, además, nos permitirá presentar una ordenación de los parámetros en base a su importancia para realizar la detección. Por otra parte, también concluiremos que en ocasiones es conveniente realizar una reducción de la dimensionalidad de los parámetros para mejorar las tasas de detección. Por fin, las propias tasas de detección constituyen quizá la conclusión más importante del trabajo. Todos los análisis presentes en el trabajo serán realizados para cada uno de los dos géneros, de acuerdo con diversos estudios previos que demuestran que los géneros masculino y femenino deben tratarse de forma independiente debido a las diferencias orgánicas observadas entre ambos. Sin embargo, en lo referente a la detección de patología vocal contemplaremos también la posibilidad de trabajar con la base de datos unificada, comprobando que las tasas de acierto son también elevadas. Abstract Voice pathologies have become recently in a social problem that has reached a certain concern. Pollution in cities, smoking habits, air conditioning, etc. contributes to it. This problem is more relevant for professionals who use their voice frequently: speakers, singers, teachers, actors, telemarketers, etc. Therefore techniques that are capable of drawing conclusions from a sample of the recorded voice are of particular interest for the diagnosis as opposed to other invasive ones, involving exploration by laryngoscopes, fiber scopes or video endoscopes, which are techniques much less comfortable for patients. Voice quality analysis has come a long way in a relatively short period of time. In regard to the diagnosis of diseases, we have gone in the last fifteen years from working primarily with parameters extracted from the voice signal (both in time and frequency domains) and with scales drawn from subjective assessments by experts to produce more accurate evaluations with estimates derived from the glottal source. The importance of using the glottal source resides broadly in that this signal is linked to the state of the speaker's laryngeal structure. Unlike the voice signal (phonated speech) the glottal source, if conveniently reconstructed using adaptive lattices, may be less influenced by the vocal tract. As it is well known the vocal tract is related to the articulation of the spoken message and its influence complicates the process of voice pathology detection, unlike when using the reconstructed glottal source, where vocal tract influence has been almost completely removed. The estimates of the glottal source have been obtained through inverse filtering techniques developed by our research group. We have also deepened into the nature of the glottal signal, dissecting it and relating it to the biomechanical parameters of the vocal folds, obtaining several estimates of items such as mass, loss or elasticity of cover and body of the vocal fold, among others. From the components of the glottal source also arise the so-called biometric parameters, related to the shape of the signal, which are themselves a biometric signature of the individual. We will also work with temporal parameters related to the different stages that are observed in the glottal signal during a cycle of phonation. Finally, we will take into consideration classical perturbation and energy parameters. In short, we have now a considerable amount of glottal parameters in a multidimensional statistical basis, designed to be able to discriminate people with pathologic or dysphonic voices from those who do not show pathology. This thesis addresses several issues: first, a careful analysis of these new parameters is required, so we will offer a complete statistical description of them. We will also discuss issues such as distribution of the parameters, considering criteria such as their statistical normality. We will take special care in the analysis of the difference between distributions from healthy subjects and the distributions from pathological subjects. To reach these goals we will use different statistical techniques such as: generation of descriptive items and diagramas, tests for normality and hypothesis testing, both parametric and nonparametric. These latter techniques consider the difference between the groups of healthy subjects and groups of people with an illness related to voice. In addition, we are interested in finding statistical relationships between parameters. There are various reasons behind that: eliminate possible redundancies in the model, reduce the dimensionality of the problem and establish a criterion of relative importance in the parameters. The latter reason will be done in terms of discriminatory power for the criterion pathological/healthy. To this end, statistical techniques such as Bivariate Linear Correlation and Factor Analysis based on Principal Components will be applied. Finally, we will use the well-known technique of Discriminant Analysis classification applied to different combinations of parameters and factors to determine which of these combinations offers more promising success rates. To perform the experiments we have used a balanced and robust database, consisting of two hundred speakers, one hundred of them males and one hundred females. We have also used a well-balanced proportion where subjects with vocal pathology as well as subjects who don´t have a vocal pathology are equally represented. A computer application designed to carry out the collection of samples is also presented in this thesis. The different statistical analyses performed will allow us to determine which parameters contribute in a more decisive way in the detection of vocal pathology. Therefore, some of the analyses will even allow us to present a ranking of the parameters based on their importance for the detection of vocal pathology. On the other hand, we will also conclude that it is sometimes desirable to perform a dimensionality reduction in order to improve the detection rates. Finally, detection rates themselves are perhaps the most important conclusion of the work. All the analyses presented in this work have been performed for each of the two genders in agreement with previous studies showing that male and female genders should be treated independently, due to the observed functional differences between them. However, with regard to the detection of vocal pathology we will consider the possibility of working with the unified database, ensuring that the success rates obtained are also high.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El incremento de la contaminación acústica se ha convertido en un problema medioambiental lo cual ha generado un aumento en la demanda del aislamiento de los edificios para lograr el confort acústico. Existen métodos de medición de aislamiento acústico a ruido aéreo de fachadas bajo ensayo “in situ” pero no para techos. El objetivo de esta investigación consiste en determinar el aislamiento acústico de prototipos de techos ecológicos multicapas adaptando la metodología recomendada por normas internacionales. Se propusieron cuatro prototipos de techos con distintos materiales naturales como especies vegetales y sustratos de fibra de coco, superpuestos sobre un techo base liviano. Al sustrato se le varió su espesor de 10 a 20 cm, sus condiciones seca o húmeda y su densidad: 100%, 66% y 33% fibra de coco. En los resultados se determinó que las especies vegetales no aportaron aislamiento, pero al incrementar el espesor y densidad del sustrato mejoró el aislamiento sonoro. También se determinó que el aislamiento acústico en condición seca fue mejor que en condición húmeda. Se planteó una metodología para determinar el aislamiento acústico a ruido aéreo en techos bajo ensayo “in situ” empleando el método global con altavoz, ésta se estructuró en tres partes: la primera describe el módulo experimental y la plataforma tecnológica; la segunda aborda procedimientos para medir los niveles de presión sonora, niveles de ruido de fondo y los tiempos de reverberación, en bandas de frecuencia de tercios de octava; en la tercera se explica el cálculo de los promedios de estos parámetros, así como también la diferencia de niveles estandarizada, el índice de reducción sonora aparente con sus valores globales y su incertidumbre. Así mismo, se determinó un algoritmo de predicción del aislamiento acústico, analizando los valores obtenidos en las mediciones “in situ” como la Diferencia de nivel estandarizada ponderada y el Índice ponderado de reducción sonora, los cuales se relacionaron con el peso y el espesor de los materiales de las diferentes multicapas. A través de un análisis de regresión se establecieron modelos para predecir la Diferencia de nivel estandarizada y el Índice de reducción sonora aparente en bandas de octavas. Los resultados del modelo propuesto son cercanos a los datos medidos “in situ”. Por otra parte, se realizaron mediciones térmicas en un módulo experimental y otro de referencia en tres períodos del día. En el módulo experimental se construyeron los prototipos de techos ecológicos y en el de referencia un techo de construcción tradicional, se compararon los resultados de ambos módulos y su interacción con la temperatura exterior. Se detectó que las temperaturas internas del módulo experimental en condición seca tienden a mantener sus valores durante todo el día, en horas de la mañana sus valores son superiores a los del módulo de referencia y temperatura exterior. Al mediodía y en la tarde las temperaturas internas del módulo experimental son inferiores a las del módulo de referencia, incrementándose esta última a medida que aumenta temperatura exterior. Finalmente, a partir de las mediciones “in situ” se realizaron cuatro modelos de correlación acústica-térmica, los tres primeros relacionando la temperatura y el nivel de presión sonora en tres momentos del día, en la tarde se aprecia que a medida que aumenta la temperatura aumentan los niveles de presión sonora. En el cuarto modelo se estableció una correlación acústica-térmica entre la resistencia térmica de los materiales de las multicapas con su índice de reducción sonora, obteniéndose un coeficiente de correlación moderado. La presente investigación plantea retos desde el punto de vista ambiental, permite cuantificar el aislamiento acústico de los techos y mejorar la calidad de vida en áreas urbanas; el empleo de los materiales de procedencia local como los utilizados fomenta el respeto por la naturaleza y producen un menor impacto ambiental. ABSTRACT Sound contamination increase has generated a raise in insulation demand of buildings in order to achieve a sound comfort, and this has become into an environmental problem. There are measurements methods for air borne soundproofing in facades through “in situ” test but there are not for roofs. The purpose of this research is to determine sound insulation of multilayer green roof prototypes following the methodology suggested by international standards. Four prototypes of roofs with different types of vegetation and overlapped coconut fiber substrates over a light roof were proposed. Thickness of substrate varied from 10 to 20 cm, as well as its dry a humid condition and its density: 100%, 66% y 33% of coconut fiber. Results determined that vegetation did not contribute to insulation but when increasing substrate’s thickness and density, sound insulation was improved. Likewise, it was determined that sound insulation in dry condition was greater than in humid condition. A methodology to determine airborne sound insulation in roofs through “in situ” test using a speaker global method was stated. This was structured in three parts: the first part describes the experimental module and the technological platform; the second one establishes the procedures to measure sound pressure levels; levels of background noise and time of reverberation in frequency bands of thirds of octave, and in the third part, averages of these parameters, as well as the difference of standardized levels, the apparent sound reduction with its global values and uncertainty were calculated. Likewise, a prediction algorithm of sound insulation was determined by analyzing values obtained in “in-situ” measures such as the difference of weighted standardized level and the weighted index of sound reduction which they were related to weight and thickness of different multilayer materials. Models to predict the standardized level difference and the apparent sound reduction index in bands of octaves were established by a regression analysis. Results for the proposed model are close to data measured “in situ”. On the other hand, thermal measures were done in an experimental module, as well as in another as for reference in three periods of the day. Green prototypes roofs were built in the experimental module and a traditional roof were built in the reference one. Results of both modules were compared as well as the interaction with outside temperature. Internal temperatures of the experimental module in dry condition tend to keep their values throughout the day; in the morning, its values are higher than those of the reference module and external temperatures. Finally, four models of sound-thermal correlation were done from measures “in situ”. The first three were related to temperature and sound pressure level in three moments of the day. In the afternoon, it is observed that when temperature increases, sound pressure levels increases too. In the fourth model, a sound and thermal correlation was established between thermal resistance of multilayer materials with their sound reduction index, and a moderated correlation coefficient was obtained. This research poses challenges from the environmental point of view, and it allows quantifying sound insulation of roofs as well as improving quality of life in urban areas; the use of local vegetation promotes respect for nature and it produces a smaller environmental impact as well.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El control, o cancelación activa de ruido, consiste en la atenuación del ruido presente en un entorno acústico mediante la emisión de una señal igual y en oposición de fase al ruido que se desea atenuar. La suma de ambas señales en el medio acústico produce una cancelación mutua, de forma que el nivel de ruido resultante es mucho menor al inicial. El funcionamiento de estos sistemas se basa en los principios de comportamiento de los fenómenos ondulatorios descubiertos por Augustin-Jean Fresnel, Christiaan Huygens y Thomas Young entre otros. Desde la década de 1930, se han desarrollado prototipos de sistemas de control activo de ruido, aunque estas primeras ideas eran irrealizables en la práctica o requerían de ajustes manuales cada poco tiempo que hacían inviable su uso. En la década de 1970, el investigador estadounidense Bernard Widrow desarrolla la teoría de procesado adaptativo de señales y el algoritmo de mínimos cuadrados LMS. De este modo, es posible implementar filtros digitales cuya respuesta se adapte de forma dinámica a las condiciones variables del entorno. Con la aparición de los procesadores digitales de señal en la década de 1980 y su evolución posterior, se abre la puerta para el desarrollo de sistemas de cancelación activa de ruido basados en procesado de señal digital adaptativo. Hoy en día, existen sistemas de control activo de ruido implementados en automóviles, aviones, auriculares o racks de equipamiento profesional. El control activo de ruido se basa en el algoritmo fxlms, una versión modificada del algoritmo LMS de filtrado adaptativo que permite compensar la respuesta acústica del entorno. De este modo, se puede filtrar una señal de referencia de ruido de forma dinámica para emitir la señal adecuada que produzca la cancelación. Como el espacio de cancelación acústica está limitado a unas dimensiones de la décima parte de la longitud de onda, sólo es viable la reducción de ruido en baja frecuencia. Generalmente se acepta que el límite está en torno a 500 Hz. En frecuencias medias y altas deben emplearse métodos pasivos de acondicionamiento y aislamiento, que ofrecen muy buenos resultados. Este proyecto tiene como objetivo el desarrollo de un sistema de cancelación activa de ruidos de carácter periódico, empleando para ello electrónica de consumo y un kit de desarrollo DSP basado en un procesador de muy bajo coste. Se han desarrollado una serie de módulos de código para el DSP escritos en lenguaje C, que realizan el procesado de señal adecuado a la referencia de ruido. Esta señal procesada, una vez emitida, produce la cancelación acústica. Empleando el código implementado, se han realizado pruebas que generan la señal de ruido que se desea eliminar dentro del propio DSP. Esta señal se emite mediante un altavoz que simula la fuente de ruido a cancelar, y mediante otro altavoz se emite una versión filtrada de la misma empleando el algoritmo fxlms. Se han realizado pruebas con distintas versiones del algoritmo, y se han obtenido atenuaciones de entre 20 y 35 dB medidas en márgenes de frecuencia estrechos alrededor de la frecuencia del generador, y de entre 8 y 15 dB medidas en banda ancha. ABSTRACT. Active noise control consists on attenuating the noise in an acoustic environment by emitting a signal equal but phase opposed to the undesired noise. The sum of both signals results in mutual cancellation, so that the residual noise is much lower than the original. The operation of these systems is based on the behavior principles of wave phenomena discovered by Augustin-Jean Fresnel, Christiaan Huygens and Thomas Young. Since the 1930’s, active noise control system prototypes have been developed, though these first ideas were practically unrealizable or required manual adjustments very often, therefore they were unusable. In the 1970’s, American researcher Bernard Widrow develops the adaptive signal processing theory and the Least Mean Squares algorithm (LMS). Thereby, implementing digital filters whose response adapts dynamically to the variable environment conditions, becomes possible. With the emergence of digital signal processors in the 1980’s and their later evolution, active noise cancellation systems based on adaptive signal processing are attained. Nowadays active noise control systems have been successfully implemented on automobiles, planes, headphones or racks for professional equipment. Active noise control is based on the fxlms algorithm, which is actually a modified version of the LMS adaptive filtering algorithm that allows compensation for the acoustic response of the environment. Therefore it is possible to dynamically filter a noise reference signal to obtain the appropriate cancelling signal. As the noise cancellation space is limited to approximately one tenth of the wavelength, noise attenuation is only viable for low frequencies. It is commonly accepted the limit of 500 Hz. For mid and high frequencies, conditioning and isolating passive techniques must be used, as they produce very good results. The objective of this project is to develop a noise cancellation system for periodic noise, by using consumer electronics and a DSP development kit based on a very-low-cost processor. Several C coded modules have been developed for the DSP, implementing the appropriate signal processing to the noise reference. This processed signal, once emitted, results in noise cancellation. The developed code has been tested by generating the undesired noise signal in the DSP. This signal is emitted through a speaker simulating the noise source to be removed, and another speaker emits an fxlms filtered version of the same signal. Several versions of the algorithm have been tested, obtaining attenuation levels around 20 – 35 dB measured in a tight bandwidth around the generator frequency, or around 8 – 15 dB measured in broadband.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La producción de la voz humana se lleva a cabo en el tracto vocal. Los sintetizadores consiguen emular a las distintas partes del tracto vocal, y gracias a ellos se pueden modificar características propias del hablante. Una de estas modificaciones consiste variar el tono de un locutor inicial, mezclando parámetros de éste con los de un locutor deseado. En este proyecto se ha desarrollado un modelo propuesto para este cambio de identidad. Partiendo de las señales de voz originales se han extraído parámetros para crear una base de datos para cada locutor. Las voces se sintetizarán mezclando estas bases de datos y otros parámetros correspondientes a distintos locutores dando como resultado una señal de voz con características de dos locutores diferentes. Finalmente se realizarán pruebas auditivas para comprobar la identidad del locutor de la voz sintetizada. ABSTRACT. Human voice production is carried out in the vocal tract. Each part of the vocal tract is emulated in synthesizers, and for that, speaker features can be modified. One of these modifications is to change the initial speaker tone, mixing parameters of this speaker with the parameters of a desired speaker. In this project it has been developed a proposed model for this identity change. Starting from the originals voice signals its parameters have been extracted to built a database for each speaker. Voices will be synthesized mixing these databases with parameters of the others speakers giving as result a voice signal with features of two different speakers. Finally, hearing tests will be made to check the speaker identity of the synthesized voice.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El proyecto fin de carrera consiste en un estudio acústico del Estadio de la Peineta (estadio de fútbol perteneciente al club Atlético de Madrid el cual se encuentra en construcción). Se realizará el diseño por completo de una maqueta del estadio utilizando el programa EASE. Esta maqueta se hará a escala real, exactamente como se está construyendo el estadio. A dicha maqueta se le incorporarán los diferentes materiales absorbentes específicos a cada una de las superficies que compongan el estadio. Se crearán tantas zonas de audiencia como superficies se obtenga en cada grada sobre donde se realizarán dos estudios acústicos diferentes. El primer estudio se realizará con un total de 24 clústeres de altavoces los cuales están compuestos por 10 altavoces Aero 50. La colocación estratégica de cada uno de estos altavoces se estudiará con la herramienta EASE Focus 2. Una vez obtenidas las posiciones se importarán cada uno de estos clústeres de altavoces su respectiva configuración. El otro estudio se realizará con la mitad de arrays de altavoces con la intención de tener una comparativa de recubrimiento entre un estudio y otro. Las pruebas de simulación serán analizando el nivel de presión sonora que provoca cada uno de estos estudios cuando tienen sus altavoces en funcionamiento. Se utilizará el módulo de “Area mapping” para estudiar el mapeo en cada una de las zonas de audiencia definidas, así como cada una de las distribuciones por área que predominan. Se irán anotando cada uno de los problemas e ideas que van surgiendo a lo largo de dicho proyecto para proponer una continuación y mejora del mismo. Se planteará una serie de pasos e pruebas al final de la memoria ya que se trata de un proyecto sin cerrar y puede ser continuado por otra persona. ABSTRACT. The final project is an acoustic studio Peineta Stadium (soccer stadium belongs to the club Atletico Madrid which is under construction). The design is made entirely of a model of the stadium using the EASE program. This model will be full scale, exactly as is building the stadium. A model that should be incorporated into the various specific absorbent material to each of the surfaces that make up the stadium. Hearing so many areas as surfaces is obtained in each tier on which two different acoustic studies will be conducted will be created. The first study was conducted with a total of 24 speaker clusters which are composed of 10 speakers Aero 50. The strategic placement of each of these speakers will be studied with the EASE Focus 2. Once obtained tool positions are imported each these clusters of the respective speaker configuration. The other study was conducted with half speaker arrays with the intention of having a comparative study between a coating and another. Simulation tests will be analyzing the sound pressure level which causes each of these studies have their speakers when in operation. Module "mapping area" will be used to study the mapping in each of the areas defined audience, and each of the area distributions predominate. They will be written down each of the issues and ideas that arise throughout the project to propose a continuation and improvement. a series of steps and tests at the end of the memory will be raised because it is a project without closing and may be continued for another person.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Este proyecto fin de carrera trata de mejorar los sistemas actuales de control en la visualización de diapositivas. La solución adoptada constará de un sistema con modelo cliente-servidor. El servidor formado por un mini ordenador, en este caso una Raspberry Pi, que estará conectado al proyector de video. Este servidor se mantendrá a la espera de recibir una conexión entrante vía Bluetooth. Una vez se realice la conexión interpretará los comandos mandados por el cliente a través de una API con formato JSON y realizará las acciones indicadas para el control de la presentación. El cliente será una aplicación móvil para dispositivos Android. A través de ella el profesor accederá al servidor escaneando un código QR que será proyectado y una vez conectado enviará los comandos de control de la presentación, tales como abrir una presentación, avanzar y retroceder diapositiva, etc. La solución final deberá ser eficiente, sencilla de utilizar y con un bajo coste para resultar atractiva y ser así útil en el mundo real. Para ello se contará con valores añadidos como el poder iniciar la presentación desde el dispositivo móvil, el mostrar las notas de la diapositiva actual o contar con un temporizador para permitir un mejor control sobre el tiempo disponible para la presentación. ABSTRACT. This final project pursues the improvement of the current presentation control systems. The solution it provides is based on a server-client architecture. The server will be a mini PC, a Raspberry Pi model in this case, that will be connected to a video projector or a screen monitor. This server will remain idle waiting for an incoming Bluetooth connection. Once the connection is accepted the server will parse the commands sent by the client through a JSON API and will execute them accordingly to control the system. The client we decided to develop is an Android application. The speaker will be able to connect with the server by scanning a QR code that will be generated and displayed into the projector or screen monitor. Once the connection is accepted the client will sent the commands to control the slides, such as opening a presentation, move forward and backwards, etc. The adopted solution must be efficient, easy to use and with low cost to be appealing and useful to the real world. To accomplish the task this project will count with improvements over the current systems, such as the possibility to open a presentation from the smartphone, the visualization of the current slide notes from the mobile phone and a countdown timer to have a better control over the available time for the presentation.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This paper proposes an emotion transplantation method capable of modifying a synthetic speech model through the use of CSMAPLR adaptation in order to incorporate emotional information learned from a different speaker model while maintaining the identity of the original speaker as much as possible. The proposed method relies on learning both emotional and speaker identity information by means of their adaptation function from an average voice model, and combining them into a single cascade transform capable of imbuing the desired emotion into the target speaker. This method is then applied to the task of transplanting four emotions (anger, happiness, sadness and surprise) into 3 male speakers and 3 female speakers and evaluated in a number of perceptual tests. The results of the evaluations show how the perceived naturalness for emotional text significantly favors the use of the proposed transplanted emotional speech synthesis when compared to traditional neutral speech synthesis, evidenced by a big increase in the perceived emotional strength of the synthesized utterances at a slight cost in speech quality. A final evaluation with a robotic laboratory assistant application shows how by using emotional speech we can significantly increase the students’ satisfaction with the dialog system, proving how the proposed emotion transplantation system provides benefits in real applications.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El habla es la principal herramienta de comunicación de la que dispone el ser humano que, no sólo le permite expresar su pensamiento y sus sentimientos sino que le distingue como individuo. El análisis de la señal de voz es fundamental para múltiples aplicaciones como pueden ser: síntesis y reconocimiento de habla, codificación, detección de patologías, identificación y reconocimiento de locutor… En el mercado se pueden encontrar herramientas comerciales o de libre distribución para realizar esta tarea. El objetivo de este Proyecto Fin de Grado es reunir varios algoritmos de análisis de la señal de voz en una única herramienta que se manejará a través de un entorno gráfico. Los algoritmos están siendo utilizados en el Grupo de investigación en Aplicaciones MultiMedia y Acústica de la Universidad Politécnica de Madrid para llevar a cabo su tarea investigadora y para ofertar talleres formativos a los alumnos de grado de la Escuela Técnica Superior de Ingeniería y Sistemas de Telecomunicación. Actualmente se ha encontrado alguna dificultad para poder aplicar los algoritmos ya que se han ido desarrollando a lo largo de varios años, por distintas personas y en distintos entornos de programación. Se han adaptado los programas existentes para generar una única herramienta en MATLAB que permite: . Detección de voz . Detección sordo/sonoro . Extracción y revisión manual de frecuencia fundamental de los sonidos sonoros . Extracción y revisión manual de formantes de los sonidos sonoros En todos los casos el usuario puede ajustar los parámetros de análisis y se ha mantenido y, en algunos casos, ampliado la funcionalidad de los algoritmos existentes. Los resultados del análisis se pueden manejar directamente en la aplicación o guardarse en un fichero. Por último se ha escrito el manual de usuario de la aplicación y se ha generado una aplicación independiente que puede instalarse y ejecutarse aunque no se disponga del software o de la versión adecuada de MATLAB. ABSTRACT. The speech is the main communication tool which has the human that as well as allowing to express his thoughts and feelings distinguishes him as an individual. The analysis of speech signal is essential for multiple applications such as: synthesis and recognition of speech, coding, detection of pathologies, identification and speaker recognition… In the market you can find commercial or open source tools to perform this task. The aim of this Final Degree Project is collect several algorithms of speech signal analysis in a single tool which will be managed through a graphical environment. These algorithms are being used in the research group Aplicaciones MultiMedia y Acústica at the Universidad Politécnica de Madrid to carry out its research work and to offer training workshops for students at the Escuela Técnica Superior de Ingeniería y Sistemas de Telecomunicación. Currently some difficulty has been found to be able to apply the algorithms as they have been developing over several years, by different people and in different programming environments. Existing programs have been adapted to generate a single tool in MATLAB that allows: . Voice Detection . Voice/Unvoice Detection . Extraction and manual review of fundamental frequency of voiced sounds . Extraction and manual review formant voiced sounds In all cases the user can adjust the scan settings, we have maintained and in some cases expanded the functionality of existing algorithms. The analysis results can be managed directly in the application or saved to a file. Finally we have written the application user’s manual and it has generated a standalone application that can be installed and run although the user does not have MATLAB software or the appropriate version.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Featured Speaker