907 resultados para speakers
Resumo:
When designing human-machine interfaces it is important to consider not only the bare bones functionality but also the ease of use and accessibility it provides. When talking about voice-based inter- faces, it has been proven that imbuing expressiveness into the synthetic voices increases signi?cantly its perceived naturalness, which in the end is very helpful when building user friendly interfaces. This paper proposes an adaptation based expressiveness transplantation system capable of copying the emotions of a source speaker into any desired target speaker with just a few minutes of read speech and without requiring the record- ing of additional expressive data. This system was evaluated through a perceptual test for 3 speakers showing up to an average of 52% emotion recognition rates relative to the natural voice recognition rates, while at the same time keeping good scores in similarity and naturality.
Resumo:
En los últimos dos años la formación online ha experimentado un auge significativo gracias al paradigma de formación denominado MOOC (Massive Open Online Course). Un MOOC simplifica la formación a distancia gracias a sus características de abierto, colaborativo, masivo y gratuito. Por desgracia en lengua española la utilización de este tipo de recurso formativo todavía es minoritaria. La presente investigación recoge una experiencia de innovación educativa en la que se destaca el diseño, implementación y difusión del primer MOOC en lengua española dedicado a la seguridad de la información por parte de la Universidad Politécnica de Madrid. Esta experiencia aborda las ventajas e inconvenientes de este tipo de recurso formativo, debatiendo aspectos vitales para la elaboración prolongada de cursos tipo MOOC, como son la interactividad y retroalimentación con los usuarios del curso o la forma más adecuada de representar el contenido docente. Todas estas cuestiones reciben respuesta en el MOOC Crypt4you, que con más de 10 meses de vida permite vislumbrar un gran éxito de este tipo de cursos en la formación, al menos en lengua española, de hispanohablantes. ABSTRACT In the last two years, online training has boomed thanks to significant training paradigm called MOOC (Massive Open Online Course). A MOOC simplifies remote training thanks to its open, collaborativend free mass features. Unfortunately, the use of this kind of learning resource in Spanish teaching is still a minority. This research includes an educational experience which emphasizes the design, implementation and dissemination of the first Spanish-language MOOC devoted to information security by the Technical University of Madrid. This experiment addresses the advantages and disadvantages of this kind of learning resource discussing critical issues for developing type MOOC prolonged courses, such as interactivity and feedback from users of the course or the most appropriate way of representing the educational content. All these questions are answered in the MOOC Crypt4you which, over its 10 months of life, can glimpse a great success of this type of training course, at least in Spanish, Spanish-speakers.
Resumo:
One of the biggest challenges in speech synthesis is the production of naturally sounding synthetic voices. This means that the resulting voice must be not only of high enough quality but also that it must be able to capture the natural expressiveness imbued in human speech. This paper focus on solving the expressiveness problem by proposing a set of different techniques that could be used for extrapolating the expressiveness of proven high quality speaking style models into neutral speakers in HMM-based synthesis. As an additional advantage, the proposed techniques are based on adaptation approaches, which means that they can be used with little training data (around 15 minutes of training data are used in each style for this paper). For the final implementation, a set of 4 speaking styles were considered: news broadcasts, live sports commentary, interviews and parliamentary speech. Finally, the implementation of the 5 techniques were tested through a perceptual evaluation that proves that the deviations between neutral and speaking style average models can be learned and used to imbue expressiveness into target neutral speakers as intended.
Resumo:
Vivimos en una época en la que cada vez existe una mayor cantidad de información. En el dominio de la salud la historia clínica digital ha permitido digitalizar toda la información de los pacientes. Estas historias clínicas digitales contienen una gran cantidad de información valiosa escrita en forma narrativa que sólo podremos extraer recurriendo a técnicas de procesado de lenguaje natural. No obstante, si se quiere realizar búsquedas sobre estos textos es importante analizar que la información relativa a síntomas, enfermedades, tratamientos etc. se puede refererir al propio paciente o a sus antecentes familiares, y que ciertos términos pueden aparecer negados o ser hipotéticos. A pesar de que el español ocupa la segunda posición en el listado de idiomas más hablados con más de 500 millones de hispano hablantes, hasta donde tenemos de detección de la negación, probabilidad e histórico en textos clínicos en español. Por tanto, este Trabajo Fin de Grado presenta una implementación basada en el algoritmo ConText para la detección de la negación, probabilidad e histórico en textos clínicos escritos en español. El algoritmo se ha validado con 454 oraciones que incluían un total de 1897 disparadores obteniendo unos resultado de 83.5 %, 96.1 %, 96.9 %, 99.7% y 93.4% de exactitud con condiciones afirmados, negados, probable, probable negado e histórico respectivamente. ---ABSTRACT---We live in an era in which there is a huge amount of information. In the domain of health, the electronic health record has allowed to digitize all the information of the patients. These electronic health records contain valuable information written in narrative form that can only be extracted using techniques of natural language processing. However, if you want to search on these texts is important to analyze if the relative information about symptoms, diseases, treatments, etc. are referred to the patient or family casework, and that certain terms may appear negated or be hypothesis. Although Spanish is the second spoken language with more than 500 million speakers, there seems to be no method of detection of negation, hypothesis or historical in medical texts written in Spanish. Thus, this bachelor’s final degree presents an implementation based on the ConText algorithm for the detection of negation, hypothesis and historical in medical texts written in Spanish. The algorithm has been validated with 454 sentences that included a total of 1897 triggers getting a result of 83.5 %, 96.1 %, 96.9 %, 99.7% and 93.4% accuracy with affirmed, negated, hypothesis, negated hypothesis and historical respectively.
Resumo:
Gender detection is a very important objective to improve efficiency in tasks as speech or speaker recognition, among others. Traditionally gender detection has been focused on fundamental frequency (f0) and cepstral features derived from voiced segments of speech. The methodology presented here consists in obtaining uncorrelated glottal and vocal tract components which are parameterized as mel-frequency coefficients. K-fold and cross-validation using QDA and GMM classifiers showed that better detection rates are reached when glottal source and vocal tract parameters are used in a gender-balanced database of running speech from 340 speakers.
Resumo:
The Glottal Source correlates reconstructed from the phonated parts of voice may render interesting information with applicability in different fields. One of them is defective closure (gap) detection. Through the paper the background to explain the physical foundations of defective gap are reviewed. A possible method to estimate defective gap is also presented based on a Wavelet Description of the Glottal Source. The method is validated using results from the analysis of a gender-balanced speakers database. Normative values for the different parameters estimated are given. A set of study cases with deficient glottal closure is presented and discussed.
Diseño de un videojuego orientado a mejorar el proceso de enseñanza-aprendizaje de la lengua inglesa
Resumo:
Desde que el proceso de la globalización empezó a tener efectos en la sociedad actual, la lengua inglesa se ha impuesto como primera opción de comunicación entre las grandes empresas y sobre todo en el ámbito de los negocios. Por estos motivos se hace necesario el conocimiento de esta lengua que con el paso de los años ha ido creciendo en número de hablantes. Cada vez son más las personas que quieren dominar la lengua inglesa. El aprendizaje en esta doctrina se va iniciando en edades muy tempranas, facilitando y mejorando así la adquisición de una base de conocimientos con todas las destrezas que tiene la lengua inglesa: lectura, escritura, expresión oral y comprensión oral. Con este proyecto se quiso mejorar el proceso de enseñanza-aprendizaje de la lengua inglesa en un rango de población menor de 13 años. Se propuso crear un método de aprendizaje que motivara al usuario y le reportase una ayuda constante durante su progreso en el conocimiento de la lengua inglesa. El mejor método que se pensó para llevar a cabo este objetivo fue la realización de un videojuego que cumpliese todas las características propuestas anteriormente. Un videojuego de aprendizaje en inglés, que además incluyese algo tan novedoso como el reconocimiento de voz para mejorar la expresión oral del usuario, ayudaría a la población a mejorar el nivel de inglés básico en todas las destrezas así como el establecimiento de una base sólida que serviría para asentar mejor futuros conocimientos más avanzados. ABSTRACT Since Globalization began to have an effect on today's society, the English language has emerged as the first choice for communication among companies and especially in the field of business. Therefore, the command of this language, which over the years has grown in number of speakers, has become more and more necessary. Increasingly people want to master the English language. They start learning at very early age, thus facilitating and improving the acquisition of a new knowledge like English language. The skills of English must be practiced are: reading, writing, listening and speaking. If people learnt all these skills, they could achieve a high level of English. In this project, the aim is to improve the process of teaching and learning English in a range of population less than 13 years. To do so, an interactive learning video game that motivates the users and brings them constant help during their progress in the learning of the English language is designed. The video game designed to learn English, also includes some novelties from the point of view of the technology used as is speech recognition. The aim of this integration is to improve speaking skills of users, who will therefore improve the standard of English in all four basic learning skills and establish a solid base that would facilitate the acquisition of future advanced knowledge.
Resumo:
El objetivo de este Proyecto Fin de Grado es el diseño de megafonía y PAGA (Public Address /General Alarm) de la estación de tren Waipahu Transit Center en la ciudad de Honolulú, Hawái. Esta estación forma parte de una nueva línea de tren que está en proceso de construcción actualmente llamada Honolulu Rail Transit. Inicialmente la línea de tren constará de 21 estaciones, en las que prácticamente todas están diseñadas como pasos elevados usando como referencia las autopistas que cruzan la isla. Se tiene prevista su fecha de finalización en el año 2019, aunque las primeras estaciones se inaugurarán en 2017. Se trata en primer lugar un estudio acústico del recinto a sonorizar, eligiendo los equipos necesarios: conmutadores, altavoces, amplificadores, procesador, equipo de control y micrófonos. Este primer estudio sirve para obtener una aproximación de equipos necesarios, así como la posible situación de estos dentro de la estación. Tras esto, se procede a la simulación de la estación mediante el programa de simulación acústica y electroacústica EASE 4.4. Para ello, se diseña la estación en un modelo 3D, en el que cada superficie se asocia a su material correspondiente. Para facilitar el diseño y el cómputo de las simulaciones se divide la estación en 3 partes por separado. Cada una corresponde a un nivel de la estación: Ground level, el nivel inferior que contiene la entrada; Concourse Level, pasillo que comunica los dos andenes; y Platform Level, en el que realizarán las paradas los trenes. Una vez realizado el diseño se procede al posicionamiento de altavoces en los diferentes niveles de la estación. Debido al clima existente en la isla, el cual ronda los 20°C a lo largo de todo el año, no es necesaria la instalación de sistemas de aire acondicionado o calefacción, por lo que la estación no está totalmente cerrada. Esto supone un problema al realizar las simulaciones en EASE, ya que al tratarse de un recinto abierto se deberán hallar parámetros como el tiempo de reverberación o el volumen equivalente por otros medios. Para ello, se utilizará el método Ray Tracing, mediante el cual se halla el tiempo de reverberación por la respuesta al impulso de la sala; y a continuación se calcula un volumen equivalente del recinto mediante la fórmula de Eyring. Con estos datos, se puede proceder a calcular los parámetros necesarios: nivel de presión sonora directo, nivel de presión sonora total y STI (Speech Transmission Index). Para obtener este último será necesario ecualizar antes en cada uno de los niveles de la estación. Una vez hechas las simulaciones, se comprueba que el nivel de presión sonora y los valores de inteligibilidad son acordes con los requisitos dados por el cliente. Tras esto, se procede a realizar los bucles de altavoces y el cálculo de amplificadores necesarios. Se estudia la situación de los micrófonos, que servirán para poder variar la potencia emitida por los altavoces dependiendo del nivel de ruido en la estación. Una vez obtenidos todos los equipos necesarios en la estación, se hace el conexionado entre éstos, tanto de una forma simplificada en la que se pueden ver los bucles de altavoces en cada nivel de la estación, como de una forma más detallada en la que se muestran las conexiones entre cada equipo del rack. Finalmente, se realiza el etiquetado de los equipos y un presupuesto estimado con los costes del diseño del sistema PAGA. ABSTRACT. The aim of this Final Degree Project is the design of the PAGA (Public Address / General Alarm) system in the train station Waipahu Transit Center in the city of Honolulu, Hawaii. This station is part of a new rail line that is currently under construction, called Honolulu Rail Transit. Initially, the rail line will have 21 stations, in which almost all are designed elevated using the highways that cross the island as reference. At first, it is treated an acoustic study in the areas to cover, choosing the equipment needed: switches, loudspeakers, amplifiers, DPS, control station and microphones. This first study helps to obtain an approximation of the equipments needed, as well as their placement inside the station. Thereafter, it is proceeded to do the simulation of the station through the acoustics and electroacoustics simulation software EASE 4.4. In order to do that, it is made the 3D design of the station, in which each surface is associated with its material. In order to ease the design and calculation of the simulations, the station has been divided in 3 zones. Each one corresponds with one level of the station: Ground Level, the lower level that has the entrance; Concourse Level, a corridor that links the two platforms; and Platform Level, where the trains will stop. Once the design is made, it is proceeded to place the speakers in the different levels of the station. Due to the weather in the island, which is about 20°C throughout the year, it is not necessary the installation of air conditioning or heating systems, so the station is not totally closed. This cause a problem when making the simulations in EASE, as the project is open, and it will be necessary to calculate parameters like the reverberation time or the equivalent volume by other methods. In order to do that, it will be used the Ray Tracing method, by which the reverberation time is calculated by the impulse response; and then it is calculated the equivalent volume of the area with the Eyring equation. With this information, it can be proceeded to calculate the parameters needed: direct sound pressure level, total sound pressure level and STI (Speech Transmission Index). In order to obtain the STI, it will be needed to equalize before in each of the station’s levels. Once the simulations are done, it is checked that the sound pressure level and the intelligibility values agree with the requirements given by the client. After that, it is proceeded to perform the speaker’s loops and the calculation of the amplifiers needed. It is studied the placement of the microphones, which will help to vary the power emitted by the speakers depending on the background noise level in the station. Once obtained all the necessary equipment in the station, it is done the connection diagram, both a simplified diagram in which there can be seen the speaker’s loops in each level of the station, or a more detailed diagram in which it is shown the wiring between each equipment of the rack. At last, it is done the labeling of the equipments and an estimated budget with the expenses for the PAGA design.
Resumo:
This project reports on a literature review about piezoelectric loudspeakers and on an experimental research about how to improve some features of a particular horned piezoelectric tweeter. The work involves an investigation of the performance and principle of operation of piezoelectric loudspeakers to understand how the sound is generated and what its main parameters are. Also, previous research papers about how to improve this type of speakers are reported. The knowledge gained was used to reconsider and re-purpose a particular piezoelectric transducer. After characterising the original state of the device with acoustical and electroacoustical measurements, some improvements were implemented. Moreover, interesting conclusions were reached based on the results of the tests that were carried out. A structural study with a scanning laser was then completed. These sections demonstrated the need for providing the speaker with a rear suspension that guides the vibration of the membrane. Finally, an inverse filter was designed in order to get a flat output response. After simulating the results with Matlab, validating experiments were run in the anechoic chamber with great success. RESUMEN. Este proyecto consta de un estudio detallado sobre piezoelectricidad y altavoces piezoeléctricos, así como de una parte experimental consistente en mejorar algunas características de un altavoz piezoeléctrico particular: un tweeter de bocina. El estudio profundiza en cuáles son los principios de funcionamiento y los principales parámetros de este tipo de altavoces. Con el conocimiento adquirido a partir de trabajos de previos sobre el tema e investigación bibliográfica se ha llevado a cabo la parte experimental. Esta parte ha requerido de una serie de medidas acústicas y electroacústicas para, primero, caracterizar el altavoz en su estado original y para posteriormente buscar y validar posibles mejoras, principalmente en la respuesta en frecuencia. Además, se ha realizado un estudio estructural del diafragma a partir de medidas tomadas con un vibrómetro laser Doppler. De estos tres procesos se concluyó que el altavoz bajo estudio tiene un problema en el soporte del cristal piezoeléctrico y se demostró la necesidad de equipar el dispositivo de una suspensión trasera que controle el movimiento del diafragma. Finalmente, se ha diseñado e implementado en Matlab un filtro inverso, con el objetivo de conseguir una respuesta plana a la salida del altavoz. Su funcionamiento fue validado en la cámara anecoica satisfactoriamente.
Resumo:
La cuestión principal abordada en esta tesis doctoral es la mejora de los sistemas biométricos de reconocimiento de personas a partir de la voz, proponiendo el uso de una nueva parametrización, que hemos denominado parametrización biométrica extendida dependiente de género (GDEBP en sus siglas en inglés). No se propone una ruptura completa respecto a los parámetros clásicos sino una nueva forma de utilizarlos y complementarlos. En concreto, proponemos el uso de parámetros diferentes dependiendo del género del locutor, ya que como es bien sabido, la voz masculina y femenina presentan características diferentes que deberán modelarse, por tanto, de diferente manera. Además complementamos los parámetros clásicos utilizados (MFFC extraídos de la señal de voz), con un nuevo conjunto de parámetros extraídos a partir de la deconstrucción de la señal de voz en sus componentes de fuente glótica (más relacionada con el proceso y órganos de fonación y por tanto con características físicas del locutor) y de tracto vocal (más relacionada con la articulación acústica y por tanto con el mensaje emitido). Para verificar la validez de esta propuesta se plantean diversos escenarios, utilizando diferentes bases de datos, para validar que la GDEBP permite generar una descripción más precisa de los locutores que los parámetros MFCC clásicos independientes del género. En concreto se plantean diferentes escenarios de identificación sobre texto restringido y texto independiente utilizando las bases de datos de HESPERIA y ALBAYZIN. El trabajo también se completa con la participación en dos competiciones internacionales de reconocimiento de locutor, NIST SRE (2010 y 2012) y MOBIO 2013. En el primer caso debido a la naturaleza de las bases de datos utilizadas se obtuvieron resultados cercanos al estado del arte, mientras que en el segundo de los casos el sistema presentado obtuvo la mejor tasa de reconocimiento para locutores femeninos. A pesar de que el objetivo principal de esta tesis no es el estudio de sistemas de clasificación, sí ha sido necesario analizar el rendimiento de diferentes sistemas de clasificación, para ver el rendimiento de la parametrización propuesta. En concreto, se ha abordado el uso de sistemas de reconocimiento basados en el paradigma GMM-UBM, supervectores e i-vectors. Los resultados que se presentan confirman que la utilización de características que permitan describir los locutores de manera más precisa es en cierto modo más importante que la elección del sistema de clasificación utilizado por el sistema. En este sentido la parametrización propuesta supone un paso adelante en la mejora de los sistemas de reconocimiento biométrico de personas por la voz, ya que incluso con sistemas de clasificación relativamente simples se consiguen tasas de reconocimiento realmente competitivas. ABSTRACT The main question addressed in this thesis is the improvement of automatic speaker recognition systems, by the introduction of a new front-end module that we have called Gender Dependent Extended Biometric Parameterisation (GDEBP). This front-end do not constitute a complete break with respect to classical parameterisation techniques used in speaker recognition but a new way to obtain these parameters while introducing some complementary ones. Specifically, we propose a gender-dependent parameterisation, since as it is well known male and female voices have different characteristic, and therefore the use of different parameters to model these distinguishing characteristics should provide a better characterisation of speakers. Additionally, we propose the introduction of a new set of biometric parameters extracted from the components which result from the deconstruction of the voice into its glottal source estimate (close related to the phonation process and the involved organs, and therefore the physical characteristics of the speaker) and vocal tract estimate (close related to acoustic articulation and therefore to the spoken message). These biometric parameters constitute a complement to the classical MFCC extracted from the power spectral density of speech as a whole. In order to check the validity of this proposal we establish different practical scenarios, using different databases, so we can conclude that a GDEBP generates a more accurate description of speakers than classical approaches based on gender-independent MFCC. Specifically, we propose scenarios based on text-constrain and text-independent test using HESPERIA and ALBAYZIN databases. This work is also completed with the participation in two international speaker recognition evaluations: NIST SRE (2010 and 2012) and MOBIO 2013, with diverse results. In the first case, due to the nature of the NIST databases, we obtain results closed to state-of-the-art although confirming our hypothesis, whereas in the MOBIO SRE we obtain the best simple system performance for female speakers. Although the study of classification systems is beyond the scope of this thesis, we found it necessary to analise the performance of different classification systems, in order to verify the effect of them on the propose parameterisation. In particular, we have addressed the use of speaker recognition systems based on the GMM-UBM paradigm, supervectors and i-vectors. The presented results confirm that the selection of a set of parameters that allows for a more accurate description of the speakers is as important as the selection of the classification method used by the biometric system. In this sense, the proposed parameterisation constitutes a step forward in improving speaker recognition systems, since even when using relatively simple classification systems, really competitive recognition rates are achieved.
Resumo:
Spanish Educational Laws have been promoting the widespread use of English; as a result, Spanish Uni versities are looking for ways to give students more international training in order to prepare them for a future that will increasingly involve global problems and partnerships. Therefore, the Polytechnic University of Madrid, Spain (UPM), and the University of British Columbia, Okanagan, Canada (UBCO) have come together to offer opportunities for international collaboration and learning, thus facilitating virtual encounters among Spanish and Canadian students. The Language Exchange Program between the UPM and UBCO acts as a model for sustainability innovation in language and culture engagement as the students can interact with native speakers in communication tasks. This interdisciplinary initiative supports the latest methodological principles observed in the Common European Framework for Languages, such as autonomous and life-long learning, self-assessment and peer-assessment as well as the incorporation of new technologies to the learning process. Additionally the ‘virtual’ mobility is provided at no extra cost. This article presents the preliminary results of two virtual exchange programs that have been offering varied forms of study which are venue-independent, and have clearly expanded the range of scenarios for the students on both sides by promoting collaborative work and cultural exchange.
Resumo:
The Language Exchange Program between the UPM and UBCO acts as a model for sustainability innovation in language and culture engagement as the students can interact with native speakers in communication tasks. This interdisciplinary initiative supports the latest methodological principles observed in the Common European Framework for Languages [1], such as autonomous and lifelong learning, self-assessment and peer-assessment as well as the incorporation of new technologies to the learning process
Resumo:
En el proyecto se realiza el estudio del comportamiento acústico y electroacústico de la sala 5 de los cines Kinépolis de Madrid. El objetivo es determinar las características acústicas de la sala mediante la realización de las medidas in-situ para después analizar y simular la misma con EASE4.4, realizar una sonorización apropiada para reproducción de cine, valorar la sala actual y proponer algunas mejoras. El desarrollo del proyecto se ha dividido en tres partes. En primer lugar, se realizan las medidas espaciales y acústicas in-situ con el programa de toma de medidas Dirac 5.5. En este paso, se obtienen las medidas reales (usadas en la simulación 3D posterior) y los dos parámetros acústicos importantes inherentes a la sala, el tiempo de reverberación y el ruido de fondo. Además, se estudia el conexionado de altavoces y de los equipos instalados en sala. En segundo lugar, se hace la simulación de la sala, para ello se realiza su diseño con el programa de simulación acústica EASE 4.4, con el que se ajustan las condiciones de campo a las existentes en Kinépolis, asegurando que el comportamiento acústico de la sala simulada sea similar al real. También se distribuirá el sistema electroacústico con la descripción del conexionado y la configuración de los altavoces. En la simulación, durante el estudio acústico, además de desarrollar el dimensionado del recinto, se ajustan los materiales de tal manera que el tiempo de reverberación sea el de la sala de estudio considerando también el ruido de fondo. En cuanto al estudio electroacústico, se distribuyen los altavoces en las posiciones medidas in-situ de la instalación y se detalla su conexionado. De esta manera, se realizan los cálculos para ajustar sus respuestas para proporcionar un recubrimiento sonoro uniforme y el efecto precedencia desde la zona frontal al oyente deseado. Finalmente, y a partir de los datos obtenidos en la simulación, se hace una valoración a través de diversos criterios de inteligibilidad, se extraen las conclusiones del estudio y se proponen una serie de mejoras en la sala real para obtener unas prestaciones sonoras óptimas. Se consigue con el proyecto, tras el aprendizaje de las herramientas específicas utilizadas, la recopilación de documentación y el análisis de datos de la sala, aplicar los conceptos teóricos de manera práctica a un caso real. ABSTRACT. During the project is carried out the acoustic and electroacoustic study of the room cinema 5 of the Kinépolis group in Madrid. The objective is to determine the acoustic characteristics of the room by performing the in-situ measurements in order to analyze and simulate it with the software EASE 4.4 making an appropriate sound for movie playback, assess the current room, and propose some improvements. Development of the project is composed of three parts. First, the performing of the spatial and acoustic in-situ measurements with the program Dirac 5.5. On this step, the real measures are obtained (that will be used on the next 3D simulation) and the two important parameters inherent to the room, the reverberation time and the noise level. In addition, the speaker connections and the installations of the cinema’s equipment are studied. Secondly, the simulation of the room cinema is performed. This simulation is done with the acoustic simulation program EASE 4.4 in which its field conditions conform to the conditions of Kinépolis, ensuring that the acoustic behavior of the simulated room is similar to the real room. Also, the electroacustic system is distributed with the wiring and the speaker setup. During the acoustic study of the simulation, in addition to do the dimensions of the cinema room, the materials are adjusted in order to synchronize reverberation time to that of the real room. The noise level is taking in account too. For the electroacustic studio, the speakers will be distributed in the positions measured in-situ to do the installation and its detailed connection. By this way, the calculations are done to adjust to the responses in a way to give a sound uniform coating with the precedence effect desired on the front area of the listeners. Lastly, and from the data obtained in the simulation, an assessment is done through the various criteria of intelligibility, conclusions are drawn from the study and a number of improvements are proposed in the actual room for obtain optimal sound benefits. With this project is achieved, after gain learning of the specific tolls used, the documentation collected and the data analysis of the room, to apply theoretical concepts in a practical way for a real case.
Resumo:
One of the biggest challenges in speech synthesis is the production of contextually-appropriate naturally sounding synthetic voices. This means that a Text-To-Speech system must be able to analyze a text beyond the sentence limits in order to select, or even modulate, the speaking style according to a broader context. Our current architecture is based on a two-step approach: text genre identification and speaking style synthesis according to the detected discourse genre. For the final implementation, a set of four genres and their corresponding speaking styles were considered: broadcast news, live sport commentaries, interviews and political speeches. In the final TTS evaluation, the four speaking styles were transplanted to the neutral voices of other speakers not included in the training database. When the transplanted styles were compared to the neutral voices, transplantation was significantly preferred and the similarity to the target speaker was as high as 78%.
Resumo:
La última década ha sido testigo de importantes avances en el campo de la tecnología de reconocimiento de voz. Los sistemas comerciales existentes actualmente poseen la capacidad de reconocer habla continua de múltiples locutores, consiguiendo valores aceptables de error, y sin la necesidad de realizar procedimientos explícitos de adaptación. A pesar del buen momento que vive esta tecnología, el reconocimiento de voz dista de ser un problema resuelto. La mayoría de estos sistemas de reconocimiento se ajustan a dominios particulares y su eficacia depende de manera significativa, entre otros muchos aspectos, de la similitud que exista entre el modelo de lenguaje utilizado y la tarea específica para la cual se está empleando. Esta dependencia cobra aún más importancia en aquellos escenarios en los cuales las propiedades estadísticas del lenguaje varían a lo largo del tiempo, como por ejemplo, en dominios de aplicación que involucren habla espontánea y múltiples temáticas. En los últimos años se ha evidenciado un constante esfuerzo por mejorar los sistemas de reconocimiento para tales dominios. Esto se ha hecho, entre otros muchos enfoques, a través de técnicas automáticas de adaptación. Estas técnicas son aplicadas a sistemas ya existentes, dado que exportar el sistema a una nueva tarea o dominio puede requerir tiempo a la vez que resultar costoso. Las técnicas de adaptación requieren fuentes adicionales de información, y en este sentido, el lenguaje hablado puede aportar algunas de ellas. El habla no sólo transmite un mensaje, también transmite información acerca del contexto en el cual se desarrolla la comunicación hablada (e.g. acerca del tema sobre el cual se está hablando). Por tanto, cuando nos comunicamos a través del habla, es posible identificar los elementos del lenguaje que caracterizan el contexto, y al mismo tiempo, rastrear los cambios que ocurren en estos elementos a lo largo del tiempo. Esta información podría ser capturada y aprovechada por medio de técnicas de recuperación de información (information retrieval) y de aprendizaje de máquina (machine learning). Esto podría permitirnos, dentro del desarrollo de mejores sistemas automáticos de reconocimiento de voz, mejorar la adaptación de modelos del lenguaje a las condiciones del contexto, y por tanto, robustecer al sistema de reconocimiento en dominios con condiciones variables (tales como variaciones potenciales en el vocabulario, el estilo y la temática). En este sentido, la principal contribución de esta Tesis es la propuesta y evaluación de un marco de contextualización motivado por el análisis temático y basado en la adaptación dinámica y no supervisada de modelos de lenguaje para el robustecimiento de un sistema automático de reconocimiento de voz. Esta adaptación toma como base distintos enfoque de los sistemas mencionados (de recuperación de información y aprendizaje de máquina) mediante los cuales buscamos identificar las temáticas sobre las cuales se está hablando en una grabación de audio. Dicha identificación, por lo tanto, permite realizar una adaptación del modelo de lenguaje de acuerdo a las condiciones del contexto. El marco de contextualización propuesto se puede dividir en dos sistemas principales: un sistema de identificación de temática y un sistema de adaptación dinámica de modelos de lenguaje. Esta Tesis puede describirse en detalle desde la perspectiva de las contribuciones particulares realizadas en cada uno de los campos que componen el marco propuesto: _ En lo referente al sistema de identificación de temática, nos hemos enfocado en aportar mejoras a las técnicas de pre-procesamiento de documentos, asimismo en contribuir a la definición de criterios más robustos para la selección de index-terms. – La eficiencia de los sistemas basados tanto en técnicas de recuperación de información como en técnicas de aprendizaje de máquina, y específicamente de aquellos sistemas que particularizan en la tarea de identificación de temática, depende, en gran medida, de los mecanismos de preprocesamiento que se aplican a los documentos. Entre las múltiples operaciones que hacen parte de un esquema de preprocesamiento, la selección adecuada de los términos de indexado (index-terms) es crucial para establecer relaciones semánticas y conceptuales entre los términos y los documentos. Este proceso también puede verse afectado, o bien por una mala elección de stopwords, o bien por la falta de precisión en la definición de reglas de lematización. En este sentido, en este trabajo comparamos y evaluamos diferentes criterios para el preprocesamiento de los documentos, así como también distintas estrategias para la selección de los index-terms. Esto nos permite no sólo reducir el tamaño de la estructura de indexación, sino también mejorar el proceso de identificación de temática. – Uno de los aspectos más importantes en cuanto al rendimiento de los sistemas de identificación de temática es la asignación de diferentes pesos a los términos de acuerdo a su contribución al contenido del documento. En este trabajo evaluamos y proponemos enfoques alternativos a los esquemas tradicionales de ponderado de términos (tales como tf-idf ) que nos permitan mejorar la especificidad de los términos, así como también discriminar mejor las temáticas de los documentos. _ Respecto a la adaptación dinámica de modelos de lenguaje, hemos dividimos el proceso de contextualización en varios pasos. – Para la generación de modelos de lenguaje basados en temática, proponemos dos tipos de enfoques: un enfoque supervisado y un enfoque no supervisado. En el primero de ellos nos basamos en las etiquetas de temática que originalmente acompañan a los documentos del corpus que empleamos. A partir de estas, agrupamos los documentos que forman parte de la misma temática y generamos modelos de lenguaje a partir de dichos grupos. Sin embargo, uno de los objetivos que se persigue en esta Tesis es evaluar si el uso de estas etiquetas para la generación de modelos es óptimo en términos del rendimiento del reconocedor. Por esta razón, nosotros proponemos un segundo enfoque, un enfoque no supervisado, en el cual el objetivo es agrupar, automáticamente, los documentos en clusters temáticos, basándonos en la similaridad semántica existente entre los documentos. Por medio de enfoques de agrupamiento conseguimos mejorar la cohesión conceptual y semántica en cada uno de los clusters, lo que a su vez nos permitió refinar los modelos de lenguaje basados en temática y mejorar el rendimiento del sistema de reconocimiento. – Desarrollamos diversas estrategias para generar un modelo de lenguaje dependiente del contexto. Nuestro objetivo es que este modelo refleje el contexto semántico del habla, i.e. las temáticas más relevantes que se están discutiendo. Este modelo es generado por medio de la interpolación lineal entre aquellos modelos de lenguaje basados en temática que estén relacionados con las temáticas más relevantes. La estimación de los pesos de interpolación está basada principalmente en el resultado del proceso de identificación de temática. – Finalmente, proponemos una metodología para la adaptación dinámica de un modelo de lenguaje general. El proceso de adaptación tiene en cuenta no sólo al modelo dependiente del contexto sino también a la información entregada por el proceso de identificación de temática. El esquema usado para la adaptación es una interpolación lineal entre el modelo general y el modelo dependiente de contexto. Estudiamos también diferentes enfoques para determinar los pesos de interpolación entre ambos modelos. Una vez definida la base teórica de nuestro marco de contextualización, proponemos su aplicación dentro de un sistema automático de reconocimiento de voz. Para esto, nos enfocamos en dos aspectos: la contextualización de los modelos de lenguaje empleados por el sistema y la incorporación de información semántica en el proceso de adaptación basado en temática. En esta Tesis proponemos un marco experimental basado en una arquitectura de reconocimiento en ‘dos etapas’. En la primera etapa, empleamos sistemas basados en técnicas de recuperación de información y aprendizaje de máquina para identificar las temáticas sobre las cuales se habla en una transcripción de un segmento de audio. Esta transcripción es generada por el sistema de reconocimiento empleando un modelo de lenguaje general. De acuerdo con la relevancia de las temáticas que han sido identificadas, se lleva a cabo la adaptación dinámica del modelo de lenguaje. En la segunda etapa de la arquitectura de reconocimiento, usamos este modelo adaptado para realizar de nuevo el reconocimiento del segmento de audio. Para determinar los beneficios del marco de trabajo propuesto, llevamos a cabo la evaluación de cada uno de los sistemas principales previamente mencionados. Esta evaluación es realizada sobre discursos en el dominio de la política usando la base de datos EPPS (European Parliamentary Plenary Sessions - Sesiones Plenarias del Parlamento Europeo) del proyecto europeo TC-STAR. Analizamos distintas métricas acerca del rendimiento de los sistemas y evaluamos las mejoras propuestas con respecto a los sistemas de referencia. ABSTRACT The last decade has witnessed major advances in speech recognition technology. Today’s commercial systems are able to recognize continuous speech from numerous speakers, with acceptable levels of error and without the need for an explicit adaptation procedure. Despite this progress, speech recognition is far from being a solved problem. Most of these systems are adjusted to a particular domain and their efficacy depends significantly, among many other aspects, on the similarity between the language model used and the task that is being addressed. This dependence is even more important in scenarios where the statistical properties of the language fluctuates throughout the time, for example, in application domains involving spontaneous and multitopic speech. Over the last years there has been an increasing effort in enhancing the speech recognition systems for such domains. This has been done, among other approaches, by means of techniques of automatic adaptation. These techniques are applied to the existing systems, specially since exporting the system to a new task or domain may be both time-consuming and expensive. Adaptation techniques require additional sources of information, and the spoken language could provide some of them. It must be considered that speech not only conveys a message, it also provides information on the context in which the spoken communication takes place (e.g. on the subject on which it is being talked about). Therefore, when we communicate through speech, it could be feasible to identify the elements of the language that characterize the context, and at the same time, to track the changes that occur in those elements over time. This information can be extracted and exploited through techniques of information retrieval and machine learning. This allows us, within the development of more robust speech recognition systems, to enhance the adaptation of language models to the conditions of the context, thus strengthening the recognition system for domains under changing conditions (such as potential variations in vocabulary, style and topic). In this sense, the main contribution of this Thesis is the proposal and evaluation of a framework of topic-motivated contextualization based on the dynamic and non-supervised adaptation of language models for the enhancement of an automatic speech recognition system. This adaptation is based on an combined approach (from the perspective of both information retrieval and machine learning fields) whereby we identify the topics that are being discussed in an audio recording. The topic identification, therefore, enables the system to perform an adaptation of the language model according to the contextual conditions. The proposed framework can be divided in two major systems: a topic identification system and a dynamic language model adaptation system. This Thesis can be outlined from the perspective of the particular contributions made in each of the fields that composes the proposed framework: _ Regarding the topic identification system, we have focused on the enhancement of the document preprocessing techniques in addition to contributing in the definition of more robust criteria for the selection of index-terms. – Within both information retrieval and machine learning based approaches, the efficiency of topic identification systems, depends, to a large extent, on the mechanisms of preprocessing applied to the documents. Among the many operations that encloses the preprocessing procedures, an adequate selection of index-terms is critical to establish conceptual and semantic relationships between terms and documents. This process might also be weakened by a poor choice of stopwords or lack of precision in defining stemming rules. In this regard we compare and evaluate different criteria for preprocessing the documents, as well as for improving the selection of the index-terms. This allows us to not only reduce the size of the indexing structure but also to strengthen the topic identification process. – One of the most crucial aspects, in relation to the performance of topic identification systems, is to assign different weights to different terms depending on their contribution to the content of the document. In this sense we evaluate and propose alternative approaches to traditional weighting schemes (such as tf-idf ) that allow us to improve the specificity of terms, and to better identify the topics that are related to documents. _ Regarding the dynamic language model adaptation, we divide the contextualization process into different steps. – We propose supervised and unsupervised approaches for the generation of topic-based language models. The first of them is intended to generate topic-based language models by grouping the documents, in the training set, according to the original topic labels of the corpus. Nevertheless, a goal of this Thesis is to evaluate whether or not the use of these labels to generate language models is optimal in terms of recognition accuracy. For this reason, we propose a second approach, an unsupervised one, in which the objective is to group the data in the training set into automatic topic clusters based on the semantic similarity between the documents. By means of clustering approaches we expect to obtain a more cohesive association of the documents that are related by similar concepts, thus improving the coverage of the topic-based language models and enhancing the performance of the recognition system. – We develop various strategies in order to create a context-dependent language model. Our aim is that this model reflects the semantic context of the current utterance, i.e. the most relevant topics that are being discussed. This model is generated by means of a linear interpolation between the topic-based language models related to the most relevant topics. The estimation of the interpolation weights is based mainly on the outcome of the topic identification process. – Finally, we propose a methodology for the dynamic adaptation of a background language model. The adaptation process takes into account the context-dependent model as well as the information provided by the topic identification process. The scheme used for the adaptation is a linear interpolation between the background model and the context-dependent one. We also study different approaches to determine the interpolation weights used in this adaptation scheme. Once we defined the basis of our topic-motivated contextualization framework, we propose its application into an automatic speech recognition system. We focus on two aspects: the contextualization of the language models used by the system, and the incorporation of semantic-related information into a topic-based adaptation process. To achieve this, we propose an experimental framework based in ‘a two stages’ recognition architecture. In the first stage of the architecture, Information Retrieval and Machine Learning techniques are used to identify the topics in a transcription of an audio segment. This transcription is generated by the recognition system using a background language model. According to the confidence on the topics that have been identified, the dynamic language model adaptation is carried out. In the second stage of the recognition architecture, an adapted language model is used to re-decode the utterance. To test the benefits of the proposed framework, we carry out the evaluation of each of the major systems aforementioned. The evaluation is conducted on speeches of political domain using the EPPS (European Parliamentary Plenary Sessions) database from the European TC-STAR project. We analyse several performance metrics that allow us to compare the improvements of the proposed systems against the baseline ones.