882 resultados para Hábitos del habla
Resumo:
This paper describes a low complexity strategy for detecting and recognizing text signs automatically. Traditional approaches use large image algorithms for detecting the text sign, followed by the application of an Optical Character Recognition (OCR) algorithm in the previously identified areas. This paper proposes a new architecture that applies the OCR to a whole lightly treated image and then carries out the text detection process of the OCR output. The strategy presented in this paper significantly reduces the processing time required for text localization in an image, while guaranteeing a high recognition rate. This strategy will facilitate the incorporation of video processing-based applications into the automatic detection of text sign similar to that of a smartphone. These applications will increase the autonomy of visually impaired people in their daily life.
Resumo:
This paper proposes a methodology for developing a speech into sign language translation system considering a user-centered strategy. This method-ology consists of four main steps: analysis of technical and user requirements, data collection, technology adaptation to the new domain, and finally, evalua-tion of the system. The two most demanding tasks are the sign generation and the translation rules generation. Many other aspects can be updated automatical-ly from a parallel corpus that includes sentences (in Spanish and LSE: Lengua de Signos Española) related to the application domain. In this paper, we explain how to apply this methodology in order to develop two translation systems in two specific domains: bus transport information and hotel reception.
Resumo:
As a consequence of cinema screens being placed in front of screen-speakers, a reduction in sound quality has been noticed. Cinema screens not only let the sound go through them, but also absorb a small amount of it and reflect the sound which impacts on the screen to the back, coming forward again in case it impacts on the loudspeaker. This backwards reflection in addition to the signal coming from the loudspeaker can lead to constructive or destructive interference at certain frequencies which usually results in comb filtering. In this project, this effect has been studied through researching amongst various data sheet provided by different manufacturers, acoustical measurements completed in the large anechoic chamber of the ISVR and some theoretical models developed with MatLab software. If results obtained with MatLab are accurate enough in comparison to the real measurements taken in the anechoic chamber this would lead to a good way to predict which would be the attenuation added to the system at each frequency, given that not all manufacturers provide an attenuation curve, but only an average attenuation. This average attenuation might be useless as sound waves have different wavelengths and its propagation through partitions varies. In fact, sound is composed by high and low frequencies, where high frequencies are characterised by a small wavelength which is usually easier to attenuate than low frequencies that characterised by bigger wavelengths. Furthermore, this information would be of great value to both screen manufacturers, who could offer a much more precise data in their data sheets; and customers, who would have a great amount of information to their disposal before purchasing and installing anything in their cinemas, being able to know by themselves which screen or loudspeaker should be best to meet their expectative. RESUMEN. La aparición de la digitalización de las bandas sonoras para las películas hace posible la mejora en la calidad de sonido de los cines. Sin embargo, un aspecto a tener en cuenta en esta calidad del sonido es la transmisión de éste a través de la pantalla, ya que normalmente tras ella se encuentran situados los altavoces. Las propiedades acústicas varían dependiendo del tipo de pantalla que se utilice, además de haber poca información a la que acceder para poder valorar su comportamiento. A lo largo de este proyecto, se analizan tres muestras de pantallas distintas donadas por distintos fabricantes para poder llegar a la conclusión de dependiendo del tipo de pantalla cuál es la distancia óptima a la que localizar la pantalla respecto al altavoz y con qué inclinación. Dicho análisis se realizó en la cámara anecoica del ISVR (University of Southampton) mediante la construcción de un marco de madera de 2x2 m en el que tensar las pantallas de cine, y un altavoz cuyo comportamiento sea el más similar al de los altavoces de pantalla reales. Los datos se captaron mediante cuatro micrófonos colocados en posiciones distintas y conectados al software Pulse de Brüel & Kjær, a través del cual se obtuvieron las respuestas en frecuencia del altavoz sin pantalla y con ella a diferentes distancias del altavoz. Posteriormente, los datos se analizaron con MatLab donde se calculó la atenuación, el factor de transmisión de la presión (PTF) y el análisis cepstrum. Finalmente, se realizó un modelo teórico del comportamiento de las pantallas perforadas basado en las placas perforadas utilizadas para atenuar el sonido entre distintas habitaciones. Como conclusión se llegó a que las pantallas curvadas son acústicamente más transparentes que las pantallas perforadas que a partir de 6 kHz son más acústicamente opacas. En las pantallas perforadas la atenuación depende del número de perforaciones por unidad de área y el diámetro de éstas. Dicha atenuación se reducirá si se reduce el diámetro de las perforaciones de la pantalla, o si se incrementa la cantidad de perforaciones. Acerca del efecto filtro peine, para obtener la mínima amplitud de éste la pantalla se deberá situar a una distancia entre 15 y 30 cm del altavoz, encontrando a la distancia de 30 cm que la última reflexión analizada a través de Cepstrum llega 5 ms más tarde que la señal directa, por lo cual no debería dañar el sonido ni la claridad del habla.
Resumo:
El principal objetivo de este estudio es la evaluación de la distribución espacial de los parámetros acústicos en un recinto a través de la aplicación de técnicas geoestadísticas como el método Kriging. Mediante el uso de la herramienta de análisis espacial ArcMap, perteneciente a la plataforma ArcGIS, se ha analizado el comportamiento acústico del Salón de Actos común a la Escuela Técnica Superior de Ingeniería y Sistemas de Telecomunicación (ETSIST) y la Escuela Técnica Superior de Ingeniería de Sistemas Informáticos (ETSISI), ambas situadas en el Campus Sur de la Universidad Politécnica de Madrid. Se han realizado mediciones in-situ del recinto no ocupado utilizando la herramienta de medición DIRAC Room Acoustics y el método de la respuesta impulsiva integrada, extrayéndose los parámetros acústicos de tiempo de reverberación (RT), tiempo de reverberación inicial (EDT), fuerza sonora relativa (Grel), claridad (C80), tiempo central (Ts), definición (D50) e Índice de Transmisión Rápida de la Palabra (RASTI). Se ha analizado la adecuación de los valores observados de Grel, C80 y Ts al modelo teórico de Barron y estimado, mediante el método Kriging Ordinario, el conjunto de parámetros medidos en el recinto, obteniéndose los semivariograma y mapas de estimación correspondientes. Además, se ha evaluado la calidad de la estimación en base a un número de puntos de medición reducido. A la vista de los resultados obtenidos, en general, el método Kriging puede considerarse un buen interpolador de los parámetros acústicos en un recinto, observándose que los parámetros que evalúan relaciones energéticas, especialmente la fuerza sonora relativa (Grel) proporcionan mejores estimaciones en comparación con aquellos relacionados con la reverberación y la inteligibilidad del habla. El coeficiente de determinación (R2) constituye una medida útil para evaluar la precisión de la estimación. Además, la entropía de los datos observados puede ser un buen indicador a priori de la precisión de la estimación. Asimismo, se ha demostrado que, basándose en un reducido número de puntos de medición, es posible obtener una estimación precisa de los parámetros acústicos de fuerza sonora relativa (Grel) y tiempo central (Ts). ABSTRACT. This project aims to evaluate the feasibility of using geostatistical techniques such as Kriging on the analysis of the spatial distribution of the acoustic parameters in rooms. The acoustic behaviour of the Assembly Hall of the ETSIST and ETSISI (Universidad Politécnica de Madrid) is investigated using ArcMap, which is the main component of ArcGIS suite of geospatial processing programs. For this purpose, in-situ acoustic measurements are carried out in the unoccupied room using DIRAC Room Acoustics software. The following acoustic parameters are measured by means of the integrated impulse response method for further examination: Reverberation Time (RT), Early Decay Time (EDT), Relative Strength (Grel), Clarity (C80), Centre Time (Ts), Definition (D50) and Rapid Speech Transmission Index (RASTI). Goodness-of-fit of measured Grel, C80 and Ts values to Barron’s theory is determined and Ordinary Kriging is applied to all the measured parameters in order to calculate the semivariogram and prediction surfaces. The prediction performance is also analysed when significantly fewer receiver positions are used for the prediction. The experimental results obtained lead to conclude that Kriging can be successfully applied to room acoustics. Energy\based acoustic parameters can be estimated with higher accuracy compared to those related to reverberation and speech intelligibility. Coefficient of determination (R2) is a reliable statistic for assessing the prediction accuracy, for which measured data entropy can also be a good a priori indicator. Furthermore, based on fewer receiver positions, it is demonstrated that accurate predictions of Grel and Ts can be achieved.
Resumo:
The introduction of open-plan offices in the 1960s with the intent of making the workplace more flexible, efficient, and team-oriented resulted in a higher noise floor level, which not only made concentrated work more difficult, but also caused physiological problems, such as increased stress, in addition to a loss of speech privacy. Irrelevant background human speech, in particular, has proven to be a major factor in disrupting concentration and lowering performance. Therefore, reducing the intelligibility of speech and has been a goal of increasing importance in recent years. One method employed to do so is the use of masking noises, which consists in emitting a continuous noise signal over a loudspeaker system that conceals the perturbing speech. Studies have shown that while effective, the maskers employed to date – normally filtered pink noise – are generally poorly accepted by users. The collaborative "Private Workspace" project, within the scope of which this thesis was carried out, attempts to develop a coupled, adaptive noise masking system along with a physical structure to be used for open-plan offices so as to combat these issues. There is evidence to suggest that nature sounds might be more accepted as masker, in part because they can have a visual object that acts as the source for the sound. Direct audio recordings are not recommended for various reasons, and thus the nature sounds must be synthesized. This work done consists of the synthesis of a sound texture to be used as a masker as well as its evaluation. The sound texture is composed of two parts: a wind-like noise synthesized with subtractive synthesis, and a leaf-like noise synthesized through granular synthesis. Different combinations of these two noises produced five variations of the masker, which were evaluated at different levels along with white noise and pink noise using a modified version of an Oldenburger Satztest to test for an affect on speech intelligibility and a questionnaire to asses its subjective acceptance. The goal was to find which of the synthesized noises works best as a speech masker. This thesis first uses a theoretical introduction to establish the basics of sound perception, psychoacoustic masking, and sound texture synthesis. The design of each of the noises, as well as their respective implementations in MATLAB, is explained, followed by the procedures used to evaluate the maskers. The results obtained in the evaluation are analyzed. Lastly, conclusions are drawn and future work is and modifications to the masker are proposed. RESUMEN. La introducción de las oficinas abiertas en los años 60 tenía como objeto flexibilizar el ambiente laboral, hacerlo más eficiente y que estuviera más orientado al trabajo en equipo. Como consecuencia, subió el nivel de ruido de fondo, que no sólo dificulta la concentración, sino que causa problemas fisiológicos, como el aumento del estrés, además de reducir la privacidad. Hay estudios que prueban que las conversaciones de fondo en particular tienen un efecto negativo en el nivel de concentración y disminuyen el rendimiento de los trabajadores. Por lo tanto, reducir la inteligibilidad del habla es uno de los principales objetivos en la actualidad. Un método empleado para hacerlo ha sido el uso de ruido enmascarante, que consiste en reproducir señales continuas de ruido a través de un sistema de altavoces que enmascare el habla. Aunque diversos estudios demuestran que es un método eficaz, los ruidos utilizados hasta la fecha (normalmente ruido rosa filtrado), no son muy bien aceptados por los usuarios. El proyecto colaborativo "Private Workspace", dentro del cual se engloba el trabajo realizado en este Proyecto Fin de Grado, tiene por objeto desarrollar un sistema de ruido enmascarador acoplado y adaptativo, además de una estructura física, para su uso en oficinas abiertas con el fin de combatir los problemas descritos anteriormente. Existen indicios de que los sonidos naturales son mejor aceptados, en parte porque pueden tener una estructura física que simule ser la fuente de los mismos. La utilización de grabaciones directas de estos sonidos no está recomendada por varios motivos, y por lo tanto los sonidos naturales deben ser sintetizados. El presente trabajo consiste en la síntesis de una textura de sonido (en inglés sound texture) para ser usada como ruido enmascarador, además de su evaluación. La textura está compuesta de dos partes: un sonido de viento sintetizado mediante síntesis sustractiva y un sonido de hojas sintetizado mediante síntesis granular. Diferentes combinaciones de estos dos sonidos producen cinco variaciones de ruido enmascarador. Estos cinco ruidos han sido evaluados a diferentes niveles, junto con ruido blanco y ruido rosa, mediante una versión modificada de un Oldenburger Satztest para comprobar cómo afectan a la inteligibilidad del habla, y mediante un cuestionario para una evaluación subjetiva de su aceptación. El objetivo era encontrar qué ruido de los que se han sintetizado funciona mejor como enmascarador del habla. El proyecto consiste en una introducción teórica que establece las bases de la percepción del sonido, el enmascaramiento psicoacústico, y la síntesis de texturas de sonido. Se explica a continuación el diseño de cada uno de los ruidos, así como su implementación en MATLAB. Posteriormente se detallan los procedimientos empleados para evaluarlos. Los resultados obtenidos se analizan y se extraen conclusiones. Por último, se propone un posible trabajo futuro y mejoras al ruido sintetizado.
Resumo:
La idea de dotar a un grupo de robots o agentes artificiales de un lenguaje ha sido objeto de intenso estudio en las ultimas décadas. Como no podía ser de otra forma los primeros intentos se enfocaron hacia el estudio de la emergencia de vocabularios compartidos convencionalmente por el grupo de robots. Las ventajas que puede ofrecer un léxico común son evidentes, como también lo es que un lenguaje con una estructura más compleja, en la que se pudieran combinar palabras, sería todavía más beneficioso. Surgen así algunas propuestas enfocadas hacia la emergencia de un lenguaje consensuado que muestre una estructura sintáctica similar al lenguaje humano, entre las que se encuentra este trabajo. Tomar el lenguaje humano como modelo supone adoptar algunas de las hipótesis y teorías que disciplinas como la filosofía, la psicología o la lingüística entre otras se han encargado de proponer. Según estas aproximaciones teóricas el lenguaje presenta una doble dimension formal y funcional. En base a su dimensión formal parece claro que el lenguaje sigue unas reglas, por lo que el uso de una gramática se ha considerado esencial para su representación, pero también porque las gramáticas son un dispositivo muy sencillo y potente que permite generar fácilmente estructuras simbólicas. En cuanto a la dimension funcional se ha tenido en cuenta la teoría quizá más influyente de los últimos tiempos, que no es otra que la Teoría de los Actos del Habla. Esta teoría se basa en la idea de Wittgenstein por la que el significado reside en el uso del lenguaje, hasta el punto de que éste se entiende como una manera de actuar y de comportarse, en definitiva como una forma de vida. Teniendo presentes estas premisas en esta tesis se pretende experimentar con modelos computacionales que permitan a un grupo de robots alcanzar un lenguaje común de manera autónoma, simplemente mediante interacciones individuales entre los robots, en forma de juegos de lenguaje. Para ello se proponen tres modelos distintos de lenguaje: • Un modelo basado en gramáticas probabilísticas y aprendizaje por refuerzo en el que las interacciones y el uso del lenguaje son claves para su emergencia y que emplea una gramática generativa estática y diseñada de antemano. Este modelo se aplica a dos grupos distintos: uno formado exclusivamente por robots y otro que combina robots y un humano, de manera que en este segundo caso se plantea un aprendizaje supervisado por humanos. • Un modelo basado en evolución gramatical que permite estudiar no solo el consenso sintáctico, sino también cuestiones relativas a la génesis del lenguaje y que emplea una gramática universal a partir de la cual los robots pueden evolucionar por sí mismos la gramática más apropiada según la situación lingüística que traten en cada momento. • Un modelo basado en evolución gramatical y aprendizaje por refuerzo que toma aspectos de los anteriores y amplia las posibilidades de los robots al permitir desarrollar un lenguaje que se adapta a situaciones lingüísticas dinámicas que pueden cambiar en el tiempo y también posibilita la imposición de restricciones de orden muy frecuentes en las estructuras sintácticas complejas. Todos los modelos implican un planteamiento descentralizado y auto-organizado, de manera que ninguno de los robots es el dueño del lenguaje y todos deben cooperar y colaborar de forma coordinada para lograr el consenso sintáctico. En cada caso se plantean experimentos que tienen como objetivo validar los modelos propuestos, tanto en lo relativo al éxito en la emergencia del lenguaje como en lo relacionado con cuestiones paralelas de importancia, como la interacción hombre-máquina o la propia génesis del lenguaje. ABSTRACT The idea of giving a language to a group of robots or artificial agents has been the subject of intense study in recent decades. The first attempts have focused on the development and emergence of a conventionally shared vocabulary. The advantages that can provide a common vocabulary are evident and therefore a more complex language that combines words would be even more beneficial. Thus some proposals are put forward towards the emergence of a consensual language with a sintactical structure in similar terms to the human language. This work follows this trend. Taking the human language as a model means taking some of the assumptions and theories that disciplines such as philosophy, psychology or linguistics among others have provided. According to these theoretical positions language has a double formal and functional dimension. Based on its formal dimension it seems clear that language follows rules, so that the use of a grammar has been considered essential for representation, but also because grammars are a very simple and powerful device that easily generates these symbolic structures. As for the functional dimension perhaps the most influential theory of recent times, the Theory of Speech Acts has been taken into account. This theory is based on the Wittgenstein’s idea about that the meaning lies in the use of language, to the extent that it is understood as a way of acting and behaving. Having into account these issues this work implements some computational models in order to test if they allow a group of robots to reach in an autonomous way a shared language by means of individual interaction among them, that is by means of language games. Specifically, three different models of language for robots are proposed: • A reinforcement learning based model in which interactions and language use are key to its emergence. This model uses a static probabilistic generative grammar which is designed beforehand. The model is applied to two different groups: one formed exclusively by robots and other combining robots and a human. Therefore, in the second case the learning process is supervised by the human. • A model based on grammatical evolution that allows us to study not only the syntactic consensus, but also the very genesis of language. This model uses a universal grammar that allows robots to evolve for themselves the most appropriate grammar according to the current linguistic situation they deal with. • A model based on grammatical evolution and reinforcement learning that takes aspects of the previous models and increases their possibilities. This model allows robots to develop a language in order to adapt to dynamic language situations that can change over time and also allows the imposition of syntactical order restrictions which are very common in complex syntactic structures. All models involve a decentralized and self-organized approach so that none of the robots is the language’s owner and everyone must cooperate and work together in a coordinated manner to achieve syntactic consensus. In each case experiments are presented in order to validate the proposed models, both in terms of success about the emergence of language and it relates to the study of important parallel issues, such as human-computer interaction or the very genesis of language.
Resumo:
This paper presents a dynamic LM adaptation based on the topic that has been identified on a speech segment. We use LSA and the given topic labels in the training dataset to obtain and use the topic models. We propose a dynamic language model adaptation to improve the recognition performance in "a two stages" AST system. The final stage makes use of the topic identification with two variants: the first on uses just the most probable topic and the other one depends on the relative distances of the topics that have been identified. We perform the adaptation of the LM as a linear interpolation between a background model and topic-based LM. The interpolation weight id dynamically adapted according to different parameters. The proposed method is evaluated on the Spanish partition of the EPPS speech database. We achieved a relative reduction in WER of 11.13% over the baseline system which uses a single blackground LM.
Resumo:
This paper describes the GTH-UPM system for the Albayzin 2014 Search on Speech Evaluation. Teh evaluation task consists of searching a list of terms/queries in audio files. The GTH-UPM system we are presenting is based on a LVCSR (Large Vocabulary Continuous Speech Recognition) system. We have used MAVIR corpus and the Spanish partition of the EPPS (European Parliament Plenary Sessions) database for training both acoustic and language models. The main effort has been focused on lexicon preparation and text selection for the language model construction. The system makes use of different lexicon and language models depending on the task that is performed. For the best configuration of the system on the development set, we have obtained a FOM of 75.27 for the deyword spotting task.
Resumo:
La última década ha sido testigo de importantes avances en el campo de la tecnología de reconocimiento de voz. Los sistemas comerciales existentes actualmente poseen la capacidad de reconocer habla continua de múltiples locutores, consiguiendo valores aceptables de error, y sin la necesidad de realizar procedimientos explícitos de adaptación. A pesar del buen momento que vive esta tecnología, el reconocimiento de voz dista de ser un problema resuelto. La mayoría de estos sistemas de reconocimiento se ajustan a dominios particulares y su eficacia depende de manera significativa, entre otros muchos aspectos, de la similitud que exista entre el modelo de lenguaje utilizado y la tarea específica para la cual se está empleando. Esta dependencia cobra aún más importancia en aquellos escenarios en los cuales las propiedades estadísticas del lenguaje varían a lo largo del tiempo, como por ejemplo, en dominios de aplicación que involucren habla espontánea y múltiples temáticas. En los últimos años se ha evidenciado un constante esfuerzo por mejorar los sistemas de reconocimiento para tales dominios. Esto se ha hecho, entre otros muchos enfoques, a través de técnicas automáticas de adaptación. Estas técnicas son aplicadas a sistemas ya existentes, dado que exportar el sistema a una nueva tarea o dominio puede requerir tiempo a la vez que resultar costoso. Las técnicas de adaptación requieren fuentes adicionales de información, y en este sentido, el lenguaje hablado puede aportar algunas de ellas. El habla no sólo transmite un mensaje, también transmite información acerca del contexto en el cual se desarrolla la comunicación hablada (e.g. acerca del tema sobre el cual se está hablando). Por tanto, cuando nos comunicamos a través del habla, es posible identificar los elementos del lenguaje que caracterizan el contexto, y al mismo tiempo, rastrear los cambios que ocurren en estos elementos a lo largo del tiempo. Esta información podría ser capturada y aprovechada por medio de técnicas de recuperación de información (information retrieval) y de aprendizaje de máquina (machine learning). Esto podría permitirnos, dentro del desarrollo de mejores sistemas automáticos de reconocimiento de voz, mejorar la adaptación de modelos del lenguaje a las condiciones del contexto, y por tanto, robustecer al sistema de reconocimiento en dominios con condiciones variables (tales como variaciones potenciales en el vocabulario, el estilo y la temática). En este sentido, la principal contribución de esta Tesis es la propuesta y evaluación de un marco de contextualización motivado por el análisis temático y basado en la adaptación dinámica y no supervisada de modelos de lenguaje para el robustecimiento de un sistema automático de reconocimiento de voz. Esta adaptación toma como base distintos enfoque de los sistemas mencionados (de recuperación de información y aprendizaje de máquina) mediante los cuales buscamos identificar las temáticas sobre las cuales se está hablando en una grabación de audio. Dicha identificación, por lo tanto, permite realizar una adaptación del modelo de lenguaje de acuerdo a las condiciones del contexto. El marco de contextualización propuesto se puede dividir en dos sistemas principales: un sistema de identificación de temática y un sistema de adaptación dinámica de modelos de lenguaje. Esta Tesis puede describirse en detalle desde la perspectiva de las contribuciones particulares realizadas en cada uno de los campos que componen el marco propuesto: _ En lo referente al sistema de identificación de temática, nos hemos enfocado en aportar mejoras a las técnicas de pre-procesamiento de documentos, asimismo en contribuir a la definición de criterios más robustos para la selección de index-terms. – La eficiencia de los sistemas basados tanto en técnicas de recuperación de información como en técnicas de aprendizaje de máquina, y específicamente de aquellos sistemas que particularizan en la tarea de identificación de temática, depende, en gran medida, de los mecanismos de preprocesamiento que se aplican a los documentos. Entre las múltiples operaciones que hacen parte de un esquema de preprocesamiento, la selección adecuada de los términos de indexado (index-terms) es crucial para establecer relaciones semánticas y conceptuales entre los términos y los documentos. Este proceso también puede verse afectado, o bien por una mala elección de stopwords, o bien por la falta de precisión en la definición de reglas de lematización. En este sentido, en este trabajo comparamos y evaluamos diferentes criterios para el preprocesamiento de los documentos, así como también distintas estrategias para la selección de los index-terms. Esto nos permite no sólo reducir el tamaño de la estructura de indexación, sino también mejorar el proceso de identificación de temática. – Uno de los aspectos más importantes en cuanto al rendimiento de los sistemas de identificación de temática es la asignación de diferentes pesos a los términos de acuerdo a su contribución al contenido del documento. En este trabajo evaluamos y proponemos enfoques alternativos a los esquemas tradicionales de ponderado de términos (tales como tf-idf ) que nos permitan mejorar la especificidad de los términos, así como también discriminar mejor las temáticas de los documentos. _ Respecto a la adaptación dinámica de modelos de lenguaje, hemos dividimos el proceso de contextualización en varios pasos. – Para la generación de modelos de lenguaje basados en temática, proponemos dos tipos de enfoques: un enfoque supervisado y un enfoque no supervisado. En el primero de ellos nos basamos en las etiquetas de temática que originalmente acompañan a los documentos del corpus que empleamos. A partir de estas, agrupamos los documentos que forman parte de la misma temática y generamos modelos de lenguaje a partir de dichos grupos. Sin embargo, uno de los objetivos que se persigue en esta Tesis es evaluar si el uso de estas etiquetas para la generación de modelos es óptimo en términos del rendimiento del reconocedor. Por esta razón, nosotros proponemos un segundo enfoque, un enfoque no supervisado, en el cual el objetivo es agrupar, automáticamente, los documentos en clusters temáticos, basándonos en la similaridad semántica existente entre los documentos. Por medio de enfoques de agrupamiento conseguimos mejorar la cohesión conceptual y semántica en cada uno de los clusters, lo que a su vez nos permitió refinar los modelos de lenguaje basados en temática y mejorar el rendimiento del sistema de reconocimiento. – Desarrollamos diversas estrategias para generar un modelo de lenguaje dependiente del contexto. Nuestro objetivo es que este modelo refleje el contexto semántico del habla, i.e. las temáticas más relevantes que se están discutiendo. Este modelo es generado por medio de la interpolación lineal entre aquellos modelos de lenguaje basados en temática que estén relacionados con las temáticas más relevantes. La estimación de los pesos de interpolación está basada principalmente en el resultado del proceso de identificación de temática. – Finalmente, proponemos una metodología para la adaptación dinámica de un modelo de lenguaje general. El proceso de adaptación tiene en cuenta no sólo al modelo dependiente del contexto sino también a la información entregada por el proceso de identificación de temática. El esquema usado para la adaptación es una interpolación lineal entre el modelo general y el modelo dependiente de contexto. Estudiamos también diferentes enfoques para determinar los pesos de interpolación entre ambos modelos. Una vez definida la base teórica de nuestro marco de contextualización, proponemos su aplicación dentro de un sistema automático de reconocimiento de voz. Para esto, nos enfocamos en dos aspectos: la contextualización de los modelos de lenguaje empleados por el sistema y la incorporación de información semántica en el proceso de adaptación basado en temática. En esta Tesis proponemos un marco experimental basado en una arquitectura de reconocimiento en ‘dos etapas’. En la primera etapa, empleamos sistemas basados en técnicas de recuperación de información y aprendizaje de máquina para identificar las temáticas sobre las cuales se habla en una transcripción de un segmento de audio. Esta transcripción es generada por el sistema de reconocimiento empleando un modelo de lenguaje general. De acuerdo con la relevancia de las temáticas que han sido identificadas, se lleva a cabo la adaptación dinámica del modelo de lenguaje. En la segunda etapa de la arquitectura de reconocimiento, usamos este modelo adaptado para realizar de nuevo el reconocimiento del segmento de audio. Para determinar los beneficios del marco de trabajo propuesto, llevamos a cabo la evaluación de cada uno de los sistemas principales previamente mencionados. Esta evaluación es realizada sobre discursos en el dominio de la política usando la base de datos EPPS (European Parliamentary Plenary Sessions - Sesiones Plenarias del Parlamento Europeo) del proyecto europeo TC-STAR. Analizamos distintas métricas acerca del rendimiento de los sistemas y evaluamos las mejoras propuestas con respecto a los sistemas de referencia. ABSTRACT The last decade has witnessed major advances in speech recognition technology. Today’s commercial systems are able to recognize continuous speech from numerous speakers, with acceptable levels of error and without the need for an explicit adaptation procedure. Despite this progress, speech recognition is far from being a solved problem. Most of these systems are adjusted to a particular domain and their efficacy depends significantly, among many other aspects, on the similarity between the language model used and the task that is being addressed. This dependence is even more important in scenarios where the statistical properties of the language fluctuates throughout the time, for example, in application domains involving spontaneous and multitopic speech. Over the last years there has been an increasing effort in enhancing the speech recognition systems for such domains. This has been done, among other approaches, by means of techniques of automatic adaptation. These techniques are applied to the existing systems, specially since exporting the system to a new task or domain may be both time-consuming and expensive. Adaptation techniques require additional sources of information, and the spoken language could provide some of them. It must be considered that speech not only conveys a message, it also provides information on the context in which the spoken communication takes place (e.g. on the subject on which it is being talked about). Therefore, when we communicate through speech, it could be feasible to identify the elements of the language that characterize the context, and at the same time, to track the changes that occur in those elements over time. This information can be extracted and exploited through techniques of information retrieval and machine learning. This allows us, within the development of more robust speech recognition systems, to enhance the adaptation of language models to the conditions of the context, thus strengthening the recognition system for domains under changing conditions (such as potential variations in vocabulary, style and topic). In this sense, the main contribution of this Thesis is the proposal and evaluation of a framework of topic-motivated contextualization based on the dynamic and non-supervised adaptation of language models for the enhancement of an automatic speech recognition system. This adaptation is based on an combined approach (from the perspective of both information retrieval and machine learning fields) whereby we identify the topics that are being discussed in an audio recording. The topic identification, therefore, enables the system to perform an adaptation of the language model according to the contextual conditions. The proposed framework can be divided in two major systems: a topic identification system and a dynamic language model adaptation system. This Thesis can be outlined from the perspective of the particular contributions made in each of the fields that composes the proposed framework: _ Regarding the topic identification system, we have focused on the enhancement of the document preprocessing techniques in addition to contributing in the definition of more robust criteria for the selection of index-terms. – Within both information retrieval and machine learning based approaches, the efficiency of topic identification systems, depends, to a large extent, on the mechanisms of preprocessing applied to the documents. Among the many operations that encloses the preprocessing procedures, an adequate selection of index-terms is critical to establish conceptual and semantic relationships between terms and documents. This process might also be weakened by a poor choice of stopwords or lack of precision in defining stemming rules. In this regard we compare and evaluate different criteria for preprocessing the documents, as well as for improving the selection of the index-terms. This allows us to not only reduce the size of the indexing structure but also to strengthen the topic identification process. – One of the most crucial aspects, in relation to the performance of topic identification systems, is to assign different weights to different terms depending on their contribution to the content of the document. In this sense we evaluate and propose alternative approaches to traditional weighting schemes (such as tf-idf ) that allow us to improve the specificity of terms, and to better identify the topics that are related to documents. _ Regarding the dynamic language model adaptation, we divide the contextualization process into different steps. – We propose supervised and unsupervised approaches for the generation of topic-based language models. The first of them is intended to generate topic-based language models by grouping the documents, in the training set, according to the original topic labels of the corpus. Nevertheless, a goal of this Thesis is to evaluate whether or not the use of these labels to generate language models is optimal in terms of recognition accuracy. For this reason, we propose a second approach, an unsupervised one, in which the objective is to group the data in the training set into automatic topic clusters based on the semantic similarity between the documents. By means of clustering approaches we expect to obtain a more cohesive association of the documents that are related by similar concepts, thus improving the coverage of the topic-based language models and enhancing the performance of the recognition system. – We develop various strategies in order to create a context-dependent language model. Our aim is that this model reflects the semantic context of the current utterance, i.e. the most relevant topics that are being discussed. This model is generated by means of a linear interpolation between the topic-based language models related to the most relevant topics. The estimation of the interpolation weights is based mainly on the outcome of the topic identification process. – Finally, we propose a methodology for the dynamic adaptation of a background language model. The adaptation process takes into account the context-dependent model as well as the information provided by the topic identification process. The scheme used for the adaptation is a linear interpolation between the background model and the context-dependent one. We also study different approaches to determine the interpolation weights used in this adaptation scheme. Once we defined the basis of our topic-motivated contextualization framework, we propose its application into an automatic speech recognition system. We focus on two aspects: the contextualization of the language models used by the system, and the incorporation of semantic-related information into a topic-based adaptation process. To achieve this, we propose an experimental framework based in ‘a two stages’ recognition architecture. In the first stage of the architecture, Information Retrieval and Machine Learning techniques are used to identify the topics in a transcription of an audio segment. This transcription is generated by the recognition system using a background language model. According to the confidence on the topics that have been identified, the dynamic language model adaptation is carried out. In the second stage of the recognition architecture, an adapted language model is used to re-decode the utterance. To test the benefits of the proposed framework, we carry out the evaluation of each of the major systems aforementioned. The evaluation is conducted on speeches of political domain using the EPPS (European Parliamentary Plenary Sessions) database from the European TC-STAR project. We analyse several performance metrics that allow us to compare the improvements of the proposed systems against the baseline ones.
Resumo:
El propósito de este Proyecto Fin de Carrera es el estudio acústico y electroacústico de la realización del musical “Hoy no me puedo levantar” en el Teatro Rialto de Madrid en 2005. En primer lugar, se realiza una breve introducción histórica, citando sus remodelaciones y comentando la situación actual del recinto. Posteriormente, es analizado el equipo de sonido empleado en el espectáculo a partir de cada uno de los distintos controles de sonido: FOH (Front of Hause), monitores y microfonía inalámbrica. De cada uno de ellos se explican sus principales funciones y los sistemas que los conforman. También se describe la utilización de las cabinas insonorizadas. A continuación, se detallan los sistemas electroacústicos (empleados en el diseño) de la sonorización de dicho musical, que se consideran divididos en las siguientes partes: sistema principal, refuerzos y retardos, efectos y monitores. Además, se detalla el software RMS (Remote Monitoring System), que aporta información del funcionamiento de estos sistemas en tiempo real. Seguidamente, se exponen el equipo, procedimiento y resultados de la medida in situ en el Teatro, aplicando la Norma UNE-EN ISO 3382-2/2008 para obtener el tiempo de reverberación y ruido de fondo. Con el objeto de inicializar la simulación por ordenador, primero se exportan los planos originales de AutoCAD a EASE 4.4, donde se finaliza el proceso de modelar el recinto. Posteriormente, se asignan materiales, áreas de audiencia, puntos de escucha y se ubican los sistemas electroacústicos. Se afina el tiempo de reverberación obtenido en la medida in situ mediante materiales de la base de datos del propio software. También se ajustan los sistemas electroacústicos en el recinto para obtener la ecualización empleada y los niveles de presión sonora directo y total para distintas frecuencias. Una vez finalizados los pasos anteriores, se procede a realizar estudios psicoacústicos para comprobar posibles ecos y el efecto precedencia (empleando retardos electrónicos o delays). Finalmente, se realizan estudios de inteligibilidad, en los que se justifica la Claridad de Voz (C50) y Claridad Musical (C80); el Índice de inteligibilidad del habla (SII), la Pérdida de articulación de consonantes (Alcons) y el Índice de transmisión del habla (STI). Por último se expone el presupuesto del proyecto y del alquiler del equipo de sonido del musical y se exponen las conclusiones del Proyecto Final de Carrera. ABSTRACT. The purpose of this Final Degree Project is the acoustic and electro-acoustic study of the musical “Hoy No Me Puedo Levantar” at Teatro Rialto in 2005 (Madrid, Spain). First of all, a brief review of its history is made, quoting its refurbishments and discussing the current situation of this enclosure. Later, the sound equipment of the show is analyzed through every different sound controls: FOH (Front Of House), monitors and wireless microphones. There is also an explanation about their principal functions and systems, as well as a description of the soundproof cabins. Then, the electro-acoustic systems are detailed and divided in the following parts: main system, boosters and delays, effects and monitors. The RMS software (Remote Monitoring System) is described too, since it gives relevant information of the systems operations in real time. Afterwards, equipment, procedures and results of the measurements are exposed, applying the UNE-EN ISO 3382-2/2008 regulation in order to obtain the reverberation time and background noise of the theatre. With the purpose of initialize the computer simulation, original plans are exported from AutoCad to EASE 4.4., where its modeling process is ended. Materials, audience areas, hearing points and electro-acoustic locations are assigned below. At the same time, reverberation time is tuned up using database materials of the software itself. Also, electro-acoustic systems of the enclosure are adjusted to get the equalization and pressure sound levels of the different frequencies. Once previous steps are finished, psycho-acoustic studies are made to check possible echoes and the precedence effect - using electronic delays -. Finally, intelligibility studies are detailed, where the Voice and Musical Clarities are justified: The Speech Intelligibility Index, the Loss of Consonants Articulation and the Talk Transmission Index. This Final Degree Project ends describing the budget and rent of the sound equipment and the final conclusions.
Resumo:
El Reconocimiento de Actividades Humanas es un área de investigación emergente, cuyo objetivo principal es identificar las acciones realizadas por un sujeto analizando las señales obtenidas a partir de unos sensores. El rápido crecimiento de este área de investigación dentro de la comunidad científica se explica, en parte, por el elevado número de aplicaciones que están surgiendo en los últimos años. Gran parte de las aplicaciones más prometedoras se encuentran en el campo de la salud, donde se puede hacer un seguimiento del nivel de movilidad de pacientes con trastornos motores, así como monitorizar el nivel de actividad física en pacientes con riesgo cardiovascular. Hasta hace unos años, mediante el uso de distintos tipos de sensores se podía hacer un seguimiento del paciente. Sin embargo, lejos de ser una solución a largo plazo y gracias a la irrupción del teléfono inteligente, este seguimiento se puede hacer de una manera menos invasiva, haciendo uso de la gran variedad de sensores integrados en este tipo de dispositivos. En este contexto nace este Trabajo de Fin de Grado, cuyo principal objetivo es evaluar nuevas técnicas de extracción de características para llevar a cabo un reconocimiento de actividades y usuarios así como una segmentación de aquellas. Este reconocimiento se hace posible mediante la integración de señales inerciales obtenidas por dos sensores presentes en la gran mayoría de teléfonos inteligentes: acelerómetro y giróscopo. Concretamente, se evalúan seis tipos de actividades realizadas por treinta usuarios: andar, subir escaleras, bajar escaleras, estar sentado, estar de pie y estar tumbado. Además y de forma paralela, se realiza una segmentación temporal de los distintos tipos de actividades realizadas por dichos usuarios. Todo ello se llevará a cabo haciendo uso de los Modelos Ocultos de Markov, así como de un conjunto de herramientas probadas satisfactoriamente en reconocimiento del habla: HTK (Hidden Markov Model Toolkit).
Resumo:
Como enfoque global, se ha considerado que en la realización del lenguaje cooperan simultáneamente distintos órganos del cuerpo con sus correspondientes funciones; por tanto, el lenguaje es objeto de análisis desde diversas áreas científicas. Lo que nos ha inducido a abordar en nuestro trabajo algunos detalles significativos de distintos ámbitos de estudio. El objetivo principal ha sido analizar por qué la lectura de las noticias, en los medios audiovisuales, difieren ostensiblemente del lenguaje natural. Esa diferencia es percibida no sólo por la extraña entonación y segmentación errada de unidades fonológicas o sintácticas o por la acentuación impropia de palabras átonas, sino también por las diferentes características en los parámetros de la fonación. Para ello era preciso conocer los más importantes mecanismos del lenguaje espontáneo y, a partir de ese conocimiento, examinar qué elementos sufren alteración o desaparecen en el acto de la lectura con respecto al habla natural. La lectura es un acto en el que no intervienen los mecanismos biológicos innatos del ser humano, habitualmente presentes en el habla. En el habla, el pensamiento genera la palabra. Sin embargo, en la lectura, la palabra está ya escrita y por tanto no hay un proceso simultaneo con el pensamiento. Además, el mensaje que recibe el lector a través del grafismo y de los formatos en que se inscriben, constituye un elemento diferenciador del proceso natural. Los indicadores que recibe el lector son: elemento plano del papel y elemento lineal sin curvas de la escritura; formas que se transmiten instintivamente en la fonación. Y aunque en la lectura intervienen los órganos de fonación, no así otros muchos componentes de la movilidad corporal del habla como los brazos, las manos y los músculos del rostro, que son los que dirigen el sentido de la entonación y del ritmo...
Resumo:
En este trabajo proponemos un algoritmo para la resolución de las descripciones definidas en español a través de la estructura del diálogo, mediante la definición de un espacio de accesibilidad anafórico. Este algoritmo está basado en la hipótesis de que la resolución de la anáfora está relacionada con la estructura del diálogo. Así, la resolución de la anáfora mejora si se especifica un espacio de accesibilidad para cada tipo descripción definida según la estructura del diálogo. La utilización de este espacio de accesibilidad anafóico reduce tanto el tiempo de procesamiento como la posibilidad de obtener un antecedente erróneo. Además, la definición de este espacio de accesibilidad depende únicamente de la propia estructura textual del diálogo.
Resumo:
Fil: Piatti, Guillermina Inés. Universidad Nacional de La Plata. Facultad de Humanidades y Ciencias de la Educación; Argentina.
Resumo:
Esta investigación analiza el uso del sufijo diminutivo en un corpus oral de jóvenes de la República Dominicana. El material procede de la transcripción de veinte entrevistas orales realizadas en los años noventa en Santo Domingo. En este estudio se realiza un análisis de las ocurrencias documentadas, su morfología, sus preferencias en cuanto a la selección de las clases de palabras que se toman como base para la formación de diminutivos, sus posibles valores semánticos y comunicativos, y, por último, se determina la frecuencia de uso del diminutivo en función del sexo de los hablantes.