1000 resultados para voz pasiva
Resumo:
Este trabajo de Tesis ha abordado el objetivo de dar robustez y mejorar la Detección de Actividad de Voz en entornos acústicos adversos con el fin de favorecer el comportamiento de muchas aplicaciones vocales, por ejemplo aplicaciones de telefonía basadas en reconocimiento automático de voz, aplicaciones en sistemas de transcripción automática, aplicaciones en sistemas multicanal, etc. En especial, aunque se han tenido en cuenta todos los tipos de ruido, se muestra especial interés en el estudio de las voces de fondo, principal fuente de error de la mayoría de los Detectores de Actividad en la actualidad. Las tareas llevadas a cabo poseen como punto de partida un Detector de Actividad basado en Modelos Ocultos de Markov, cuyo vector de características contiene dos componentes: la energía normalizada y la variación de la energía. Las aportaciones fundamentales de esta Tesis son las siguientes: 1) ampliación del vector de características de partida dotándole así de información espectral, 2) ajuste de los Modelos Ocultos de Markov al entorno y estudio de diferentes topologías y, finalmente, 3) estudio e inclusión de nuevas características, distintas de las del punto 1, para filtrar los pulsos de pronunciaciones que proceden de las voces de fondo. Los resultados de detección, teniendo en cuenta los tres puntos anteriores, muestran con creces los avances realizados y son significativamente mejores que los resultados obtenidos, bajo las mismas condiciones, con otros detectores de actividad de referencia. This work has been focused on improving the robustness at Voice Activity Detection in adverse acoustic environments in order to enhance the behavior of many vocal applications, for example telephony applications based on automatic speech recognition, automatic transcription applications, multichannel systems applications, and so on. In particular, though all types of noise have taken into account, this research has special interest in the study of pronunciations coming from far-field speakers, the main error source of most activity detectors today. The tasks carried out have, as starting point, a Hidden Markov Models Voice Activity Detector which a feature vector containing two components: normalized energy and delta energy. The key points of this Thesis are the following: 1) feature vector extension providing spectral information, 2) Hidden Markov Models adjustment to environment and study of different Hidden Markov Model topologies and, finally, 3) study and inclusion of new features, different from point 1, to reject the pronunciations coming from far-field speakers. Detection results, taking into account the above three points, show the advantages of using this method and are significantly better than the results obtained under the same conditions by other well-known voice activity detectors.
Resumo:
A partir de un simulador de vocales denominado Vox, programado en MATLAB, desarrollado originalmente en la Universidad Técnica de Aquisgrán por Malte Kob [1] y mejorado en el Departamento de ICS de la EUITT [2], se pueden generar voces sintéticas. La principal limitación del simulador es que sólo puede generar vocales sintéticas, además la simulación se realiza a partir de parámetros anatómicos y fisiológicos fijos. La estructura actual del programa dificulta la modificación rápida de cualquiera de los parámetros básicos de la misma, circunstancia que podría mejorar mediante una interfaz gráfica. El proyecto consistirá, por un lado, en completar el simulador haciendo posible también la síntesis a partir de los parámetros anatómicos de hombres, mujeres y niños; y por otro, en el diseño e implementación de una interfaz gráfica de usuario que nos permita seleccionar los diferentes parámetros físicos para la simulación y recoger los resultados de la misma de manera más sencilla. Starting from a vowels simulator called Vox, programmed in MATLAB, originally developed in the Technical college of Aquisgrán by Malte Kob [1] and improved in the ICS Department of the EUITT [2], with this programme you can generate synthetic voices. The main limitation of the simulator is that it only can generate synthetic vowels; moreover the simulation is made from anatomical and physiological fixed parameters. The current structure of the programme complicates the quick modification of any of the basic parameters of it, circumstance that could be improved through a graphic interface. On the one hand, the project consists in completing the simulator doing the synthesis possible, from the anatomical woman, men and children parameters; on the other hand, the design and implementation of a graphic user interface, that allow us to select different physical parameters to the simulation and gather the results of it in a simple way.
Resumo:
El presente proyecto tiene el objetivo de facilitar la composición de canciones mediante la creación de las distintas pistas MIDI que la forman. Se implementan dos controladores. El primero, con objeto de transcribir la parte melódica, convierte la voz cantada o tarareada a eventos MIDI. Para ello, y tras el estudio de las distintas técnicas del cálculo del tono (pitch), se implementará una técnica con ciertas variaciones basada en la autocorrelación. También se profundiza en el segmentado de eventos, en particular, una técnica basada en el análisis de la derivada de la envolvente. El segundo, dedicado a la base rítmica de la canción, permite la creación de la percusión mediante el golpe rítmico de objetos que disponga el usuario, que serán asignados a los distintos elementos de percusión elegidos. Los resultados de la grabación de estos impactos serán señales de corta duración, no lineales y no armónicas, dificultando su discriminación. La herramienta elegida para la clasificación de los distintos patrones serán las redes neuronales artificiales (RNA). Se realizara un estudio de la metodología de diseño de redes neuronales especifico para este tipo de señales, evaluando la importancia de las variables de diseño como son el número de capas ocultas y neuronas en cada una de ellas, algoritmo de entrenamiento y funciones de activación. El estudio concluirá con la implementación de dos redes de diferente naturaleza. Una red de Elman, cuyas propiedades de memoria permiten la clasificación de patrones temporales, procesará las cualidades temporales analizando el ataque de su forma de onda. Una red de propagación hacia adelante feed-forward, que necesitará de robustas características espectrales y temporales para su clasificación. Se proponen 26 descriptores como los derivados de los momentos del espectro: centroide, curtosis y simetría, los coeficientes cepstrales de la escala de Mel (MFCCs), y algunos temporales como son la tasa de cruces por cero y el centroide de la envolvente temporal. Las capacidades de discriminación inter e intra clase de estas características serán evaluadas mediante un algoritmo de selección, habiéndose elegido RELIEF, un método basado en el algoritmo de los k vecinos mas próximos (KNN). Ambos controladores tendrán función de trabajar en tiempo real y offline, permitiendo tanto la composición de canciones, como su utilización como un instrumento más junto con mas músicos. ABSTRACT. The aim of this project is to make song composition easier by creating each MIDI track that builds it. Two controllers are implemented. In order to transcribe the melody, the first controler converts singing voice or humming into MIDI files. To do this a technique based on autocorrelation is implemented after having studied different pitch detection methods. Event segmentation has also been dealt with, to be more precise a technique based on the analysis of the signal's envelope and it's derivative have been used. The second one, can be used to make the song's rhythm . It allows the user, to create percussive patterns by hitting different objects of his environment. These recordings results in short duration, non-linear and non-harmonic signals. Which makes the classification process more complicated in the traditional way. The tools to used are the artificial neural networks (ANN). We will study the neural network design to deal with this kind of signals. The goal is to get a design methodology, paying attention to the variables involved, as the number of hidden layers and neurons in each, transfer functions and training algorithm. The study will end implementing two neural networks with different nature. Elman network, which has memory properties, is capable to recognize sequences of data and analyse the impact's waveform, precisely, the attack portion. A feed-forward network, needs strong spectral and temporal features extracted from the hit. Some descriptors are proposed as the derivates from the spectrum moment as centroid, kurtosis and skewness, the Mel-frequency cepstral coefficients, and some temporal features as the zero crossing rate (zcr) and the temporal envelope's centroid. Intra and inter class discrimination abilities of those descriptors will be weighted using the selection algorithm RELIEF, a Knn (K-nearest neighbor) based algorithm. Both MIDI controllers can be used to compose, or play with other musicians as it works on real-time and offline.
Resumo:
Error tip. en el nombre del imp., aparece Ramon, y es Benito
Resumo:
La aparición de los smartphones, trajo consigo el desarrollo de aplicaciones móviles de mensajería instantánea. Estas aplicaciones aprovechan la infraestructura de las redes de datos para enviar los mensajes de unos dispositivos a otros, lo que supone la posibilidad de enviar mensajes ilimitados a bajo coste. Hoy en día lo inusual es ver a alguna persona que haga uso de los antiguos mensajes de texto o sms (Short Message Service), que además llevan el coste de comunicación definido por las distintas operadoras. Tanto ha sido su auge que se ha convertido en uno de los principales medios de comunicación tanto en el ámbito personal como empresarial. Desafortunadamente, cada vez son más los conductores que hacen uso de las aplicaciones de mensajería para enviar y recibir mensajes mientras conducen, a pesar de que su uso está totalmente prohibido y penado por la ley. Por este motivo, en este proyecto se propone la modificación de la aplicación de mensajería Telegram, que permite controlar el env´ıo y recepción de mensajes únicamente utilizando la voz, evitando así cualquier tipo de distracci´on ocasionada por la interacción táctil con el dispositivo. Esta idea propuesta en el proyecto puede ayudar a reducir el número de accidentes ocasionados por este tipo de distracciones al volante, así como las posibles multas e incidentes que pueda ocasionar el uso del móvil durante la conducción. ---ABSTRACT---The emergence of smartphones, fostered the development of mobile instant messaging applications. These applications take advantage of the infrastructure of data networks to send messages between devices with almost no additional cost attached to it. Today you will hardly be able to find a person who makes use of the old text messages or sms (Short Message Service), and therefore bears the cost of communication defined by the respective operators. This boom has been such that it has become one of the main communication methods or channels in both the personal and work environments. Unfortunately, more and more drivers use messaging applications to send and receive messages while they are driving, even though its use is strictly prohibited and punished by law. Therefore our objective is to modify the existing messaging application Telegram allowing interaction with the mobile device by only using the user’s voice to send and receive messages, avoiding any distractions that any tactile interaction with the device could cause. The aim is to significantly try to reduce accidents caused while driving, as well as to avoid any related potential fines and incidents that may result from use of mobile phone while driving.