34 resultados para Voice interfaces

em Universidad Politécnica de Madrid


Relevância:

20.00% 20.00%

Publicador:

Resumo:

Several issues concerning the current use of speech interfaces are discussed and the design and development of a speech interface that enables air traffic controllers to command and control their terminals by voice is presented. A special emphasis is made in the comparison between laboratory experiments and field experiments in which a set of ergonomics-related effects are detected that cannot be observed in the controlled laboratory experiments. The paper presents both objective and subjective performance obtained in field evaluation of the system with student controllers at an air traffic control (ATC) training facility. The system exhibits high word recognition test rates (0.4% error in Spanish and 1.5% in English) and low command error (6% error in Spanish and 10.6% error in English in the field tests). Subjective impression has also been positive, encouraging future development and integration phases in the Spanish ATC terminals designed by Aeropuertos Españoles y Navegación Aérea (AENA).

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Speech Technologies can provide important benefits for the development of more usable and safe in-vehicle human-machine interactive systems (HMIs). However mainly due robustness issues, the use of spoken interaction can entail important distractions to the driver. In this challenging scenario, while speech technologies are evolving, further research is necessary to explore how they can be complemented with both other modalities (multimodality) and information from the increasing number of available sensors (context-awareness). The perceived quality of speech technologies can significantly be increased by implementing such policies, which simply try to make the best use of all the available resources; and the in vehicle scenario is an excellent test-bed for this kind of initiatives. In this contribution we propose an event-based HMI design framework which combines context modelling and multimodal interaction using a W3C XML language known as SCXML. SCXML provides a general process control mechanism that is being considered by W3C to improve both voice interaction (VoiceXML) and multimodal interaction (MMI). In our approach we try to anticipate and extend these initiatives presenting a flexible SCXML-based approach for the design of a wide range of multimodal context-aware HMI in-vehicle interfaces. The proposed framework for HMI design and specification has been implemented in an automotive OSGi service platform, and it is being used and tested in the Spanish research project MARTA for the development of several in-vehicle interactive applications.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Facilitating general access to data from sensor networks (including traffic, hydrology and other domains) increases their utility. In this paper we argue that the journalistic metaphor can be effectively used to automatically generate multimedia presentations that help non-expert users analyze and understand sensor data. The journalistic layout and style are familiar to most users. Furthermore, the journalistic approach of ordering information from most general to most specific helps users obtain a high-level understanding while providing them the freedom to choose the depth of analysis to which they want to go. We describe the general characteristics and architectural requirements for an interactive intelligent user interface for exploring sensor data that uses the journalistic metaphor. We also describe our experience in developing this interface in real-world domains (e.g., hydrology).

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Improving patient self-management can have a greater impact than improving any clinical treatment (WHO). We propose here a systematic and comprehensive user centered design approach for delivering a technological platform for diabetes disease management. The system was developed under the METABO research project framework, involving patients from 3 different clinical centers in Parma, Modena and Madrid.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This paper describes a novel architecture to introduce automatic annotation and processing of semantic sensor data within context-aware applications. Based on the well-known state-charts technologies, and represented using W3C SCXML language combined with Semantic Web technologies, our architecture is able to provide enriched higher-level semantic representations of user’s context. This capability to detect and model relevant user situations allows a seamless modeling of the actual interaction situation, which can be integrated during the design of multimodal user interfaces (also based on SCXML) for them to be adequately adapted. Therefore, the final result of this contribution can be described as a flexible context-aware SCXML-based architecture, suitable for both designing a wide range of multimodal context-aware user interfaces, and implementing the automatic enrichment of sensor data, making it available to the entire Semantic Sensor Web

Relevância:

20.00% 20.00%

Publicador:

Resumo:

El proyecto se encuadra en el ámbito de la generación automática de interfaces de usuario, orientados a entornos web y con contenido multimedia, por otro lado dicha generación de interfaces, encaja en la disciplina de simulación del periodismo de datos, concretamente en el área de presentación y difusión. Sobre la generación automática de interfaces de usuario, en este proyecto se considera un tipo de interfaz de usuario a modo de periódico virtual, que permita al usuario visualizar de forma clara la información de diferentes noticias y permita la interacción entre los diferentes elementos de dicha presentación. Dicho interfaz de usuario se diseña usando la metáfora periodística, es decir, con un esquema de organización similar al del periódico clásico, para así facilitar la comprensión de las noticias, gracias a un interfaz sencillo y claro. OBJETIVOS El objetivo principal de este proyecto consiste en dar solución a la problemática de generar presentaciones multimedia de manera automática. Dichas presentaciones deben mostrar de una manera clara y sencilla la información a partir de planes de presentación de noticias y un sistema de base de datos. Para dicho fin se pretende desarrollar una herramienta, que genere presentaciones, a modo de periódico virtual. Las presentaciones de las noticias permiten al usuario interactuar de manera directa con los diferentes elementos de la presentación, ya sean texto, imágenes, animaciones, gráficos, mapas, etc. lo que facilita la comprensión de la información que se quiere ofrecer al usuario. De manera más detallada se presentan los objetivos concretos para el desarrollo del presente proyecto fin de carrera: • Análisis del problema. Se realiza un estudio de la problemática que se pretende solucionar con el sistema. Se revisan las técnicas y estado de la técnica en el campo Generador de interfaces de usuario como periódicos gráficos interactivos 4 de la generación automática de interfaces de usuario y su adaptación para ofrecer la difusión de la información a través de internet mediante aplicaciones web. Se identifica y estudia el contexto del sistema, el cual se orienta a la simulación del periodismo de datos. • Diseño del sistema. Se pretende diseñar un sistema informático completo, desde la capa de datos hasta la capa de presentación, que cumpla con los objetivos o requisitos propuestos. El diseño es general dado que un objetivo es permitir que el sistema pueda operar en dominios de naturaleza variada. • Implementación. Se aborda la fase de implementación con el objetivo de realizar un código modular, que sea fácil de mantener y aumentar, ya que esta herramienta pretende ofrecer servicio a diferentes sistemas de dominios variados y por lo tanto pueden surgir nuevas necesidades según el ámbito donde opere. Otro objetivo en esta parte del desarrollo, es que el sistema sea eficiente y capaz de manejar grandes volúmenes de datos así como realizar una adecuada generación automática de la presentación multimedia con texto y gráficos. • Validación. Para verificar el buen funcionamiento del sistema se desarrollan pruebas específicas que prueban las funcionalidades del sistema de manera unitaria. Para probar la generalidad del sistema se plantean diversos ejemplos de noticias en diferentes escenarios o dominios de datos, lo que nos permite comprobar la versatilidad del sistema. Para probar la robustez y solidez del sistema se pretende introducir este generador de interfaces de usuario dentro de un sistema generador automático de noticias de información hidrológica en tiempo real. El sistema generador de interfaces de usuario debe recoger cada plan de noticia, realizar automáticamente la presentación de cada noticia y organizar toda la colección de dichas noticias en un periódico virtual adaptado a las noticias que va a presentar. ORGANIZACIÓN DE LA MEMORIA La memoria se estructura de la siguiente manera; en primer lugar se presenta el estado de la técnica, con los avances y últimos desarrollos en la temática de la generación automática de interfaces de usuario, las aplicaciones web como solución de interfaz de usuario y de difusión a través de internet y los avances en simulación de periodismo dirigido por datos. Seguidamente se presenta la descripción del software, con una explicación de las diferentes fases del proceso de desarrollo software, como análisis, diseño e implementación, así como la ubicación que ocupa este sistema en un sistema de simulación de periodismo de datos. En esta parte se muestran los detalles concretos a tecnologías, lenguajes y bibliotecas utilizadas. En el siguiente capítulo se trata la validación del producto, se detallan las características del sistema automático de información hidrológica (SAIH), con el cual se ha podido probar completamente el sistema de generación automática de interfaces de usuario. Seguidamente se detallan las conclusiones a las que se ha llegado después de la realización de este proyecto, haciendo un repaso de los objetivos planteados así como las líneas futuras sobre estas técnicas. Por último se adjunta el manual de usuario de la herramienta y una colección de ejemplos mostrando las entradas y salidas procesadas por el software.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Voice biometry is classically based on the parameterization and patterning of speech features mainly. The present approach is based on the characterization of phonation features instead (glottal features). The intention is to reduce intra-speaker variability due to the `text'. Through the study of larynx biomechanics it may be seen that the glottal correlates constitute a family of 2-nd order gaussian wavelets. The methodology relies in the extraction of glottal correlates (the glottal source) which are parameterized using wavelet techniques. Classification and pattern matching was carried out using Gaussian Mixture Models. Data of speakers from a balanced database and NIST SRE HASR2 were used in verification experiments. Preliminary results are given and discussed.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The dramatic impact of neurological degenerative pathologies in life quality is a growing concern. It is well known that many neurological diseases leave a fingerprint in voice and speech production. Many techniques have been designed for the detection, diagnose and monitoring the neurological disease. Most of them are costly or difficult to extend to primary attention medical services. Through the present paper it will be shown how some neurological diseases can be traced at the level of phonation. The detection procedure would be based on a simple voice test. The availability of advanced tools and methodologies to monitor the organic pathology of voice would facilitate the implantation of these tests. The paper hypothesizes that some of the underlying mechanisms affecting the production of voice produce measurable correlates in vocal fold biomechanics. A general description of the methodological foundations for the voice analysis system which can estimate correlates to the neurological disease is shown. Some study cases will be presented to illustrate the possibilities of the methodology to monitor neurological diseases by voice

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Plant nonspecific lipid transfer proteins (nsLTPs) bind a wide variety of lipids, which allows them to perform disparate functions. Recent reports on their multifunctionality in plant growth processes have posed new questions on the versatile binding abilities of these proteins. The lack of binding specificity has been customarily explained in qualitative terms on the basis of a supposed structural flexibility and nonspecificity of hydrophobic protein-ligand interactions. We present here a computational study of protein-ligand complexes formed between five nsLTPs and seven lipids bound in two different ways in every receptor protein. After optimizing geometries inmolecular dynamics calculations, we computed Poisson- Boltzmann electrostatic potentials, solvation energies, properties of the protein-ligand interfaces, and estimates of binding free energies of the resulting complexes. Our results provide the first quantitative information on the ligand abilities of nsLTPs, shed new light into protein-lipid interactions, and reveal new features which supplement commonly held assumptions on their lack of binding specificity.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

It is easy to get frustrated at spoken conversational agents (SCAs), perhaps because they seem to be callous. By and large, the quality of human-computer interaction is affected due to the inability of the SCAs to recognise and adapt to user emotional state. Now with the mass appeal of artificially-mediated communication, there has been an increasing need for SCAs to be socially and emotionally intelligent, that is, to infer and adapt to their human interlocutors’ emotions on the fly, in order to ascertain an affective, empathetic and naturalistic interaction. An enhanced quality of interaction would reduce users’ frustrations and consequently increase their satisfactions. These reasons have motivated the development of SCAs towards including socio-emotional elements, turning them into affective and socially-sensitive interfaces. One barrier to the creation of such interfaces has been the lack of methods for modelling emotions in a task-independent environment. Most emotion models for spoken dialog systems are task-dependent and thus cannot be used “as-is” in different applications. This Thesis focuses on improving this, in which it concerns computational modeling of emotion, personality and their interrelationship for task-independent autonomous SCAs. The generation of emotion is driven by needs, inspired by human’s motivational systems. The work in this Thesis is organised in three stages, each one with its own contribution. The first stage involved defining, integrating and quantifying the psychological-based motivational and emotional models sourced from. Later these were transformed into a computational model by implementing them into software entities. The computational model was then incorporated and put to test with an existing SCA host, a HiFi-control agent. The second stage concerned automatic prediction of affect, which has been the main challenge towards the greater aim of infusing social intelligence into the HiFi agent. In recent years, studies on affect detection from voice have moved on to using realistic, non-acted data, which is subtler. However, it is more challenging to perceive subtler emotions and this is demonstrated in tasks such as labelling and machine prediction. In this stage, we attempted to address part of this challenge by considering the roles of user satisfaction ratings and conversational/dialog features as the respective target and predictors in discriminating contentment and frustration, two types of emotions that are known to be prevalent within spoken human-computer interaction. The final stage concerned the evaluation of the emotional model through the HiFi agent. A series of user studies with 70 subjects were conducted in a real-time environment, each in a different phase and with its own conditions. All the studies involved the comparisons between the baseline non-modified and the modified agent. The findings have gone some way towards enhancing our understanding of the utility of emotion in spoken dialog systems in several ways; first, an SCA should not express its emotions blindly, albeit positive. Rather, it should adapt its emotions to user states. Second, low performance in an SCA may be compensated by the exploitation of emotion. Third, the expression of emotion through the exploitation of prosody could better improve users’ perceptions of an SCA compared to exploiting emotions through just lexical contents. Taken together, these findings not only support the success of the emotional model, but also provide substantial evidences with respect to the benefits of adding emotion in an SCA, especially in mitigating users’ frustrations and ultimately improving their satisfactions. Resumen Es relativamente fácil experimentar cierta frustración al interaccionar con agentes conversacionales (Spoken Conversational Agents, SCA), a menudo porque parecen ser un poco insensibles. En general, la calidad de la interacción persona-agente se ve en cierto modo afectada por la incapacidad de los SCAs para identificar y adaptarse al estado emocional de sus usuarios. Actualmente, y debido al creciente atractivo e interés de dichos agentes, surge la necesidad de hacer de los SCAs unos seres cada vez más sociales y emocionalmente inteligentes, es decir, con capacidad para inferir y adaptarse a las emociones de sus interlocutores humanos sobre la marcha, de modo que la interacción resulte más afectiva, empática y, en definitiva, natural. Una interacción mejorada en este sentido permitiría reducir la posible frustración de los usuarios y, en consecuencia, mejorar el nivel de satisfacción alcanzado por los mismos. Estos argumentos justifican y motivan el desarrollo de nuevos SCAs con capacidades socio-emocionales, dotados de interfaces afectivas y socialmente sensibles. Una de las barreras para la creación de tales interfaces ha sido la falta de métodos de modelado de emociones en entornos independientes de tarea. La mayoría de los modelos emocionales empleados por los sistemas de diálogo hablado actuales son dependientes de tarea y, por tanto, no pueden utilizarse "tal cual" en diferentes dominios o aplicaciones. Esta tesis se centra precisamente en la mejora de este aspecto, la definición de modelos computacionales de las emociones, la personalidad y su interrelación para SCAs autónomos e independientes de tarea. Inspirada en los sistemas motivacionales humanos en el ámbito de la psicología, la tesis propone un modelo de generación/producción de la emoción basado en necesidades. El trabajo realizado en la presente tesis está organizado en tres etapas diferenciadas, cada una con su propia contribución. La primera etapa incluyó la definición, integración y cuantificación de los modelos motivacionales de partida y de los modelos emocionales derivados a partir de éstos. Posteriormente, dichos modelos emocionales fueron plasmados en un modelo computacional mediante su implementación software. Este modelo computacional fue incorporado y probado en un SCA anfitrión ya existente, un agente con capacidad para controlar un equipo HiFi, de alta fidelidad. La segunda etapa se orientó hacia el reconocimiento automático de la emoción, aspecto que ha constituido el principal desafío en relación al objetivo mayor de infundir inteligencia social en el agente HiFi. En los últimos años, los estudios sobre reconocimiento de emociones a partir de la voz han pasado de emplear datos actuados a usar datos reales en los que la presencia u observación de emociones se produce de una manera mucho más sutil. El reconocimiento de emociones bajo estas condiciones resulta mucho más complicado y esta dificultad se pone de manifiesto en tareas tales como el etiquetado y el aprendizaje automático. En esta etapa, se abordó el problema del reconocimiento de las emociones del usuario a partir de características o métricas derivadas del propio diálogo usuario-agente. Gracias a dichas métricas, empleadas como predictores o indicadores del grado o nivel de satisfacción alcanzado por el usuario, fue posible discriminar entre satisfacción y frustración, las dos emociones prevalentes durante la interacción usuario-agente. La etapa final corresponde fundamentalmente a la evaluación del modelo emocional por medio del agente Hifi. Con ese propósito se llevó a cabo una serie de estudios con usuarios reales, 70 sujetos, interaccionando con diferentes versiones del agente Hifi en tiempo real, cada uno en una fase diferente y con sus propias características o capacidades emocionales. En particular, todos los estudios realizados han profundizado en la comparación entre una versión de referencia del agente no dotada de ningún comportamiento o característica emocional, y una versión del agente modificada convenientemente con el modelo emocional propuesto. Los resultados obtenidos nos han permitido comprender y valorar mejor la utilidad de las emociones en los sistemas de diálogo hablado. Dicha utilidad depende de varios aspectos. En primer lugar, un SCA no debe expresar sus emociones a ciegas o arbitrariamente, incluso aunque éstas sean positivas. Más bien, debe adaptar sus emociones a los diferentes estados de los usuarios. En segundo lugar, un funcionamiento relativamente pobre por parte de un SCA podría compensarse, en cierto modo, dotando al SCA de comportamiento y capacidades emocionales. En tercer lugar, aprovechar la prosodia como vehículo para expresar las emociones, de manera complementaria al empleo de mensajes con un contenido emocional específico tanto desde el punto de vista léxico como semántico, ayuda a mejorar la percepción por parte de los usuarios de un SCA. Tomados en conjunto, los resultados alcanzados no sólo confirman el éxito del modelo emocional, sino xv que constituyen además una evidencia decisiva con respecto a los beneficios de incorporar emociones en un SCA, especialmente en cuanto a reducir el nivel de frustración de los usuarios y, en última instancia, mejorar su satisfacción.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Este documento es la memoria final del trabajo de fin de Máster para optar al título de Máster en Ingeniería de Sistemas Electrónicos. El trabajo lleva por nombre “Análisis de interfaces basadas en movimientos de iris y de cabeza para personas con parálisis cerebral”. Ha sido desarrollado por el Ing. Alejandro Clemotte bajo la supervisión del Dr. Rafael Raya, Dr. Ramón Ceres y el Dr. Ricardo de Cordoba en el periodo 2011-2013. El trabajo ha sido desarrollado en las instalaciones del grupo de bioingeniería del Consejo Superior de Investigaciones Científicas (GBIO-CSIC) [1] en el marco de desarrollo del Máster en Ingeniería de Sistemas Electrónicos de la Universidad Politécnica de Madrid. Los avances tecnológicos permiten mejorar la calidad de vida de las personas. Sin embargo en ocasiones, la tecnología no se encuentra al alcance de todos los seres humanos ya que quienes padecen de limitaciones motrices, auditivas, del habla, etc., no pueden acceder a estos beneficios por la falta de interfaces adaptadas a las capacidades de estos colectivos menores. En particular el ordenador es una herramienta tecnológica que permite realizar infinitud de tareas, tanto sociales, de rehabilitación, del tipo lúdicas, etc. [2], difícilmente accesible para personas con capacidades limitadas. Es por ello importante el desarrollo de esfuerzos que permitan la construcción de herramientas de acceso universal. El trabajo realizado consiste en estudiar de forma práctica el desempeño de personas con parálisis cerebral y sin discapacidad mientras que estas realizan tareas de alcance al objetivo. Las tareas serán realizadas con dos interfaces alternativas al ordenador. Se analizaran las limitaciones técnicas de cada una de ellas mediante la definición de métricas especiales y se realizará una propuesta conceptual para la reducción de tales limitaciones, con el fin de mejorar la accesibilidad del computador para el grupo de personas con discapacidad. Calificación del tribunal: 10 con matrícula de honor

Relevância:

20.00% 20.00%

Publicador:

Resumo:

BioMet®Tools is a set of software applications developed for the biometrical characterization of voice in different fields as voice quality evaluation in laryngology, speech therapy and rehabilitation, education of the singing voice, forensic voice analysis in court, emotional detection in voice, secure access to facilities and services, etc. Initially it was conceived as plain research code to estimate the glottal source from voice and obtain the biomechanical parameters of the vocal folds from the spectral density of the estimate. This code grew to what is now the Glottex®Engine package (G®E). Further demands from users in medical and forensic fields instantiated the development of different Graphic User Interfaces (GUI’s) to encapsulate user interaction with the G®E. This required the personalized design of different GUI’s handling the same G®E. In this way development costs and time could be saved. The development model is described in detail leading to commercial production and distribution. Study cases from its application to the field of laryngology and speech therapy are given and discussed.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The area of Human-Machine Interface is growing fast due to its high importance in all technological systems. The basic idea behind designing human-machine interfaces is to enrich the communication with the technology in a natural and easy way. Gesture interfaces are a good example of transparent interfaces. Such interfaces must identify properly the action the user wants to perform, so the proper gesture recognition is of the highest importance. However, most of the systems based on gesture recognition use complex methods requiring high-resource devices. In this work, we propose to model gestures capturing their temporal properties, which significantly reduce storage requirements, and use clustering techniques, namely self-organizing maps and unsupervised genetic algorithm, for their classification. We further propose to train a certain number of algorithms with different parameters and combine their decision using majority voting in order to decrease the false positive rate. The main advantage of the approach is its simplicity, which enables the implementation using devices with limited resources, and therefore low cost. The testing results demonstrate its high potential.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The employment of nonlinear analysis techniques for automatic voice pathology detection systems has gained popularity due to the ability of such techniques for dealing with the underlying nonlinear phenomena. On this respect, characterization using nonlinear analysis typically employs the classical Correlation Dimension and the largest Lyapunov Exponent, as well as some regularity quantifiers computing the system predictability. Mostly, regularity features highly depend on a correct choosing of some parameters. One of those, the delay time �, is usually fixed to be 1. Nonetheless, it has been stated that a unity � can not avoid linear correlation of the time series and hence, may not correctly capture system nonlinearities. Therefore, present work studies the influence of the � parameter on the estimation of regularity features. Three � estimations are considered: the baseline value 1; a � based on the Average Automutual Information criterion; and � chosen from the embedding window. Testing results obtained for pathological voice suggest that an improved accuracy might be obtained by using a � value different from 1, as it accounts for the underlying nonlinearities of the voice signal.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Current text-to-speech systems are developed using studio-recorded speech in a neutral style or based on acted emotions. However, the proliferation of media sharing sites would allow developing a new generation of speech-based systems which could cope with spontaneous and styled speech. This paper proposes an architecture to deal with realistic recordings and carries out some experiments on unsupervised speaker diarization. In order to maximize the speaker purity of the clusters while keeping a high speaker coverage, the paper evaluates the F-measure of a diarization module, achieving high scores (>85%) especially when the clusters are longer than 30 seconds, even for the more spontaneous and expressive styles (such as talk shows or sports).