5 resultados para Cognition and Perception

em Universidad Politécnica de Madrid


Relevância:

100.00% 100.00%

Publicador:

Resumo:

La medida de calidad de vídeo sigue siendo necesaria para definir los criterios que caracterizan una señal que cumpla los requisitos de visionado impuestos por el usuario. Las nuevas tecnologías, como el vídeo 3D estereoscópico o formatos más allá de la alta definición, imponen nuevos criterios que deben ser analizadas para obtener la mayor satisfacción posible del usuario. Entre los problemas detectados durante el desarrollo de esta tesis doctoral se han determinado fenómenos que afectan a distintas fases de la cadena de producción audiovisual y tipo de contenido variado. En primer lugar, el proceso de generación de contenidos debe encontrarse controlado mediante parámetros que eviten que se produzca el disconfort visual y, consecuentemente, fatiga visual, especialmente en lo relativo a contenidos de 3D estereoscópico, tanto de animación como de acción real. Por otro lado, la medida de calidad relativa a la fase de compresión de vídeo emplea métricas que en ocasiones no se encuentran adaptadas a la percepción del usuario. El empleo de modelos psicovisuales y diagramas de atención visual permitirían ponderar las áreas de la imagen de manera que se preste mayor importancia a los píxeles que el usuario enfocará con mayor probabilidad. Estos dos bloques se relacionan a través de la definición del término saliencia. Saliencia es la capacidad del sistema visual para caracterizar una imagen visualizada ponderando las áreas que más atractivas resultan al ojo humano. La saliencia en generación de contenidos estereoscópicos se refiere principalmente a la profundidad simulada mediante la ilusión óptica, medida en términos de distancia del objeto virtual al ojo humano. Sin embargo, en vídeo bidimensional, la saliencia no se basa en la profundidad, sino en otros elementos adicionales, como el movimiento, el nivel de detalle, la posición de los píxeles o la aparición de caras, que serán los factores básicos que compondrán el modelo de atención visual desarrollado. Con el objetivo de detectar las características de una secuencia de vídeo estereoscópico que, con mayor probabilidad, pueden generar disconfort visual, se consultó la extensa literatura relativa a este tema y se realizaron unas pruebas subjetivas preliminares con usuarios. De esta forma, se llegó a la conclusión de que se producía disconfort en los casos en que se producía un cambio abrupto en la distribución de profundidades simuladas de la imagen, aparte de otras degradaciones como la denominada “violación de ventana”. A través de nuevas pruebas subjetivas centradas en analizar estos efectos con diferentes distribuciones de profundidades, se trataron de concretar los parámetros que definían esta imagen. Los resultados de las pruebas demuestran que los cambios abruptos en imágenes se producen en entornos con movimientos y disparidades negativas elevadas que producen interferencias en los procesos de acomodación y vergencia del ojo humano, así como una necesidad en el aumento de los tiempos de enfoque del cristalino. En la mejora de las métricas de calidad a través de modelos que se adaptan al sistema visual humano, se realizaron también pruebas subjetivas que ayudaron a determinar la importancia de cada uno de los factores a la hora de enmascarar una determinada degradación. Los resultados demuestran una ligera mejora en los resultados obtenidos al aplicar máscaras de ponderación y atención visual, los cuales aproximan los parámetros de calidad objetiva a la respuesta del ojo humano. ABSTRACT Video quality assessment is still a necessary tool for defining the criteria to characterize a signal with the viewing requirements imposed by the final user. New technologies, such as 3D stereoscopic video and formats of HD and beyond HD oblige to develop new analysis of video features for obtaining the highest user’s satisfaction. Among the problems detected during the process of this doctoral thesis, it has been determined that some phenomena affect to different phases in the audiovisual production chain, apart from the type of content. On first instance, the generation of contents process should be enough controlled through parameters that avoid the occurrence of visual discomfort in observer’s eye, and consequently, visual fatigue. It is especially necessary controlling sequences of stereoscopic 3D, with both animation and live-action contents. On the other hand, video quality assessment, related to compression processes, should be improved because some objective metrics are adapted to user’s perception. The use of psychovisual models and visual attention diagrams allow the weighting of image regions of interest, giving more importance to the areas which the user will focus most probably. These two work fields are related together through the definition of the term saliency. Saliency is the capacity of human visual system for characterizing an image, highlighting the areas which result more attractive to the human eye. Saliency in generation of 3DTV contents refers mainly to the simulated depth of the optic illusion, i.e. the distance from the virtual object to the human eye. On the other hand, saliency is not based on virtual depth, but on other features, such as motion, level of detail, position of pixels in the frame or face detection, which are the basic features that are part of the developed visual attention model, as demonstrated with tests. Extensive literature involving visual comfort assessment was looked up, and the development of new preliminary subjective assessment with users was performed, in order to detect the features that increase the probability of discomfort to occur. With this methodology, the conclusions drawn confirmed that one common source of visual discomfort was when an abrupt change of disparity happened in video transitions, apart from other degradations, such as window violation. New quality assessment was performed to quantify the distribution of disparities over different sequences. The results confirmed that abrupt changes in negative parallax environment produce accommodation-vergence mismatches derived from the increasing time for human crystalline to focus the virtual objects. On the other side, for developing metrics that adapt to human visual system, additional subjective tests were developed to determine the importance of each factor, which masks a concrete distortion. Results demonstrated slight improvement after applying visual attention to objective metrics. This process of weighing pixels approximates the quality results to human eye’s response.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La robótica ha evolucionado exponencialmente en las últimas décadas, permitiendo a los sistemas actuales realizar tareas sumamente complejas con gran precisión, fiabilidad y velocidad. Sin embargo, este desarrollo ha estado asociado a un mayor grado de especialización y particularización de las tecnologías implicadas, siendo estas muy eficientes en situaciones concretas y controladas, pero incapaces en entornos cambiantes, dinámicos y desestructurados. Por eso, el desarrollo de la robótica debe pasar por dotar a los sistemas de capacidad de adaptación a las circunstancias, de entendedimiento sobre los cambios observados y de flexibilidad a la hora de interactuar con el entorno. Estas son las caracteristicas propias de la interacción del ser humano con su entorno, las que le permiten sobrevivir y las que pueden proporcionar a un sistema inteligencia y capacidad suficientes para desenvolverse en un entorno real de forma autónoma e independiente. Esta adaptabilidad es especialmente importante en el manejo de riesgos e incetidumbres, puesto que es el mecanismo que permite contextualizar y evaluar las amenazas para proporcionar una respuesta adecuada. Así, por ejemplo, cuando una persona se mueve e interactua con su entorno, no evalúa los obstáculos en función de su posición, velocidad o dinámica (como hacen los sistemas robóticos tradicionales), sino mediante la estimación del riesgo potencial que estos elementos suponen para la persona. Esta evaluación se consigue combinando dos procesos psicofísicos del ser humano: por un lado, la percepción humana analiza los elementos relevantes del entorno, tratando de entender su naturaleza a partir de patrones de comportamiento, propiedades asociadas u otros rasgos distintivos. Por otro lado, como segundo nivel de evaluación, el entendimiento de esta naturaleza permite al ser humano conocer/estimar la relación de los elementos con él mismo, así como sus implicaciones en cuanto a nivel de riesgo se refiere. El establecimiento de estas relaciones semánticas -llamado cognición- es la única forma de definir el nivel de riesgo de manera absoluta y de generar una respuesta adecuada al mismo. No necesariamente proporcional, sino coherente con el riesgo al que se enfrenta. La investigación que presenta esta tesis describe el trabajo realizado para trasladar esta metodología de análisis y funcionamiento a la robótica. Este se ha centrado especialmente en la nevegación de los robots aéreos, diseñando e implementado procedimientos de inspiración humana para garantizar la seguridad de la misma. Para ello se han estudiado y evaluado los mecanismos de percepción, cognición y reacción humanas en relación al manejo de riesgos. También se ha analizado como los estímulos son capturados, procesados y transformados por condicionantes psicológicos, sociológicos y antropológicos de los seres humanos. Finalmente, también se ha analizado como estos factores motivan y descandenan las reacciones humanas frente a los peligros. Como resultado de este estudio, todos estos procesos, comportamientos y condicionantes de la conducta humana se han reproducido en un framework que se ha estructurado basadandose en factores análogos. Este emplea el conocimiento obtenido experimentalmente en forma de algoritmos, técnicas y estrategias, emulando el comportamiento humano en las mismas circunstancias. Diseñado, implementeado y validado tanto en simulación como con datos reales, este framework propone una manera innovadora -tanto en metodología como en procedimiento- de entender y reaccionar frente a las amenazas potenciales de una misión robótica. ABSTRACT Robotics has undergone a great revolution in the last decades. Nowadays this technology is able to perform really complex tasks with a high degree of accuracy and speed, however this is only true in precisely defined situations with fully controlled variables. Since the real world is dynamic, changing and unstructured, flexible and non context-dependent systems are required. The ability to understand situations, acknowledge changes and balance reactions is required by robots to successfully interact with their surroundings in a fully autonomous fashion. In fact, it is those very processes that define human interactions with the environment. Social relationships, driving or risk/incertitude management... in all these activities and systems, context understanding and adaptability are what allow human beings to survive: contrarily to the traditional robotics, people do not evaluate obstacles according to their position but according to the potential risk their presence imply. In this sense, human perception looks for information which goes beyond location, speed and dynamics (the usual data used in traditional obstacle avoidance systems). Specific features in the behaviour of a particular element allows the understanding of that element’s nature and therefore the comprehension of the risk posed by it. This process defines the second main difference between traditional obstacle avoidance systems and human behaviour: the ability to understand a situation/scenario allows to get to know the implications of the elements and their relationship with the observer. Establishing these semantic relationships -named cognition- is the only way to estimate the actual danger level of an element. Furthermore, only the application of this knowledge allows the generation of coherent, suitable and adjusted responses to deal with any risk faced. The research presented in this thesis summarizes the work done towards translating these human cognitive/reasoning procedures to the field of robotics. More specifically, the work done has been focused on employing human-based methodologies to enable aerial robots to navigate safely. To this effect, human perception, cognition and reaction processes concerning risk management have been experimentally studied; as well as the acquisition and processing of stimuli. How psychological, sociological and anthropological factors modify, balance and give shape to those stimuli has been researched. And finally, the way in which these factors motivate the human behaviour according to different mindsets and priorities has been established. This associative workflow has been reproduced by establishing an equivalent structure and defining similar factors and sources. Besides, all the knowledge obtained experimentally has been applied in the form of algorithms, techniques and strategies which emulate the analogous human behaviours. As a result, a framework capable of understanding and reacting in response to stimuli has been implemented and validated.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

The aim of this thesis is the subjective and objective evaluation of angledependent absorption coefficients. As the assumption of a constant absorption coefficient over the angle of incidence is not always held, a new model acknowledging an angle-dependent reflection must be considered, to get a more accurate prediction in the sound field. The study provides information about the behavior of different materials in several rooms, depending on the reflection modeling of incident sound waves. An objective evaluation was run for an implementation of angle-dependent reflection factors in the image source and ray tracing simulation models. Results obtained were analysed after comparison to diffuse-field averaged data. However, changes in acoustic characteristics of a room do not always mean a variation in the listener’s perception. Thus, additional subjective evaluation allowed a comparison between the different results obtained with the computer simulation and the response from the individuals who participated in the listening test. The listening test was designed following a three-alternative forced-choice (3AFC) paradigm. In each interaction asked to the subjects a sequence of either three pink noise bursts or three natural signals was alternated. These results were supposed to show the influence and perception of the two different ways to implement surface reflection –either with diffuse or angle-dependent absorption properties. Results show slightly audible effects when material properties were exaggerated. El objetivo de este trabajo es la evaluación objetiva y subjetiva del coeficiente de absorción en función del ángulo de incidencia de la onda de sonido. La suposición de un coeficiente de absorción constante con respecto al ángulo de incidencia no siempre se sostiene. Por ello, un nuevo modelo considerando la reflexión dependiente del ángulo se debe tener en cuenta para obtener predicciones más certeras en el campo del sonido. El estudio proporciona información sobre el comportamiento de diferentes materiales en distintos recintos, dependientes del modelo de reflexión de las ondas de sonido incidentes. Debido a las dificultades a la hora de realizar las medidas y, por lo tanto, a la falta de datos, los coeficientes de absorción dependientes del ángulo a menudo no se tienen en cuenta a la hora de realizar las simulaciones. Hoy en día, aún no hay una tendencia de aplicar el coeficiente de absorción dependiente del ángulo para mejorar los modelos de reflexión. Por otra parte, para una medición satisfactoria de la absorción dependiente del ángulo, sólo hay unos pocos métodos. Las técnicas de medición actuales llevan mucho tiempo y hay algunos materiales, condiciones y ángulos que no pueden ser reproducidos y, por lo tanto, no es posible su medición. Sin embargo, en el presente estudio, los ángulos de incidencia de las ondas de sonido son conocidos y almacenados en una de base de datos para cada uno de los materiales, de modo que los coeficientes de absorción para el ángulo dado pueden ser devueltos siempre que sean requeridos por el usuario. Para realizar el estudio se llevó a cabo una evaluación objetiva, por medio de la implementación del factor de reflexión dependiente del ángulo en los modelos de fuentes imagen y trazado de rayos. Los resultados fueron analizados después de ser comparados con el promedio de los datos obtenidos en medidas en el campo difuso. La simulación se hizo una vez se configuraron un número de materiales creados por el autor, a partir de los datos existentes en la literatura y los catálogos de fabricantes. Los modelos de Komatsu y Mechel sirvieron como referencia para los materiales porosos, configurando la resistividad al aire o el grosor, y para los paneles perforados, introduciendo el radio de los orificios y la distancia entre centros, respectivamente. Estos materiales se situaban en la pared opuesta a la que se consideraba que debía alojar a la fuente sonora. El resto de superficies se modelaban con el mismo material, variando su coeficiente de absorción y/o de dispersión. Al mismo tiempo, una serie de recintos fueron modelados para poder reproducir distintos escenarios de los que obtener los resultados. Sin embargo, los cambios en las características acústicas de un recinto no significan variaciones en la percepción por parte del oyente. Por ello, una evaluación subjetiva adicional permitió una comparación entre los diferentes resultados obtenidos mediante la simulación informática y la respuesta de los individuos que participaron en la prueba de escucha. Ésta fue diseñada bajo las pautas del modelo de test three-alternative forced-choice (3AFC), con treinta y dos preguntas diferentes. En cada iteración los sujetos fueron preguntados por una secuencia alterna entre tres señales, siendo dos de ellas iguales. Éstas podían ser tanto ráfagas de ruido rosa como señales naturales, en este test se utilizó un fragmento de una obra clásica interpretada por un piano. Antes de contestar al cuestionario, los bloques de preguntas eran ordenados al azar. Para cada ensayo, la mezcla era diferente, así los sujetos no repetían la misma prueba, evitando un sesgo por efectos de aprendizaje. Los bloques se barajaban recordando siempre el orden inicial, para después almacenar los resultados reordenados. La prueba de escucha fue realizada por veintitrés personas, toda ellas con conocimientos dentro del campo de la acústica. Antes de llevar a cabo la prueba de escucha en un entorno adecuado, una hoja con las instrucciones fue facilitada a cada persona. Los resultados muestran la influencia y percepción de las dos maneras distintas de implementar las reflexiones de una superficie –ya sea con respecto a la propiedad de difusión o de absorción dependiente del ángulo de los materiales. Los resultados objetivos, después de ejecutar las simulaciones, muestran los datos medios obtenidos para comprender el comportamiento de distintos materiales de acuerdo con el modelo de reflexión utilizado en el caso de estudio. En las tablas proporcionadas en la memoria se muestran los valores del tiempo de reverberación, la claridad y el tiempo de caída temprana. Los datos de las características del recinto obtenidos en este análisis tienen una fuerte dependencia respecto al coeficiente de absorción de los diferentes materiales que recubren las superficies del cuarto. En los resultados subjetivos, la media de percepción, a la hora de distinguir las distintas señales, por parte de los sujetos, se situó significativamente por debajo del umbral marcado por el punto de inflexión de la función psicométrica. Sin embargo, es posible concluir que la mayoría de los individuos tienden a ser capaces de detectar alguna diferencia entre los estímulos presentados en el 3AFC test. En conclusión, la hipótesis de que los valores del coeficiente de absorción dependiente del ángulo difieren es contrastada. Pero la respuesta subjetiva de los individuos muestra que únicamente hay ligeras variaciones en la percepción si el coeficiente varía en intervalos pequeños entre los valores manejados en la simulación. Además, si los parámetros de los materiales acústicos no son exagerados, los sujetos no perciben ninguna variación. Los primeros resultados obtenidos, proporcionando información respecto a la dependencia del ángulo, llevan a una nueva consideración en el campo de la acústica, y en la realización de nuevos proyectos en el futuro. Para futuras líneas de investigación, las simulaciones se deberían realizar con distintos tipos de recintos, buscando escenarios con geometrías irregulares. También, la implementación de distintos materiales para obtener resultados más certeros. Otra de las fases de los futuros proyectos puede realizarse teniendo en cuenta el coeficiente de dispersión dependiente del ángulo de incidencia de la onda de sonido. En la parte de la evaluación subjetiva, realizar una serie de pruebas de escucha con distintos individuos, incluyendo personas sin una formación relacionada con la ingeniería acústica.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

En esta Tesis se presentan dos líneas de investigación relacionadas y que contribuyen a las áreas de Interacción Hombre-Tecnología (o Máquina; siglas en inglés: HTI o HMI), lingüística computacional y evaluación de la experiencia del usuario. Las dos líneas en cuestión son el diseño y la evaluación centrada en el usuario de sistemas de Interacción Hombre-Máquina avanzados. En la primera parte de la Tesis (Capítulos 2 a 4) se abordan cuestiones fundamentales del diseño de sistemas HMI avanzados. El Capítulo 2 presenta una panorámica del estado del arte de la investigación en el ámbito de los sistemas conversacionales multimodales, con la que se enmarca el trabajo de investigación presentado en el resto de la Tesis. Los Capítulos 3 y 4 se centran en dos grandes aspectos del diseño de sistemas HMI: un gestor del diálogo generalizado para tratar la Interacción Hombre-Máquina multimodal y sensible al contexto, y el uso de agentes animados personificados (ECAs) para mejorar la robustez del diálogo, respectivamente. El Capítulo 3, sobre gestión del diálogo, aborda el tratamiento de la heterogeneidad de la información proveniente de las modalidades comunicativas y de los sensores externos. En este capítulo se propone, en un nivel de abstracción alto, una arquitectura para la gestión del diálogo con influjos heterogéneos de información, apoyándose en el uso de State Chart XML. En el Capítulo 4 se presenta una contribución a la representación interna de intenciones comunicativas, y su traducción a secuencias de gestos a ejecutar por parte de un ECA, diseñados específicamente para mejorar la robustez en situaciones de diálogo críticas que pueden surgir, por ejemplo, cuando se producen errores de entendimiento en la comunicación entre el usuario humano y la máquina. Se propone, en estas páginas, una extensión del Functional Mark-up Language definido en el marco conceptual SAIBA. Esta extensión permite representar actos comunicativos que realizan intenciones del emisor (la máquina) que no se pretende sean captadas conscientemente por el receptor (el usuario humano), pero con las que se pretende influirle a éste e influir el curso del diálogo. Esto se consigue mediante un objeto llamado Base de Intenciones Comunicativas (en inglés, Communication Intention Base, o CIB). La representación en el CIB de intenciones “no claradas” además de las explícitas permite la construcción de actos comunicativos que realizan simultáneamente varias intenciones comunicativas. En el Capítulo 4 también se describe un sistema experimental para el control remoto (simulado) de un asistente domótico, con autenticación de locutor para dar acceso, y con un ECA en el interfaz de cada una de estas tareas. Se incluye una descripción de las secuencias de comportamiento verbal y no verbal de los ECAs, que fueron diseñados específicamente para determinadas situaciones con objeto de mejorar la robustez del diálogo. Los Capítulos 5 a 7 conforman la parte de la Tesis dedicada a la evaluación. El Capítulo 5 repasa antecedentes relevantes en la literatura de tecnologías de la información en general, y de sistemas de interacción hablada en particular. Los principales antecedentes en el ámbito de la evaluación de la interacción sobre los cuales se ha desarrollado el trabajo presentado en esta Tesis son el Technology Acceptance Model (TAM), la herramienta Subjective Assessment of Speech System Interfaces (SASSI), y la Recomendación P.851 de la ITU-T. En el Capítulo 6 se describen un marco y una metodología de evaluación aplicados a la experiencia del usuario con sistemas HMI multimodales. Se desarrolló con este propósito un novedoso marco de evaluación subjetiva de la calidad de la experiencia del usuario y su relación con la aceptación por parte del mismo de la tecnología HMI (el nombre dado en inglés a este marco es Subjective Quality Evaluation Framework). En este marco se articula una estructura de clases de factores subjetivos relacionados con la satisfacción y aceptación por parte del usuario de la tecnología HMI propuesta. Esta estructura, tal y como se propone en la presente tesis, tiene dos dimensiones ortogonales. Primero se identifican tres grandes clases de parámetros relacionados con la aceptación por parte del usuario: “agradabilidad ” (likeability: aquellos que tienen que ver con la experiencia de uso, sin entrar en valoraciones de utilidad), rechazo (los cuales sólo pueden tener una valencia negativa) y percepción de utilidad. En segundo lugar, este conjunto clases se reproduce para distintos “niveles, o focos, percepción del usuario”. Éstos incluyen, como mínimo, un nivel de valoración global del sistema, niveles correspondientes a las tareas a realizar y objetivos a alcanzar, y un nivel de interfaz (en los casos propuestos en esta tesis, el interfaz es un sistema de diálogo con o sin un ECA). En el Capítulo 7 se presenta una evaluación empírica del sistema descrito en el Capítulo 4. El estudio se apoya en los mencionados antecedentes en la literatura, ampliados con parámetros para el estudio específico de los agentes animados (los ECAs), la auto-evaluación de las emociones de los usuarios, así como determinados factores de rechazo (concretamente, la preocupación por la privacidad y la seguridad). También se evalúa el marco de evaluación subjetiva de la calidad propuesto en el capítulo anterior. Los análisis de factores efectuados revelan una estructura de parámetros muy cercana conceptualmente a la división de clases en utilidad-agradabilidad-rechazo propuesta en dicho marco, resultado que da cierta validez empírica al marco. Análisis basados en regresiones lineales revelan estructuras de dependencias e interrelación entre los parámetros subjetivos y objetivos considerados. El efecto central de mediación, descrito en el Technology Acceptance Model, de la utilidad percibida sobre la relación de dependencia entre la intención de uso y la facilidad de uso percibida, se confirma en el estudio presentado en la presente Tesis. Además, se ha encontrado que esta estructura de relaciones se fortalece, en el estudio concreto presentado en estas páginas, si las variables consideradas se generalizan para cubrir más ampliamente las categorías de agradabilidad y utilidad contempladas en el marco de evaluación subjetiva de calidad. Se ha observado, asimismo, que los factores de rechazo aparecen como un componente propio en los análisis de factores, y además se distinguen por su comportamiento: moderan la relación entre la intención de uso (que es el principal indicador de la aceptación del usuario) y su predictor más fuerte, la utilidad percibida. Se presentan también resultados de menor importancia referentes a los efectos de los ECAs sobre los interfaces de los sistemas de diálogo y sobre los parámetros de percepción y las valoraciones de los usuarios que juegan un papel en conformar su aceptación de la tecnología. A pesar de que se observa un rendimiento de la interacción dialogada ligeramente mejor con ECAs, las opiniones subjetivas son muy similares entre los dos grupos experimentales (uno interactuando con un sistema de diálogo con ECA, y el otro sin ECA). Entre las pequeñas diferencias encontradas entre los dos grupos destacan las siguientes: en el grupo experimental sin ECA (es decir, con interfaz sólo de voz) se observó un efecto más directo de los problemas de diálogo (por ejemplo, errores de reconocimiento) sobre la percepción de robustez, mientras que el grupo con ECA tuvo una respuesta emocional más positiva cuando se producían problemas. Los ECAs parecen generar inicialmente expectativas más elevadas en cuanto a las capacidades del sistema, y los usuarios de este grupo se declaran más seguros de sí mismos en su interacción. Por último, se observan algunos indicios de efectos sociales de los ECAs: la “amigabilidad ” percibida los ECAs estaba correlada con un incremento la preocupación por la seguridad. Asimismo, los usuarios del sistema con ECAs tendían más a culparse a sí mismos, en lugar de culpar al sistema, de los problemas de diálogo que pudieran surgir, mientras que se observó una ligera tendencia opuesta en el caso de los usuarios del sistema con interacción sólo de voz. ABSTRACT This Thesis presents two related lines of research work contributing to the general fields of Human-Technology (or Machine) Interaction (HTI, or HMI), computational linguistics, and user experience evaluation. These two lines are the design and user-focused evaluation of advanced Human-Machine (or Technology) Interaction systems. The first part of the Thesis (Chapters 2 to 4) is centred on advanced HMI system design. Chapter 2 provides a background overview of the state of research in multimodal conversational systems. This sets the stage for the research work presented in the rest of the Thesis. Chapers 3 and 4 focus on two major aspects of HMI design in detail: a generalised dialogue manager for context-aware multimodal HMI, and embodied conversational agents (ECAs, or animated agents) to improve dialogue robustness, respectively. Chapter 3, on dialogue management, deals with how to handle information heterogeneity, both from the communication modalities or from external sensors. A highly abstracted architectural contribution based on State Chart XML is proposed. Chapter 4 presents a contribution for the internal representation of communication intentions and their translation into gestural sequences for an ECA, especially designed to improve robustness in critical dialogue situations such as when miscommunication occurs. We propose an extension of the functionality of Functional Mark-up Language, as envisaged in much of the work in the SAIBA framework. Our extension allows the representation of communication acts that carry intentions that are not for the interlocutor to know of, but which are made to influence him or her as well as the flow of the dialogue itself. This is achieved through a design element we have called the Communication Intention Base. Such r pr s ntation of “non- clar ” int ntions allows th construction of communication acts that carry several communication intentions simultaneously. Also in Chapter 4, an experimental system is described which allows (simulated) remote control to a home automation assistant, with biometric (speaker) authentication to grant access, featuring embodied conversation agents for each of the tasks. The discussion includes a description of the behavioural sequences for the ECAs, which were designed for specific dialogue situations with particular attention given to the objective of improving dialogue robustness. Chapters 5 to 7 form the evaluation part of the Thesis. Chapter 5 reviews evaluation approaches in the literature for information technologies, as well as in particular for speech-based interaction systems, that are useful precedents to the contributions of the present Thesis. The main evaluation precedents on which the work in this Thesis has built are the Technology Acceptance Model (TAM), the Subjective Assessment of Speech System Interfaces (SASSI) tool, and ITU-T Recommendation P.851. Chapter 6 presents the author’s work in establishing an valuation framework and methodology applied to the users’ experience with multimodal HMI systems. A novel user-acceptance Subjective Quality Evaluation Framework was developed by the author specifically for this purpose. A class structure arises from two orthogonal sets of dimensions. First we identify three broad classes of parameters related with user acceptance: likeability factors (those that have to do with the experience of using the system), rejection factors (which can only have a negative valence) and perception of usefulness. Secondly, the class structure is further broken down into several “user perception levels”; at the very least: an overall system-assessment level, task and goal-related levels, and an interface level (e.g., a dialogue system with or without an ECA). An empirical evaluation of the system described in Chapter 4 is presented in Chapter 7. The study was based on the abovementioned precedents in the literature, expanded with categories covering the inclusion of an ECA, the users’ s lf-assessed emotions, and particular rejection factors (privacy and security concerns). The Subjective Quality Evaluation Framework proposed in the previous chapter was also scrutinised. Factor analyses revealed an item structure very much related conceptually to the usefulness-likeability-rejection class division introduced above, thus giving it some empirical weight. Regression-based analysis revealed structures of dependencies, paths of interrelations, between the subjective and objective parameters considered. The central mediation effect, in the Technology Acceptance Model, of perceived usefulness on the dependency relationship of intention-to-use with perceived ease of use was confirmed in this study. Furthermore, the pattern of relationships was stronger for variables covering more broadly the likeability and usefulness categories in the Subjective Quality Evaluation Framework. Rejection factors were found to have a distinct presence as components in factor analyses, as well as distinct behaviour: they were found to moderate the relationship between intention-to-use (the main measure of user acceptance) and its strongest predictor, perceived usefulness. Insights of secondary importance are also given regarding the effect of ECAs on the interface of spoken dialogue systems and the dimensions of user perception and judgement attitude that may have a role in determining user acceptance of the technology. Despite observing slightly better performance values in the case of the system with the ECA, subjective opinions regarding both systems were, overall, very similar. Minor differences between two experimental groups (one interacting with an ECA, the other only through speech) include a more direct effect of dialogue problems (e.g., non-understandings) on perceived dialogue robustness for the voice-only interface test group, and a more positive emotional response for the ECA test group. Our findings further suggest that the ECA generates higher initial expectations, and users seem slightly more confident in their interaction with the ECA than do those without it. Finally, mild evidence of social effects of ECAs was also found: the perceived friendliness of the ECA increased security concerns, and ECA users may tend to blame themselves rather than the system when dialogue problems are encountered, while the opposite may be true for voice-only users.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Los sistemas técnicos son cada vez más complejos, incorporan funciones más avanzadas, están más integrados con otros sistemas y trabajan en entornos menos controlados. Todo esto supone unas condiciones más exigentes y con mayor incertidumbre para los sistemas de control, a los que además se demanda un comportamiento más autónomo y fiable. La adaptabilidad de manera autónoma es un reto para tecnologías de control actualmente. El proyecto de investigación ASys propone abordarlo trasladando la responsabilidad de la capacidad de adaptación del sistema de los ingenieros en tiempo de diseño al propio sistema en operación. Esta tesis pretende avanzar en la formulación y materialización técnica de los principios de ASys de cognición y auto-consciencia basadas en modelos y autogestión de los sistemas en tiempo de operación para una autonomía robusta. Para ello el trabajo se ha centrado en la capacidad de auto-conciencia, inspirada en los sistemas biológicos, y se ha explorado la posibilidad de integrarla en la arquitectura de los sistemas de control. Además de la auto-consciencia, se han explorado otros temas relevantes: modelado funcional, modelado de software, tecnología de los patrones, tecnología de componentes, tolerancia a fallos. Se ha analizado el estado de la técnica en los ámbitos pertinentes para las cuestiones de la auto-consciencia y la adaptabilidad en sistemas técnicos: arquitecturas cognitivas, control tolerante a fallos, y arquitecturas software dinámicas y computación autonómica. El marco teórico de ASys existente de sistemas autónomos cognitivos ha sido adaptado para servir de base para este análisis de autoconsciencia y adaptación y para dar sustento conceptual al posterior desarrollo de la solución. La tesis propone una solución general de diseño para la construcción de sistemas autónomos auto-conscientes. La idea central es la integración de un meta-controlador en la arquitectura de control del sistema autónomo, capaz de percibir la estado funcional del sistema de control y, si es necesario, reconfigurarlo en tiempo de operación. Esta solución de metacontrol se ha formalizado en cuatro patrones de diseño: i) el Patrón Metacontrol, que define la integración de un subsistema de metacontrol, responsable de controlar al propio sistema de control a través de la interfaz proporcionada por su plataforma de componentes, ii) el patrón Bucle de Control Epistémico, que define un bucle de control cognitivo basado en el modelos y que se puede aplicar al diseño del metacontrol, iii) el patrón de Reflexión basada en Modelo Profundo propone una solución para construir el modelo ejecutable utilizado por el meta-controlador mediante una transformación de modelo a modelo a partir del modelo de ingeniería del sistema, y, finalmente, iv) el Patrón Metacontrol Funcional, que estructura el meta-controlador en dos bucles, uno para el control de la configuración de los componentes del sistema de control, y otro sobre éste, controlando las funciones que realiza dicha configuración de componentes; de esta manera las consideraciones funcionales y estructurales se desacoplan. La Arquitectura OM y el metamodelo TOMASys son las piezas centrales del marco arquitectónico desarrollado para materializar la solución compuesta de los patrones anteriores. El metamodelo TOMASys ha sido desarrollado para la representación de la estructura y su relación con los requisitos funcionales de cualquier sistema autónomo. La Arquitectura OM es un patrón de referencia para la construcción de una metacontrolador integrando los patrones de diseño propuestos. Este meta-controlador se puede integrar en la arquitectura de cualquier sistema control basado en componentes. El elemento clave de su funcionamiento es un modelo TOMASys del sistema decontrol, que el meta-controlador usa para monitorizarlo y calcular las acciones de reconfiguración necesarias para adaptarlo a las circunstancias en cada momento. Un proceso de ingeniería, complementado con otros recursos, ha sido elaborado para guiar la aplicación del marco arquitectónico OM. Dicho Proceso de Ingeniería OM define la metodología a seguir para construir el subsistema de metacontrol para un sistema autónomo a partir del modelo funcional del mismo. La librería OMJava proporciona una implementación del meta-controlador OM que se puede integrar en el control de cualquier sistema autónomo, independientemente del dominio de la aplicación o de su tecnología de implementación. Para concluir, la solución completa ha sido validada con el desarrollo de un robot móvil autónomo que incorpora un meta-controlador con la Arquitectura OM. Las propiedades de auto-consciencia y adaptación proporcionadas por el meta-controlador han sido validadas en diferentes escenarios de operación del robot, en los que el sistema era capaz de sobreponerse a fallos en el sistema de control mediante reconfiguraciones orquestadas por el metacontrolador. ABSTRACT Technical systems are becoming more complex, they incorporate more advanced functionalities, they are more integrated with other systems and they are deployed in less controlled environments. All this supposes a more demanding and uncertain scenario for control systems, which are also required to be more autonomous and dependable. Autonomous adaptivity is a current challenge for extant control technologies. The ASys research project proposes to address it by moving the responsibility for adaptivity from the engineers at design time to the system at run-time. This thesis has intended to advance in the formulation and technical reification of ASys principles of model-based self-cognition and having systems self-handle at runtime for robust autonomy. For that it has focused on the biologically inspired capability of self-awareness, and explored the possibilities to embed it into the very architecture of control systems. Besides self-awareness, other themes related to the envisioned solution have been explored: functional modeling, software modeling, patterns technology, components technology, fault tolerance. The state of the art in fields relevant for the issues of self-awareness and adaptivity has been analysed: cognitive architectures, fault-tolerant control, and software architectural reflection and autonomic computing. The extant and evolving ASys Theoretical Framework for cognitive autonomous systems has been adapted to provide a basement for this selfhood-centred analysis and to conceptually support the subsequent development of our solution. The thesis proposes a general design solution for building self-aware autonomous systems. Its central idea is the integration of a metacontroller in the control architecture of the autonomous system, capable of perceiving the functional state of the control system and reconfiguring it if necessary at run-time. This metacontrol solution has been formalised into four design patterns: i) the Metacontrol Pattern, which defines the integration of a metacontrol subsystem, controlling the domain control system through an interface provided by its implementation component platform, ii) the Epistemic Control Loop pattern, which defines a modelbased cognitive control loop that can be applied to the design of such a metacontroller, iii) the Deep Model Reflection pattern proposes a solution to produce the online executable model used by the metacontroller by model-to-model transformation from the engineering model, and, finally, iv) the Functional Metacontrol pattern, which proposes to structure the metacontroller in two loops, one for controlling the configuration of components of the controller, and another one on top of the former, controlling the functions being realised by that configuration; this way the functional and structural concerns become decoupled. The OM Architecture and the TOMASys metamodel are the core pieces of the architectural framework developed to reify this patterned solution. The TOMASys metamodel has been developed for representing the structure and its relation to the functional requirements of any autonomous system. The OM architecture is a blueprint for building a metacontroller according to the patterns. This metacontroller can be integrated on top of any component-based control architecture. At the core of its operation lies a TOMASys model of the control system. An engineering process and accompanying assets have been constructed to complete and exploit the architectural framework. The OM Engineering Process defines the process to follow to develop the metacontrol subsystem from the functional model of the controller of the autonomous system. The OMJava library provides a domain and application-independent implementation of an OM Metacontroller than can be used in the implementation phase of OMEP. Finally, the complete solution has been validated in the development of an autonomous mobile robot that incorporates an OM metacontroller. The functional selfawareness and adaptivity properties achieved thanks to the metacontrol system have been validated in different scenarios. In these scenarios the robot was able to overcome failures in the control system thanks to reconfigurations performed by the metacontroller.