167 resultados para prosody


Relevância:

10.00% 10.00%

Publicador:

Resumo:

Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Speech is typically a multimodal phenomenon, yet few studies have focused on the exclusive contributions of visual cues to language acquisition. To address this gap, we investigated whether visual prosodic information can facilitate speech segmentation. Previous research has demonstrated that language learners can use lexical stress and pitch cues to segment speech and that learners can extract this information from talking faces. Thus, we created an artificial speech stream that contained minimal segmentation cues and paired it with two synchronous facial displays in which visual prosody was either informative or uninformative for identifying word boundaries. Across three familiarisation conditions (audio stream alone, facial streams alone, and paired audiovisual), learning occurred only when the facial displays were informative to word boundaries, suggesting that facial cues can help learners solve the early challenges of language acquisition.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Experience shows that in teaching the pronunciation of a foreign language, it is the native syllable stereotype that resists correction most strongly. This is because the syllable is the basic unit of the perception and production of speech, and syllabic production is highly automatic and to some degree determines the prosody of speech at all levels: accent, rhythm, phrase, etc. The results of psycho-physiological studies show that the human acoustic analyser is a typical contemplator organ and new acoustic qualities are perceived through their inclusion into the already existing system of values characteristic to the mother tongue. This results in the adaptation of the perception and so production of foreign speech to native patterns. The less conscious the perception of the unit and the more 'primitive' its status, the greater the degree of its auditory assimilation, and the syllable is certainly among the less controllable linguistic units. The group carried out a complex investigation of the French and Russian languages at the level of syllable realisation, focusing on the stressed syllable of both open and closed types. The useful acoustic characteristics of the French/Russian syllable pattern were determined through identifying a typical syllable pattern within the system of each of the two languages, comparing these patterns to establish their contrasting features, and observing and systematising deviations from the pattern typical of the French/Russian language teaching situation. The components of the syllable pattern shown to need particular attention in teaching French pronunciation to Russian native speakers were intensity, fundamental frequency, and duration. The group then developed a method of correction which combines the auditory and visual canals of sound signal perception and tested this method with groups of Russian students of different levels.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A pesar de la ausencia de hablantes nativos, el griego cuenta con fuentes secundarias que permiten estudiar su estructura prosódica. En este artículo combino el estudio del orden de palabras y de la métrica de los trímetros yámbicos con el objetivo de ver cuál es la relación entre el verbo y el segundo argumento en términos de posición en la oración y de prosodia. Se mostrará que hay una tendencia a que el segundo argumento aparezca junto al verbo y a que formen parte de una única unidad prosódica. La tendencia es mayor con pronombres personales que con sintagmas nominales, que pueden aparecer separados si son complejos y extensos.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La observación de que el verbo griego femí se comporta como un marcador de cambio de fase en el diálogo incluido en el decurso narrativo de una muestra de textos del período clásico permite elaborar la tesis de que el término funciona como signo de deslinde en esa esfera de la estructura del lenguaje

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La observación de que el verbo griego femí se comporta como un marcador de cambio de fase en el diálogo incluido en el decurso narrativo de una muestra de textos del período clásico permite elaborar la tesis de que el término funciona como signo de deslinde en esa esfera de la estructura del lenguaje

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La observación de que el verbo griego femí se comporta como un marcador de cambio de fase en el diálogo incluido en el decurso narrativo de una muestra de textos del período clásico permite elaborar la tesis de que el término funciona como signo de deslinde en esa esfera de la estructura del lenguaje

Relevância:

10.00% 10.00%

Publicador:

Resumo:

It is easy to get frustrated at spoken conversational agents (SCAs), perhaps because they seem to be callous. By and large, the quality of human-computer interaction is affected due to the inability of the SCAs to recognise and adapt to user emotional state. Now with the mass appeal of artificially-mediated communication, there has been an increasing need for SCAs to be socially and emotionally intelligent, that is, to infer and adapt to their human interlocutors’ emotions on the fly, in order to ascertain an affective, empathetic and naturalistic interaction. An enhanced quality of interaction would reduce users’ frustrations and consequently increase their satisfactions. These reasons have motivated the development of SCAs towards including socio-emotional elements, turning them into affective and socially-sensitive interfaces. One barrier to the creation of such interfaces has been the lack of methods for modelling emotions in a task-independent environment. Most emotion models for spoken dialog systems are task-dependent and thus cannot be used “as-is” in different applications. This Thesis focuses on improving this, in which it concerns computational modeling of emotion, personality and their interrelationship for task-independent autonomous SCAs. The generation of emotion is driven by needs, inspired by human’s motivational systems. The work in this Thesis is organised in three stages, each one with its own contribution. The first stage involved defining, integrating and quantifying the psychological-based motivational and emotional models sourced from. Later these were transformed into a computational model by implementing them into software entities. The computational model was then incorporated and put to test with an existing SCA host, a HiFi-control agent. The second stage concerned automatic prediction of affect, which has been the main challenge towards the greater aim of infusing social intelligence into the HiFi agent. In recent years, studies on affect detection from voice have moved on to using realistic, non-acted data, which is subtler. However, it is more challenging to perceive subtler emotions and this is demonstrated in tasks such as labelling and machine prediction. In this stage, we attempted to address part of this challenge by considering the roles of user satisfaction ratings and conversational/dialog features as the respective target and predictors in discriminating contentment and frustration, two types of emotions that are known to be prevalent within spoken human-computer interaction. The final stage concerned the evaluation of the emotional model through the HiFi agent. A series of user studies with 70 subjects were conducted in a real-time environment, each in a different phase and with its own conditions. All the studies involved the comparisons between the baseline non-modified and the modified agent. The findings have gone some way towards enhancing our understanding of the utility of emotion in spoken dialog systems in several ways; first, an SCA should not express its emotions blindly, albeit positive. Rather, it should adapt its emotions to user states. Second, low performance in an SCA may be compensated by the exploitation of emotion. Third, the expression of emotion through the exploitation of prosody could better improve users’ perceptions of an SCA compared to exploiting emotions through just lexical contents. Taken together, these findings not only support the success of the emotional model, but also provide substantial evidences with respect to the benefits of adding emotion in an SCA, especially in mitigating users’ frustrations and ultimately improving their satisfactions. Resumen Es relativamente fácil experimentar cierta frustración al interaccionar con agentes conversacionales (Spoken Conversational Agents, SCA), a menudo porque parecen ser un poco insensibles. En general, la calidad de la interacción persona-agente se ve en cierto modo afectada por la incapacidad de los SCAs para identificar y adaptarse al estado emocional de sus usuarios. Actualmente, y debido al creciente atractivo e interés de dichos agentes, surge la necesidad de hacer de los SCAs unos seres cada vez más sociales y emocionalmente inteligentes, es decir, con capacidad para inferir y adaptarse a las emociones de sus interlocutores humanos sobre la marcha, de modo que la interacción resulte más afectiva, empática y, en definitiva, natural. Una interacción mejorada en este sentido permitiría reducir la posible frustración de los usuarios y, en consecuencia, mejorar el nivel de satisfacción alcanzado por los mismos. Estos argumentos justifican y motivan el desarrollo de nuevos SCAs con capacidades socio-emocionales, dotados de interfaces afectivas y socialmente sensibles. Una de las barreras para la creación de tales interfaces ha sido la falta de métodos de modelado de emociones en entornos independientes de tarea. La mayoría de los modelos emocionales empleados por los sistemas de diálogo hablado actuales son dependientes de tarea y, por tanto, no pueden utilizarse "tal cual" en diferentes dominios o aplicaciones. Esta tesis se centra precisamente en la mejora de este aspecto, la definición de modelos computacionales de las emociones, la personalidad y su interrelación para SCAs autónomos e independientes de tarea. Inspirada en los sistemas motivacionales humanos en el ámbito de la psicología, la tesis propone un modelo de generación/producción de la emoción basado en necesidades. El trabajo realizado en la presente tesis está organizado en tres etapas diferenciadas, cada una con su propia contribución. La primera etapa incluyó la definición, integración y cuantificación de los modelos motivacionales de partida y de los modelos emocionales derivados a partir de éstos. Posteriormente, dichos modelos emocionales fueron plasmados en un modelo computacional mediante su implementación software. Este modelo computacional fue incorporado y probado en un SCA anfitrión ya existente, un agente con capacidad para controlar un equipo HiFi, de alta fidelidad. La segunda etapa se orientó hacia el reconocimiento automático de la emoción, aspecto que ha constituido el principal desafío en relación al objetivo mayor de infundir inteligencia social en el agente HiFi. En los últimos años, los estudios sobre reconocimiento de emociones a partir de la voz han pasado de emplear datos actuados a usar datos reales en los que la presencia u observación de emociones se produce de una manera mucho más sutil. El reconocimiento de emociones bajo estas condiciones resulta mucho más complicado y esta dificultad se pone de manifiesto en tareas tales como el etiquetado y el aprendizaje automático. En esta etapa, se abordó el problema del reconocimiento de las emociones del usuario a partir de características o métricas derivadas del propio diálogo usuario-agente. Gracias a dichas métricas, empleadas como predictores o indicadores del grado o nivel de satisfacción alcanzado por el usuario, fue posible discriminar entre satisfacción y frustración, las dos emociones prevalentes durante la interacción usuario-agente. La etapa final corresponde fundamentalmente a la evaluación del modelo emocional por medio del agente Hifi. Con ese propósito se llevó a cabo una serie de estudios con usuarios reales, 70 sujetos, interaccionando con diferentes versiones del agente Hifi en tiempo real, cada uno en una fase diferente y con sus propias características o capacidades emocionales. En particular, todos los estudios realizados han profundizado en la comparación entre una versión de referencia del agente no dotada de ningún comportamiento o característica emocional, y una versión del agente modificada convenientemente con el modelo emocional propuesto. Los resultados obtenidos nos han permitido comprender y valorar mejor la utilidad de las emociones en los sistemas de diálogo hablado. Dicha utilidad depende de varios aspectos. En primer lugar, un SCA no debe expresar sus emociones a ciegas o arbitrariamente, incluso aunque éstas sean positivas. Más bien, debe adaptar sus emociones a los diferentes estados de los usuarios. En segundo lugar, un funcionamiento relativamente pobre por parte de un SCA podría compensarse, en cierto modo, dotando al SCA de comportamiento y capacidades emocionales. En tercer lugar, aprovechar la prosodia como vehículo para expresar las emociones, de manera complementaria al empleo de mensajes con un contenido emocional específico tanto desde el punto de vista léxico como semántico, ayuda a mejorar la percepción por parte de los usuarios de un SCA. Tomados en conjunto, los resultados alcanzados no sólo confirman el éxito del modelo emocional, sino xv que constituyen además una evidencia decisiva con respecto a los beneficios de incorporar emociones en un SCA, especialmente en cuanto a reducir el nivel de frustración de los usuarios y, en última instancia, mejorar su satisfacción.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This paper predicts speech synthesis, speech recognition, and speaker recognition technology for the year 2001, and it describes the most important research problems to be solved in order to arrive at these ultimate synthesis and recognition systems. The problems for speech synthesis include natural and intelligible voice production, prosody control based on meaning, capability of controlling synthesized voice quality and choosing individual speaking style, multilingual and multidialectal synthesis, choice of application-oriented speaking styles, capability of adding emotion, and synthesis from concepts. The problems for speech recognition include robust recognition against speech variations, adaptation/normalization to variations due to environmental conditions and speakers, automatic knowledge acquisition for acoustic and linguistic modeling, spontaneous speech recognition, naturalness and ease of human-machine interaction, and recognition of emotion. The problems for speaker recognition are similar to those for speech recognition. The research topics related to all these techniques include the use of articulatory and perceptual constraints and evaluation methods for measuring the quality of technology and systems.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Cette thèse de doctorat en composition comprend deux projets de nature différente et complémentaire : (1) un projet de recherche théorique sur la communication des caractères musicaux; (2) un projet artistique s'articulant autour de la composition de trois pièces : L'homme à deux têtes - opéra de chambre, Un instant dans l'esprit de Lovecraft - pour clarinette solo, orchestre à cordes et percussions, et Balade ornithologique - pour orchestre à vents. La conception de la musique comme un moyen de communication est à l'origine de cette recherche théorique qui est motivée par un désir de compréhension des stratégies d'expressions des émotions en musique, à partir du point de vue du compositeur. Cette thèse aborde les modèles de communication, le concept de personnage virtuel et la théorie de la contagion des humeurs. Par la suite, nous détaillerons les indices acoustiques menant à la perception des caractères musicaux. Toutes ces notions sont illustrées et explorées par la composition de miniature ayant un caractère bien ciblé. Finalement, nous proposons un système d'analyse musical des caractères et des émotions qui est appliqué à l'analyse de sections des pièces composées au cours de ce projet de doctorat. Ce dernier chapitre met en lumière les stratégies utilisées pour créer un discours dramatique tout en exposant l'évocation de différents caractères musicaux.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les fichiers qui accompagnent mon document on été réalisés avec les logiciels Microsoft Word et Finale.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Includes index.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Drawing from ethnographic, empirical, and historical/cultural perspectives, we examine the extent to which visual aspects of music contribute to the communication that takes place between performers and their listeners. First, we introduce a framework for understanding how media and genres shape aural and visual experiences of music. Second, we present case studies of two performances, and describe the relation between visual and aural aspects of performance. Third, we report empirical evidence that visual aspects of performance reliably influence perceptions of musical structure (pitch related features) and affective interpretations of music. Finally, we trace new and old media trajectories of aural and visual dimensions of music, and highlight how our conceptions, perceptions and appreciation of music are intertwined with technological innovation and media deployment strategies.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Primary objective: To investigate the nature of the motor speech impairments and dysarthria that can arise subsequent to treatment for childhood mid-line cerebellar tumours (CMCT). Research design: The motor speech ability of six cases of children with CMCT was analysed using perceptual and physiological measures and compared with that of a group of non-neurologically impaired children matched for age and sex. Main outcome and results: Three of the children with CMCT were perceived to exhibit dysarthric speech, while the remaining three were judged to have normal speech. The speech disorder in three of the children with CMCT was marked by deviances in prosody, articulation and phonation. The underlying pathophysiology was linked to cerebellar damage and expressed as difficulty in co-ordinating the motor speech musculature as required for speech production. These deficits were not identified in the three non-dysarthric children with CMCT. Conclusion: Differential motor speech outcomes occur for children treated for CMCT and these are discussed within the realm of possible mechanisms responsible for these differences. The need for further investigation of the risk factors for development of motor speech impairment in children treated for CMCT is also highlighted.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

THE RIGORS OF ESTABLISHING INNATENESS and domain specificity pose challenges to adaptationist models of music evolution. In articulating a series of constraints, the authors of the target articles provide strategies for investigating the potential origins of music. We propose additional approaches for exploring theories based on exaptation. We discuss a view of music as a multimodal system of engaging with affect, enabled by capacities of symbolism and a theory of mind.