994 resultados para Human voice


Relevância:

60.00% 60.00%

Publicador:

Resumo:

This work investigates novel alternative means of interaction in a virtual environment (VE).We analyze whether humans can remap established body functions to learn to interact with digital information in an environment that is cross-sensory by nature and uses vocal utterances in order to influence (abstract) virtual objects. We thus establish a correlation among learning, control of the interface, and the perceived sense of presence in the VE. The application enables intuitive interaction by mapping actions (the prosodic aspects of the human voice) to a certain response (i.e., visualization). A series of single-user and multiuser studies shows that users can gain control of the intuitive interface and learn to adapt to new and previously unseen tasks in VEs. Despite the abstract nature of the presented environment, presence scores were generally very high.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

La voix humaine constitue la partie dominante de notre environnement auditif. Non seulement les humains utilisent-ils la voix pour la parole, mais ils sont tout aussi habiles pour en extraire une multitude d’informations pertinentes sur le locuteur. Cette expertise universelle pour la voix humaine se reflète dans la présence d’aires préférentielles à celle-ci le long des sillons temporaux supérieurs. À ce jour, peu de données nous informent sur la nature et le développement de cette réponse sélective à la voix. Dans le domaine visuel, une vaste littérature aborde une problématique semblable en ce qui a trait à la perception des visages. L’étude d’experts visuels a permis de dégager les processus et régions impliqués dans leur expertise et a démontré une forte ressemblance avec ceux utilisés pour les visages. Dans le domaine auditif, très peu d’études se sont penchées sur la comparaison entre l’expertise pour la voix et d’autres catégories auditives, alors que ces comparaisons pourraient contribuer à une meilleure compréhension de la perception vocale et auditive. La présente thèse a pour dessein de préciser la spécificité des processus et régions impliqués dans le traitement de la voix. Pour ce faire, le recrutement de différents types d’experts ainsi que l’utilisation de différentes méthodes expérimentales ont été préconisés. La première étude a évalué l’influence d’une expertise musicale sur le traitement de la voix humaine, à l’aide de tâches comportementales de discrimination de voix et d’instruments de musique. Les résultats ont démontré que les musiciens amateurs étaient meilleurs que les non-musiciens pour discriminer des timbres d’instruments de musique mais aussi les voix humaines, suggérant une généralisation des apprentissages perceptifs causés par la pratique musicale. La seconde étude avait pour but de comparer les potentiels évoqués auditifs liés aux chants d’oiseaux entre des ornithologues amateurs et des participants novices. L’observation d’une distribution topographique différente chez les ornithologues à la présentation des trois catégories sonores (voix, chants d’oiseaux, sons de l’environnement) a rendu les résultats difficiles à interpréter. Dans la troisième étude, il était question de préciser le rôle des aires temporales de la voix dans le traitement de catégories d’expertise chez deux groupes d’experts auditifs, soit des ornithologues amateurs et des luthiers. Les données comportementales ont démontré une interaction entre les deux groupes d’experts et leur catégorie d’expertise respective pour des tâches de discrimination et de mémorisation. Les résultats obtenus en imagerie par résonance magnétique fonctionnelle ont démontré une interaction du même type dans le sillon temporal supérieur gauche et le gyrus cingulaire postérieur gauche. Ainsi, les aires de la voix sont impliquées dans le traitement de stimuli d’expertise dans deux groupes d’experts auditifs différents. Ce résultat suggère que la sélectivité à la voix humaine, telle que retrouvée dans les sillons temporaux supérieurs, pourrait être expliquée par une exposition prolongée à ces stimuli. Les données présentées démontrent plusieurs similitudes comportementales et anatomo-fonctionnelles entre le traitement de la voix et d’autres catégories d’expertise. Ces aspects communs sont explicables par une organisation à la fois fonctionnelle et économique du cerveau. Par conséquent, le traitement de la voix et d’autres catégories sonores se baserait sur les mêmes réseaux neuronaux, sauf en cas de traitement plus poussé. Cette interprétation s’avère particulièrement importante pour proposer une approche intégrative quant à la spécificité du traitement de la voix.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

La voix est un stimulus auditif omniprésent dans notre environnement sonore. Elle permet non seulement la parole, mais serait aussi l’équivalent d’un visage auditif transmettant notamment des informations identitaires et affectives importantes. Notre capacité à discriminer et reconnaître des voix est socialement et biologiquement importante et elle figure parmi les fonctions les plus importantes du système auditif humain. La présente thèse s’intéressait à l’ontogénèse et à la spécificité de la réponse corticale à la voix humaine et avait pour but trois objectifs : (1) mettre sur pied un protocole électrophysiologique permettant de mesurer objectivement le traitement de la familiarité de la voix chez le sujet adulte; (2) déterminer si ce même protocole pouvait aussi objectiver chez le nouveau-né de 24 heures un traitement préférentiel d’une voix familière, notamment la voix de la mère; et (3) mettre à l’épreuve la robustesse d’une mesure électrophysiologique, notamment la Fronto-Temporal Positivity to Voices, s’intéressant à la discrimination pré-attentionnelle entre des stimuli vocaux et non-vocaux. Les résultats découlant des trois études expérimentales qui composent cette thèse ont permis (1) d’identifier des composantes électrophysiologiques (Mismatch Negativity et P3a) sensibles au traitement de la familiarité d’une voix; (2) de mettre en lumière un patron d’activation corticale singulier à la voix de la mère chez le nouveau-né, fournissant le premier indice neurophysiologique de l’acquisition du langage, processus particulièrement lié à l’interaction mère-enfant; et (3) de confirmer l’aspect pré-attentionnel de la distinction entre une voix et un stimulus non-vocal tout en accentuant la sélectivité et la sensibilité de la réponse corticale réservée au traitement de la voix.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

La voix est tout sauf un stimulus auditif ordinaire. Pour cause, elle prend son importance de manière très précoce chez l’Homme lorsque, dans l’environnement amniotique, le fœtus entend pour la toute première fois la voix de sa mère. C’est en quelque sorte par l’intermédiaire de cette voix que les premiers contacts avec le monde extérieur, mais également avec l’Autre, s’effectuent. Le statut particulier de la voix humaine perdure au fil du développement, devenant plus tard le principal médium véhiculant le langage oral, si significatif pour l’Homme. En parallèle, et de manière tout aussi adaptative, elle permet la transmission d’informations non langagières renseignant sur l’identité, l’état émotionnel mais également le statut social de chaque individu. C’est ainsi que simplement en entendant la voix d’une personne inconnue, il est généralement possible d’en extrapoler son âge, son genre, mais également d’avoir une idée assez précise de l’état émotionnel dans lequel elle se trouve. Les capacités permettant d’extraire de la voix les divers éléments informationnels qu’elle contient ne seraient toutefois pas stables au fil du temps. Ainsi, le vieillissement normal semble associé à des difficultés de traitement des informations vocales de nature langagière, mais également non langagière. De nombreuses études se sont intéressées au déclin des capacités de traitement du discours avec l’âge. Beaucoup moins de travaux ont cependant considéré les conséquences du vieillissement sur le domaine paralinguistique et, lorsque des travaux s’y sont attardés, c’est essentiellement la sphère affective qui a été investiguée. En raison de ce peu d’études, mais également de leur focus portant spécifiquement sur la sphère émotionnelle, il est extrêmement ardu de généraliser les résultats obtenus au traitement vocal général. La présente thèse s’est donc intéressée aux capacités de traitement de la voix dans le vieillissement normal. La première étude de cette thèse (Article 1) avait pour objectif d’évaluer l’impact du vieillissement normal sur les capacités comportementales de traitement paralinguistique vocal non émotionnel. Pour ce faire, une batterie informatisée composée de quatre tâches a été élaborée : la batterie d’évaluation de la perception vocale (Batterie EPV; tâches de catégorisation de genre, de discrimination de sources sonores, adaptative de discrimination et de mémorisation). Cette batterie permettait de comparer les performances d’adultes jeunes et âgés lors du traitement de stimuli vocaux et non vocaux, mais également lors du traitement de divers stimuli vocaux. Cette première étude met en évidence, pour trois des quatre tâches comportementales, des performances inférieures chez les adultes âgés et ce, malgré le contrôle statistique des contributions du déclin auditif et cognitif. Pour les aînés, le traitement de stimuli vocaux, en comparaison au traitement de stimuli non vocaux, n’était toutefois pas systématiquement inférieur à celui des jeunes adultes. Sans que les performances ne puissent être prédites par la mesure cognitive utilisée comme covariable (performances au MoCA), il appert que les demandes cognitives inhérentes aux tâches participent à ces différences intergroupes. Le second article de ce travail visait quant à lui à explorer à l’aide de l’imagerie par résonnance magnétique fonctionnelle (IRMf), l’influence du vieillissement normal sur les réseaux neuronaux sous-tendant le traitement de l’information vocale, une telle investigation n’ayant jamais été effectuée auparavant. Pour ce faire, une tâche d’écoute passive (permettant le contraste de blocs de sons vocaux et non vocaux) ainsi qu’une tâche adaptative de discrimination ont été utilisées. La tâche adaptative, basée sur une type de protocole psycoacoustique « up-down », assurait l’obtention de niveau de performance équivalent entre les deux groupes, une condition nécessaire pour la comparaison de groupe au niveau neurofonctionnel. La comparaison des adultes jeunes et âgés n’a mis en évidence aucune disparité quant au recrutement des aires répondant préférentiellement à la voix : les aires vocales temporales (AVT). Ce résultat suggère que l’âge n’affecte pas la mobilisation des aires spécialisées dans le traitement de la voix. Néanmoins, à l’extérieur des AVT et chez les aînés, le sous recrutement d’une portion du cortex auditif a été observé, en parallèle au recrutement additionnel de régions pariétale, temporale et frontale (Article 2 – Étude 1). Lors de la réalisation d’une tâche adaptative de discrimination, contrairement à ce qui était attendu, les seuils de discrimination des deux groupes d’âges étaient comparables. Pour effectuer la tâche, les participants âgés ont cependant recruté un réseau neuronal plus étendu que celui des jeunes adultes, et pour les aînés, l’activation additionnelle de régions frontale et temporale sous-tendaient la réalisation de la tâche (Article 2 - Étude 2). Les données comportementales présentées dans cette thèse suggèrent que l’effet délétère que semble avoir le vieillissement normal sur les capacités de traitement paralinguistique vocal affectif est également retrouvé lors du traitement d’informations vocales émotionnellement neutres. En parallèle, la mise en place de phénomènes de plasticité cérébrale est objectivée. Ces derniers ne toucheraient cependant pas les réseaux spécialisés dans le traitement de la voix, qui seraient recrutés de manière comparable par les adultes jeunes et âgés. Néanmoins, la tâche d’écoute passive a mis en évidence la présence, chez les aînés, du recrutement sous-optimal d’une portion du cortex auditif (gyrus temporal transverse). En parallèle, et ce pour les deux tâches, des réseaux neuronaux surnuméraires étaient sollicitées par les adultes âgés, permettant potentiellement d’assurer, chez les ainés, le maintien de performances adéquates.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Medical fields requires fast, simple and noninvasive methods of diagnostic techniques. Several methods are available and possible because of the growth of technology that provides the necessary means of collecting and processing signals. The present thesis details the work done in the field of voice signals. New methods of analysis have been developed to understand the complexity of voice signals, such as nonlinear dynamics aiming at the exploration of voice signals dynamic nature. The purpose of this thesis is to characterize complexities of pathological voice from healthy signals and to differentiate stuttering signals from healthy signals. Efficiency of various acoustic as well as non linear time series methods are analysed. Three groups of samples are used, one from healthy individuals, subjects with vocal pathologies and stuttering subjects. Individual vowels/ and a continuous speech data for the utterance of the sentence "iruvarum changatimaranu" the meaning in English is "Both are good friends" from Malayalam language are recorded using a microphone . The recorded audio are converted to digital signals and are subjected to analysis.Acoustic perturbation methods like fundamental frequency (FO), jitter, shimmer, Zero Crossing Rate(ZCR) were carried out and non linear measures like maximum lyapunov exponent(Lamda max), correlation dimension (D2), Kolmogorov exponent(K2), and a new measure of entropy viz., Permutation entropy (PE) are evaluated for all three groups of the subjects. Permutation Entropy is a nonlinear complexity measure which can efficiently distinguish regular and complex nature of any signal and extract information about the change in dynamics of the process by indicating sudden change in its value. The results shows that nonlinear dynamical methods seem to be a suitable technique for voice signal analysis, due to the chaotic component of the human voice. Permutation entropy is well suited due to its sensitivity to uncertainties, since the pathologies are characterized by an increase in the signal complexity and unpredictability. Pathological groups have higher entropy values compared to the normal group. The stuttering signals have lower entropy values compared to the normal signals.PE is effective in charaterising the level of improvement after two weeks of speech therapy in the case of stuttering subjects. PE is also effective in characterizing the dynamical difference between healthy and pathological subjects. This suggests that PE can improve and complement the recent voice analysis methods available for clinicians. The work establishes the application of the simple, inexpensive and fast algorithm of PE for diagnosis in vocal disorders and stuttering subjects.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

La voz como herramienta de trabajo de los docentes, puede afectarse por su uso prolongado, abuso o conductas de mal uso, que desencadenan limitaciones funcionales de origen laboral. Uno de los síntomas más frecuentes de quienes usan masivamente su voz con fines ocupacionales es la fatiga laríngea (FL), o cansancio vocal por debilitamiento muscular. El presente estudio quasiexperimental longitudinal pre- postest evaluó el efecto que el uso de la voz, analizando variables sociodemográficas, de salud y trabajo, los estilos de vida y los factores de riesgo ocupacionales, pero principalmente el efecto que produce el uso prolongado de la voz sobre las variables físico acústicas después de un día de trabajo, en 99 docentes de una institución de educación superior en Colombia, en comparación con trabajadores con menor uso vocal. Se aplicó un cuestionario de sintomatología vocal para controlar los sesgos, se le tomaron grabaciones pre y post jornada a cada trabajador con el software Speech Analizer® y se reportaron los cambios subjetivos tras un día de trabajo a cada trabajador. Fueron hallados cambios en las variables físico – acústicas como efecto del uso prolongado de la voz después de un día de trabajo en los dos grupos de participantes, en cuyo caso el efecto fue más significativo en los docentes que en los administrativos – no docentes. El riesgo de presentar trastornos de la voz se asoció directamente con la exposición a factores de riesgo ocupacionales y aquellos asociados a condiciones de salud y al estilo de vida de los individuos, cuyas consecuencias fueron mayores para el grupo de docentes; dado que al ser la voz su principal herramienta de trabajo, el uso fue mayor y asimismo la probabilidad de desencadenar sintomatología vocal, derivada de la fatiga laríngea. La variable de fo promedio para la fonación sostenida de la vocal /a/, que representa una sonido neutro en tonalidad o el tono habitual, mostró diferencias significativas entre grupos (p=0,048). Para este caso, el grupo de docentes registró un aumento de la fo en el postest en comparación con un cambio no significativo para el grupo de administrativos luego del uso prolongado de la voz. En consecuencia, hubo diferencias en el valor registrado para la máxima fo (p =0,025), mínima fo (p=0,011) y el rango de fo (p=0,012) en la emisión sostenida de la vocal /a/. Para el caso del grupo de administrativos, las diferencias significativas estuvieron dadas por la disminución de la fo, rango y máxima y mínima frecuencia en las tres vocales (/a/, /i/, /o/) en contraste con lo ocurrido para el grupo de docentes. En la intensidad de la voz fueron encontradas también diferencias significativas entre grupos (p=0,001) con un decrecimiento del volumen en el postest, tanto promedio como mínimo, máximo y rango de la intensidad, en la fonación sostenida de la vocal /a/ para el grupo de docentes; ninguna significancia estadística fue hallada en el grupo de administrativos para estas variables. Se demostró a través de mediciones objetivas y resultados verificables, el fenómeno de la fatiga laríngea, asociados a los efectos que se presentan tras la demanda vocal continua, discriminando el impacto, entre las variables de cargo y género.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Noise music is created around sounds not often welcome in a musical context. Since the birth of electronic music in the 1950s a new perspective on composing has emerged. In electronic music, sounds and their timbre are as much important as melody, harmony and rhythm. This composing perspective is not often observed. Therefore I have examined a musical genre that stretches the boundaries of what we consider music, sound, noise, beautiful and terrible. The aim of this thesis is to investigate what aesthetic ideals noise musicians have when they create music. I examine the composing processes of three noise musicians, by asking the following questions: Do you compose in advance or do you improvise, how do your control of sound look like, how do you use the human voice and how do you categorize sound? The thesis is constructed around interviews I have made with the musicians and an extensive historical background concentrated on the alternative composing techniques that has led to the development of noise music. Among the results I found that these noise musicians always improvise with material, but the real essence of noise music is the character of the sounds, not their origins or material. Composing in advance for sound is a lot more difficult than traditional composing. Another result is that these noise musicians have extensive control of their instruments and can produce the sounds they wanted. They point out the importance of instruments that produce sound not directly controlled by themselves, something that create a musical quality that they aspire.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

The human voice is an important communication tool and any disorder of the voice can have profound implications for social and professional life of an individual. Techniques of digital signal processing have been used by acoustic analysis of vocal disorders caused by pathologies in the larynx, due to its simplicity and noninvasive nature. This work deals with the acoustic analysis of voice signals affected by pathologies in the larynx, specifically, edema, and nodules on the vocal folds. The purpose of this work is to develop a classification system of voices to help pre-diagnosis of pathologies in the larynx, as well as monitoring pharmacological treatments and after surgery. Linear Prediction Coefficients (LPC), Mel Frequency cepstral coefficients (MFCC) and the coefficients obtained through the Wavelet Packet Transform (WPT) are applied to extract relevant characteristics of the voice signal. For the classification task is used the Support Vector Machine (SVM), which aims to build optimal hyperplanes that maximize the margin of separation between the classes involved. The hyperplane generated is determined by the support vectors, which are subsets of points in these classes. According to the database used in this work, the results showed a good performance, with a hit rate of 98.46% for classification of normal and pathological voices in general, and 98.75% in the classification of diseases together: edema and nodules

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Pós-graduação em Música - IA

Relevância:

60.00% 60.00%

Publicador:

Resumo:

La producción de la voz humana se lleva a cabo en el tracto vocal. Los sintetizadores consiguen emular a las distintas partes del tracto vocal, y gracias a ellos se pueden modificar características propias del hablante. Una de estas modificaciones consiste variar el tono de un locutor inicial, mezclando parámetros de éste con los de un locutor deseado. En este proyecto se ha desarrollado un modelo propuesto para este cambio de identidad. Partiendo de las señales de voz originales se han extraído parámetros para crear una base de datos para cada locutor. Las voces se sintetizarán mezclando estas bases de datos y otros parámetros correspondientes a distintos locutores dando como resultado una señal de voz con características de dos locutores diferentes. Finalmente se realizarán pruebas auditivas para comprobar la identidad del locutor de la voz sintetizada. ABSTRACT. Human voice production is carried out in the vocal tract. Each part of the vocal tract is emulated in synthesizers, and for that, speaker features can be modified. One of these modifications is to change the initial speaker tone, mixing parameters of this speaker with the parameters of a desired speaker. In this project it has been developed a proposed model for this identity change. Starting from the originals voice signals its parameters have been extracted to built a database for each speaker. Voices will be synthesized mixing these databases with parameters of the others speakers giving as result a voice signal with features of two different speakers. Finally, hearing tests will be made to check the speaker identity of the synthesized voice.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

The scientific bases for human-machine communication by voice are in the fields of psychology, linguistics, acoustics, signal processing, computer science, and integrated circuit technology. The purpose of this paper is to highlight the basic scientific and technological issues in human-machine communication by voice and to point out areas of future research opportunity. The discussion is organized around the following major issues in implementing human-machine voice communication systems: (i) hardware/software implementation of the system, (ii) speech synthesis for voice output, (iii) speech recognition and understanding for voice input, and (iv) usability factors related to how humans interact with machines.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

Optimism is growing that the near future will witness rapid growth in human-computer interaction using voice. System prototypes have recently been built that demonstrate speaker-independent real-time speech recognition, and understanding of naturally spoken utterances with vocabularies of 1000 to 2000 words, and larger. Already, computer manufacturers are building speech recognition subsystems into their new product lines. However, before this technology can be broadly useful, a substantial knowledge base is needed about human spoken language and performance during computer-based spoken interaction. This paper reviews application areas in which spoken interaction can play a significant role, assesses potential benefits of spoken interaction with machines, and compares voice with other modalities of human-computer interaction. It also discusses information that will be needed to build a firm empirical foundation for the design of future spoken and multimodal interfaces. Finally, it argues for a more systematic and scientific approach to investigating spoken input and performance with future language technology.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

This paper describes a range of opportunities for military and government applications of human-machine communication by voice, based on visits and contacts with numerous user organizations in the United States. The applications include some that appear to be feasible by careful integration of current state-of-the-art technology and others that will require a varying mix of advances in speech technology and in integration of the technology into applications environments. Applications that are described include (1) speech recognition and synthesis for mobile command and control; (2) speech processing for a portable multifunction soldier's computer; (3) speech- and language-based technology for naval combat team tactical training; (4) speech technology for command and control on a carrier flight deck; (5) control of auxiliary systems, and alert and warning generation, in fighter aircraft and helicopters; and (6) voice check-in, report entry, and communication for law enforcement agents or special forces. A phased approach for transfer of the technology into applications is advocated, where integration of applications systems is pursued in parallel with advanced research to meet future needs.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

The way humans interact with technology is undergoing a tremendous change. It is hard to imagine the lives we live today without the benefits of technology that we take for granted. Applying research in computer science, engineering, and information systems to non-technical descriptions of technology, such as human interaction, has shaped and continues to shape our lives. Human Interaction with Technology for Working, Communicating, and Learning: Advancements provides a framework for conceptual, theoretical, and applied research in regards to the relationship between technology and humans. This book is unique in the sense that it does not only cover technology, but also science, research, and the relationship between these fields and individuals' experience. This book is a must have for anyone interested in this research area, as it provides a voice for all users and a look into our future.