904 resultados para audio-visual automatic speech recognition


Relevância:

30.00% 30.00%

Publicador:

Resumo:

Psychopathy is associated with well-known characteristics such as a lack of empathy and impulsive behaviour, but it has also been associated with impaired recognition of emotional facial expressions. The use of event-related potentials (ERPs) to examine this phenomenon could shed light on the specific time course and neural activation associated with emotion recognition processes as they relate to psychopathic traits. In the current study we examined the PI , N170, and vertex positive potential (VPP) ERP components and behavioural performance with respect to scores on the Self-Report Psychopathy (SRP-III) questionnaire. Thirty undergraduates completed two tasks, the first of which required the recognition and categorization of affective face stimuli under varying presentation conditions. Happy, angry or fearful faces were presented under with attention directed to the mouth, nose or eye region and varied stimulus exposure duration (30, 75, or 150 ms). We found that behavioural performance to be unrelated to psychopathic personality traits in all conditions, but there was a trend for the Nl70 to peak later in response to fearful and happy facial expressions for individuals high in psychopathic traits. However, the amplitude of the VPP was significantly negatively associated with psychopathic traits, but only in response to stimuli presented under a nose-level fixation. Finally, psychopathic traits were found to be associated with longer N170 latencies in response to stimuli presented under the 30 ms exposure duration. In the second task, participants were required to inhibit processing of irrelevant affective and scrambled face distractors while categorizing unrelated word stimuli as living or nonliving. Psychopathic traits were hypothesized to be positively associated with behavioural performance, as it was proposed that individuals high in psychopathic traits would be less likely to automatically attend to task-irrelevant affective distractors, facilitating word categorization. Thus, decreased interference would be reflected in smaller N170 components, indicating less neural activity associated with processing of distractor faces. We found that overall performance decreased in the presence of angry and fearful distractor faces as psychopathic traits increased. In addition, the amplitude of the N170 decreased and the latency increased in response to affective distractor faces for individuals with higher levels of psychopathic traits. Although we failed to find the predicted behavioural deficit in emotion recognition in Task 1 and facilitation effect in Task 2, the findings of increased N170 and VPP latencies in response to emotional faces are consistent wi th the proposition that abnormal emotion recognition processes may in fact be inherent to psychopathy as a continuous personality trait.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Three dimensional model design is a well-known and studied field, with numerous real-world applications. However, the manual construction of these models can often be time-consuming to the average user, despite the advantages o ffered through computational advances. This thesis presents an approach to the design of 3D structures using evolutionary computation and L-systems, which involves the automated production of such designs using a strict set of fitness functions. These functions focus on the geometric properties of the models produced, as well as their quantifiable aesthetic value - a topic which has not been widely investigated with respect to 3D models. New extensions to existing aesthetic measures are discussed and implemented in the presented system in order to produce designs which are visually pleasing. The system itself facilitates the construction of models requiring minimal user initialization and no user-based feedback throughout the evolutionary cycle. The genetic programming evolved models are shown to satisfy multiple criteria, conveying a relationship between their assigned aesthetic value and their perceived aesthetic value. Exploration into the applicability and e ffectiveness of a multi-objective approach to the problem is also presented, with a focus on both performance and visual results. Although subjective, these results o er insight into future applications and study in the fi eld of computational aesthetics and automated structure design.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Genetic Programming (GP) is a widely used methodology for solving various computational problems. GP's problem solving ability is usually hindered by its long execution times. In this thesis, GP is applied toward real-time computer vision. In particular, object classification and tracking using a parallel GP system is discussed. First, a study of suitable GP languages for object classification is presented. Two main GP approaches for visual pattern classification, namely the block-classifiers and the pixel-classifiers, were studied. Results showed that the pixel-classifiers generally performed better. Using these results, a suitable language was selected for the real-time implementation. Synthetic video data was used in the experiments. The goal of the experiments was to evolve a unique classifier for each texture pattern that existed in the video. The experiments revealed that the system was capable of correctly tracking the textures in the video. The performance of the system was on-par with real-time requirements.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

This lexical decision study with eye tracking of Japanese two-kanji-character words investigated the order in which a whole two-character word and its morphographic constituents are activated in the course of lexical access, the relative contributions of the left and the right characters in lexical decision, the depth to which semantic radicals are processed, and how nonlinguistic factors affect lexical processes. Mixed-effects regression analyses of response times and subgaze durations (i.e., first-pass fixation time spent on each of the two characters) revealed joint contributions of morphographic units at all levels of the linguistic structure with the magnitude and the direction of the lexical effects modulated by readers’ locus of attention in a left-to-right preferred processing path. During the early time frame, character effects were larger in magnitude and more robust than radical and whole-word effects, regardless of the font size and the type of nonwords. Extending previous radical-based and character-based models, we propose a task/decision-sensitive character-driven processing model with a level-skipping assumption: Connections from the feature level bypass the lower radical level and link up directly to the higher character level.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

A speech by Sean O'Sullivan, given in the House of Commons, "For the Recognition of the Beaver as a Symbol of the Sovereignty of the Dominion of Canada".

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Pour respecter les droits d’auteur, la version électronique de ce mémoire a été dépouillée de ses documents visuels et audio-visuels. La version intégrale du mémoire a été déposée au Service de la gestion des documents et des archives de l'Université de Montréal

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Lors d'une intervention conversationnelle, le langage est supporté par une communication non-verbale qui joue un rôle central dans le comportement social humain en permettant de la rétroaction et en gérant la synchronisation, appuyant ainsi le contenu et la signification du discours. En effet, 55% du message est véhiculé par les expressions faciales, alors que seulement 7% est dû au message linguistique et 38% au paralangage. L'information concernant l'état émotionnel d'une personne est généralement inférée par les attributs faciaux. Cependant, on ne dispose pas vraiment d'instruments de mesure spécifiquement dédiés à ce type de comportements. En vision par ordinateur, on s'intéresse davantage au développement de systèmes d'analyse automatique des expressions faciales prototypiques pour les applications d'interaction homme-machine, d'analyse de vidéos de réunions, de sécurité, et même pour des applications cliniques. Dans la présente recherche, pour appréhender de tels indicateurs observables, nous essayons d'implanter un système capable de construire une source consistante et relativement exhaustive d'informations visuelles, lequel sera capable de distinguer sur un visage les traits et leurs déformations, permettant ainsi de reconnaître la présence ou absence d'une action faciale particulière. Une réflexion sur les techniques recensées nous a amené à explorer deux différentes approches. La première concerne l'aspect apparence dans lequel on se sert de l'orientation des gradients pour dégager une représentation dense des attributs faciaux. Hormis la représentation faciale, la principale difficulté d'un système, qui se veut être général, est la mise en œuvre d'un modèle générique indépendamment de l'identité de la personne, de la géométrie et de la taille des visages. La démarche qu'on propose repose sur l'élaboration d'un référentiel prototypique à partir d'un recalage par SIFT-flow dont on démontre, dans cette thèse, la supériorité par rapport à un alignement conventionnel utilisant la position des yeux. Dans une deuxième approche, on fait appel à un modèle géométrique à travers lequel les primitives faciales sont représentées par un filtrage de Gabor. Motivé par le fait que les expressions faciales sont non seulement ambigües et incohérentes d'une personne à une autre mais aussi dépendantes du contexte lui-même, à travers cette approche, on présente un système personnalisé de reconnaissance d'expressions faciales, dont la performance globale dépend directement de la performance du suivi d'un ensemble de points caractéristiques du visage. Ce suivi est effectué par une forme modifiée d'une technique d'estimation de disparité faisant intervenir la phase de Gabor. Dans cette thèse, on propose une redéfinition de la mesure de confiance et introduisons une procédure itérative et conditionnelle d'estimation du déplacement qui offrent un suivi plus robuste que les méthodes originales.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

L'apprentissage machine (AM) est un outil important dans le domaine de la recherche d'information musicale (Music Information Retrieval ou MIR). De nombreuses tâches de MIR peuvent être résolues en entraînant un classifieur sur un ensemble de caractéristiques. Pour les tâches de MIR se basant sur l'audio musical, il est possible d'extraire de l'audio les caractéristiques pertinentes à l'aide de méthodes traitement de signal. Toutefois, certains aspects musicaux sont difficiles à extraire à l'aide de simples heuristiques. Afin d'obtenir des caractéristiques plus riches, il est possible d'utiliser l'AM pour apprendre une représentation musicale à partir de l'audio. Ces caractéristiques apprises permettent souvent d'améliorer la performance sur une tâche de MIR donnée. Afin d'apprendre des représentations musicales intéressantes, il est important de considérer les aspects particuliers à l'audio musical dans la conception des modèles d'apprentissage. Vu la structure temporelle et spectrale de l'audio musical, les représentations profondes et multiéchelles sont particulièrement bien conçues pour représenter la musique. Cette thèse porte sur l'apprentissage de représentations de l'audio musical. Des modèles profonds et multiéchelles améliorant l'état de l'art pour des tâches telles que la reconnaissance d'instrument, la reconnaissance de genre et l'étiquetage automatique y sont présentés.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Pour la plupart des gens, la lecture est une activité automatique, inhérente à leur vie quotidienne et ne demandant que peu d’effort. Chez les individus souffrant d’épilepsie réflexe à la lecture, le simple fait de lire déclenche des crises épileptiques et les personnes doivent alors renoncer à la lecture. Les facteurs responsables du déclenchement de l’activité épileptique dans l’épilepsie réflexe à la lecture demeurent encore mal définis. Certains auteurs suggèrent que le nombre ainsi que la localisation des pointes épileptiques seraient en lien avec la voie de lecture impliquée. Des études en imagerie cérébrale, menées auprès de populations sans trouble neurologique, ont dévoilé que la lecture active un réseau étendu incluant les cortex frontaux, temporo-pariétaux et occipito-temporaux bilatéralement avec des différences dans les patrons d’activation pour les voies de lecture lexicale et phonologique. La majorité des études ont eu recours à des tâches de lecture silencieuse qui ne permettent pas d'évaluer la performance des participants. Dans la première étude de cette thèse, qui porte sur une étude de cas d'un patient avec épilepsie réflexe à la lecture, nous avons déterminé les tâches langagières et les caractéristiques des stimuli qui influencent l'activité épileptique. Les résultats ont confirmé que la lecture était la principale tâche responsable du déclenchement de l’activité épileptique chez ce patient. En particulier, la fréquence des pointes épileptiques était significativement plus élevée lorsque le patient avait recours au processus de conversion grapho-phonémique. Les enregistrements électroencéphalographiques (EEG) ont révélé que les pointes épileptiques étaient localisées dans le gyrus précentral gauche, indépendamment de la voie de lecture. La seconde étude avait comme objectif de valider un protocole de lecture à voix haute ayant recours à la spectroscopie près du spectre de l’infrarouge (SPIR) pour investiguer les circuits neuronaux qui sous-tendent la lecture chez les normo-lecteurs. Douze participants neurologiquement sains ont lu à voix haute des mots irréguliers et des non-mots lors d’enregistrements en SPIR. Les résultats ont montré que la lecture des deux types de stimuli impliquait des régions cérébrales bilatérales communes incluant le gyrus frontal inférieur, le gyrus prémoteur et moteur, le cortex somatosensoriel associatif, le gyrus temporal moyen et supérieur, le gyrus supramarginal, le gyrus angulaire et le cortex visuel. Les concentrations totales d’hémoglobine (HbT) dans les gyri frontaux inférieurs bilatéraux étaient plus élevées dans la lecture des non-mots que dans celle des mots irréguliers. Ce résultat suggère que le gyrus frontal inférieur joue un rôle dans la conversion grapho-phonémique, qui caractérise la voie de lecture phonologique. Cette étude a confirmé le potentiel de la SPIR pour l’investigation des corrélats neuronaux des deux voies de lecture. Une des retombées importantes de cette thèse consiste en l’utilisation du protocole de lecture en SPIR pour investiguer les troubles de la lecture. Ces investigations pourraient aider à mieux établir les liens entre le fonctionnement cérébral et la lecture dans les dyslexies développementales et acquises.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Cette recherche exploratoire vise à documenter, du point de vue des intervenants, les conditions nécessaires à la mise en place de projets utilisant des outils de narrativité numérique, de même que les principaux apports de ces outils à l’intervention. Ces outils peuvent être des récits numériques qui sont de courtes vidéos (deux à cinq minutes) intégrant images, musique, texte, voix et animation, ou encore de courts fichiers audio, aussi appelés podcasting ou baladodiffusion. Il peut aussi s’agir de jeux vidéo interactifs ou d’un montage vidéo à partir d’extraits de témoignages. Dans un contexte où les pratiques d’intervention, dans les services publics en particulier, sont de plus en plus normées et standardisées, une recherche qui explore des outils d’intervention recourant à la créativité s’avère des plus pertinentes. Par ailleurs, ce champ n’a été que très peu exploré en service social jusqu’à maintenant. Des entrevues semi-dirigées ont été menées auprès de huit intervenants ayant utilisé ces outils dans leur pratique. L’analyse de leurs propos met d’abord en lumière les conditions nécessaires à la réalisation de ce type de projet, de même que les questions éthiques qui les accompagnent. Ensuite, du côté des principaux apports de ces outils, ils se situent, d’une part, dans le processus créatif collaboratif. Celui-ci permet d’enrichir l’intervention en donnant un espace de parole plus libre où intervenants et usagers créent des liens qui modifient le rapport hiérarchique entre aidant et aidé. D’autre part, l’attention professionnelle accordée à la réalisation des produits et à leur diffusion contribue à donner une plus grande visibilité à des personnes souvent exclues de l’espace public. Ainsi, en plus d’explorer les apports d’un outil artistique à l’intervention, cette recherche permet également d’analyser les enjeux de visibilité et de reconnaissance associés à l’utilisation de médias participatifs.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

La perception de mouvements est associée à une augmentation de l’excitabilité du cortex moteur humain. Ce système appelé « miroir » sous-tendrait notre habileté à comprendre les gestes posés par une tierce personne puisqu’il est impliqué dans la reconnaissance, la compréhension et l’imitation de ces gestes. Dans cette étude, nous examinons de quelle façon ce système miroir s’implique et se latéralise dans la perception du chant et de la parole. Une stimulation magnétique transcrânienne (TMS) à impulsion unique a été appliquée sur la représentation de la bouche du cortex moteur de 11 participants. La réponse motrice engendrée a été mesurée sous la forme de potentiels évoqués moteurs (PÉMs), enregistrés à partir du muscle de la bouche. Ceux-ci ont été comparés lors de la perception de chant et de parole, dans chaque hémisphère cérébral. Afin d’examiner l’activation de ce système moteur dans le temps, les impulsions de la TMS ont été envoyées aléatoirement à l’intérieur de 7 fenêtres temporelles (500-3500 ms). Les stimuli pour la tâche de perception du chant correspondaient à des vidéos de 4 secondes dans lesquelles une chanteuse produisait un intervalle ascendant de deux notes que les participants devaient juger comme correspondant ou non à un intervalle écrit. Pour la tâche de perception de la parole, les participants regardaient des vidéos de 4 secondes montrant une personne expliquant un proverbe et devaient juger si cette explication correspondait bien à un proverbe écrit. Les résultats de cette étude montrent que les amplitudes des PÉMs recueillis dans la tâche de perception de chant étaient plus grandes après stimulation de l’hémisphère droit que de l’hémisphère gauche, surtout lorsque l’impulsion était envoyée entre 1000 et 1500 ms. Aucun effet significatif n’est ressorti de la condition de perception de la parole. Ces résultats suggèrent que le système miroir de l’hémisphère droit s’active davantage après une présentation motrice audio-visuelle, en comparaison de l’hémisphère gauche.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Medical fields requires fast, simple and noninvasive methods of diagnostic techniques. Several methods are available and possible because of the growth of technology that provides the necessary means of collecting and processing signals. The present thesis details the work done in the field of voice signals. New methods of analysis have been developed to understand the complexity of voice signals, such as nonlinear dynamics aiming at the exploration of voice signals dynamic nature. The purpose of this thesis is to characterize complexities of pathological voice from healthy signals and to differentiate stuttering signals from healthy signals. Efficiency of various acoustic as well as non linear time series methods are analysed. Three groups of samples are used, one from healthy individuals, subjects with vocal pathologies and stuttering subjects. Individual vowels/ and a continuous speech data for the utterance of the sentence "iruvarum changatimaranu" the meaning in English is "Both are good friends" from Malayalam language are recorded using a microphone . The recorded audio are converted to digital signals and are subjected to analysis.Acoustic perturbation methods like fundamental frequency (FO), jitter, shimmer, Zero Crossing Rate(ZCR) were carried out and non linear measures like maximum lyapunov exponent(Lamda max), correlation dimension (D2), Kolmogorov exponent(K2), and a new measure of entropy viz., Permutation entropy (PE) are evaluated for all three groups of the subjects. Permutation Entropy is a nonlinear complexity measure which can efficiently distinguish regular and complex nature of any signal and extract information about the change in dynamics of the process by indicating sudden change in its value. The results shows that nonlinear dynamical methods seem to be a suitable technique for voice signal analysis, due to the chaotic component of the human voice. Permutation entropy is well suited due to its sensitivity to uncertainties, since the pathologies are characterized by an increase in the signal complexity and unpredictability. Pathological groups have higher entropy values compared to the normal group. The stuttering signals have lower entropy values compared to the normal signals.PE is effective in charaterising the level of improvement after two weeks of speech therapy in the case of stuttering subjects. PE is also effective in characterizing the dynamical difference between healthy and pathological subjects. This suggests that PE can improve and complement the recent voice analysis methods available for clinicians. The work establishes the application of the simple, inexpensive and fast algorithm of PE for diagnosis in vocal disorders and stuttering subjects.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Biometrics deals with the physiological and behavioral characteristics of an individual to establish identity. Fingerprint based authentication is the most advanced biometric authentication technology. The minutiae based fingerprint identification method offer reasonable identification rate. The feature minutiae map consists of about 70-100 minutia points and matching accuracy is dropping down while the size of database is growing up. Hence it is inevitable to make the size of the fingerprint feature code to be as smaller as possible so that identification may be much easier. In this research, a novel global singularity based fingerprint representation is proposed. Fingerprint baseline, which is the line between distal and intermediate phalangeal joint line in the fingerprint, is taken as the reference line. A polygon is formed with the singularities and the fingerprint baseline. The feature vectors are the polygonal angle, sides, area, type and the ridge counts in between the singularities. 100% recognition rate is achieved in this method. The method is compared with the conventional minutiae based recognition method in terms of computation time, receiver operator characteristics (ROC) and the feature vector length. Speech is a behavioural biometric modality and can be used for identification of a speaker. In this work, MFCC of text dependant speeches are computed and clustered using k-means algorithm. A backpropagation based Artificial Neural Network is trained to identify the clustered speech code. The performance of the neural network classifier is compared with the VQ based Euclidean minimum classifier. Biometric systems that use a single modality are usually affected by problems like noisy sensor data, non-universality and/or lack of distinctiveness of the biometric trait, unacceptable error rates, and spoof attacks. Multifinger feature level fusion based fingerprint recognition is developed and the performances are measured in terms of the ROC curve. Score level fusion of fingerprint and speech based recognition system is done and 100% accuracy is achieved for a considerable range of matching threshold

Relevância:

30.00% 30.00%

Publicador:

Resumo:

KAM is a computer program that can automatically plan, monitor, and interpret numerical experiments with Hamiltonian systems with two degrees of freedom. The program has recently helped solve an open problem in hydrodynamics. Unlike other approaches to qualitative reasoning about physical system dynamics, KAM embodies a significant amount of knowledge about nonlinear dynamics. KAM's ability to control numerical experiments arises from the fact that it not only produces pictures for us to see, but also looks at (sic---in its mind's eye) the pictures it draws to guide its own actions. KAM is organized in three semantic levels: orbit recognition, phase space searching, and parameter space searching. Within each level spatial properties and relationships that are not explicitly represented in the initial representation are extracted by applying three operations ---(1) aggregation, (2) partition, and (3) classification--- iteratively.