924 resultados para Decoding Speech Prosody


Relevância:

20.00% 20.00%

Publicador:

Resumo:

Full Title: Speech of the Hon. Daniel Sheffey : on the Bill "to authorise the President of the United States to call upon the several States and Territories thereof for their respective quotas of eighty thousand men for the defence of the frontiers of the United States against invasion", delivered in the House of Representatives of the United States, on the tenth day of December, 1814 Printed by Rapine and Elliot

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Full Title: Speech of the Hon. Daniel Webster, delivered in the House of Representatives of the United States, on the 14th January, 1814, on a bill making further provision for filling the ranks of the regular army, encouraging enlistments, and authorising the enlistments for longer periods of men whose terms of service are about to expire Printed by Snowden and Simms

Relevância:

20.00% 20.00%

Publicador:

Resumo:

A speech given by Sean O'Sullivan, 28 October 1970, at the Annual Meeting of the Fort Erie Progressive Conservative Association. He was President of the Ontario Young Progressive Conservative Association at the time and chose to speak out on his personal position against Marijuana.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

A speech by Sean O'Sullivan, given in the House of Commons, "For the Recognition of the Beaver as a Symbol of the Sovereignty of the Dominion of Canada".

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Thesis written in co-mentorship with Richard Chase Smith Ph.D, of El Instituto del Bien Comun (IBC) in Peru. The attached file is a pdf created in Word. The pdf file serves to preserve the accuracy of the many linguistic symbols found in the text.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L’un des aspects les plus percutants des avancées de la technologie des quinze dernières années a trait à la communication médiée par ordinateur : clavardage, messagerie instantanée, courrier électronique, forums de discussion, blogues, sites de réseautage social, etc. En plus d’avoir eu un impact significatif sur la société contemporaine, ces outils de communication ont largement modifié les pratiques d’écriture. Notre objet d’étude est le clavardage en groupe qui offre la possibilité aux scripteurs de communiquer simultanément entre eux. Cet outil de communication présente deux caractéristiques importantes aux plans discursif et communicationnel. Premièrement, on admet de façon générale que le clavardage est une forme de communication hybride : le code utilisé est l’écrit, mais les échanges de messages entrent dans une structure de dialogue qui rappelle l’oral. Deuxièmement, le caractère spontané du clavardage impose la rapidité, tant pour l’encodage que pour le décodage des messages. Dans le cadre d’une étude comparative réalisée sur les pratiques scripturales des clavardeurs francophones (Tatossian et Dagenais 2008), nous avons établi quatre catégories générales pour rendre compte de toutes les variantes scripturales de notre corpus : procédés abréviatifs, substitutions de graphèmes, neutralisations en finale absolue et procédés expressifs. Nous voulons maintenant tester la solidité de notre typologie pour des langues dont le degré de correspondance phonético-graphique diffère. En vertu de l’hypothèse de la profondeur de l’orthographe (orthographic depth hypothesis [ODH]; Katz et Frost 1992) selon laquelle un système orthographique transparent (comme l’italien, l’espagnol ou le serbo-croate) transpose les phonèmes directement dans l’orthographe, nous vérifierons si nos résultats pour le français peuvent être généralisés à des langues dont l’orthographe est dite « transparente » (l’espagnol) comparativement à des langues dont l’orthographe est dite « opaque » (le français et l’anglais). Pour chacune des langues, nous avons voulu répondre à deux question, soit : 1. De quelle manière peut-on classifier les usages scripturaux attestés ? 2. Ces usages graphiques sont-ils les mêmes chez les adolescents et les adultes aux plans qualitatif et quantitatif ? Les phénomènes scripturaux du clavardage impliquent également l’identité générationnelle. L’adolescence est une période caractérisée par la quête d’identité. L’étude de Sebba (2003) sur l’anglais démontre qu’il existe un rapport entre le « détournement de l’orthographe » et la construction identitaire chez les adolescents (par ex. les graffitis, la CMO). De plus, dans ces espaces communicationnels, nous assistons à la formation de communautés d’usagers fondée sur des intérêts communs (Crystal 2006), comme l’est la communauté des adolescents. Pour la collecte des corpus, nous recourrons à des échanges effectués au moyen du protocole Internet Relay Chat (IRC). Aux fins de notre étude, nous délimitons dans chacune des langues deux sous-corpus sociolinguistiquement distincts : le premier constitué à partir de forums de clavardage destinés aux adolescents, le second à partir de forums pour adultes. Pour chacune des langues, nous avons analysé 4 520 énoncés extraits de divers canaux IRC pour adolescents et pour adultes. Nous dressons d’abord un inventaire quantifié des différents phénomènes scripturaux recensés et procédons ensuite à la comparaison des résultats.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

On évoque souvent des difficultés à interagir socialement chez les enfants ayant une dysphasie. Ces difficultés sont généralement attribuées aux troubles du langage, mais elles pourraient aussi provenir d’un problème à décoder les émotions des autres. Le but de la présente recherche est d’explorer cette voie chez les enfants dysphasiques de 9 à 12 ans. Différents stimuli émotionnels leur ont été présentés sous forme de vidéos ainsi qu’à des enfants d’un groupe contrôle selon cinq conditions : parole non filtrée, parole filtrée, visage dynamique, visage dynamique accompagné de la parole non filtrée, et visage dynamique avec parole filtrée. Les enfants dysphasiques et les enfants du groupe contrôle ne se comportent pas différemment de manière significative en fonction des émotions présentées et des conditions testées. Par contre, un sous-groupe d’enfants ayant une dysphasie mixte commet significativement plus d’erreurs pour l’ensemble de la tâche que le sous-groupe d’enfants sans dysphasie de même âge chronologique. En fait une part seulement des enfants dysphasiques mixtes ont des scores plus faibles. Ces mêmes enfants présentent un QI non verbal faible tandis que leur compréhension du langage est équivalente à celle de leur sous-groupe (enfants dysphasiques mixtes). Malgré ces différences significatives, les scores des enfants dysphasiques mixtes restent relativement élevés et les difficultés observées sont subtiles. Sur le plan clinique, les praticiens (orthophonistes, psychologues, éducateur) devront systématiser l’évaluation des habiletés de décodage des émotions chez l’enfant dysphasique dont les difficultés ne sont pas forcément évidentes dans la vie quotidienne. La recherche devra développer un outil de dépistage sensible aux troubles de décodage émotionnel et des stratégies thérapeutiques adaptées.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Dans de nombreux comportements qui reposent sur le rappel et la production de séquences, des groupements temporels émergent spontanément, créés par des délais ou des allongements. Ce « chunking » a été observé tant chez les humains que chez certains animaux et plusieurs auteurs l’attribuent à un processus général de chunking perceptif qui est conforme à la capacité de la mémoire à court terme. Cependant, aucune étude n’a établi comment ce chunking perceptif s’applique à la parole. Nous présentons une recension de la littérature qui fait ressortir certains problèmes critiques qui ont nui à la recherche sur cette question. C’est en revoyant ces problèmes qu’on propose une démonstration spécifique du chunking perceptif de la parole et de l’effet de ce processus sur la mémoire immédiate (ou mémoire de travail). Ces deux thèmes de notre thèse sont présentés séparément dans deux articles. Article 1 : The perceptual chunking of speech: a demonstration using ERPs Afin d’observer le chunking de la parole en temps réel, nous avons utilisé un paradigme de potentiels évoqués (PÉ) propice à susciter la Closure Positive Shift (CPS), une composante associée, entre autres, au traitement de marques de groupes prosodiques. Nos stimuli consistaient en des énoncés et des séries de syllabes sans sens comprenant des groupes intonatifs et des marques de groupements temporels qui pouvaient concorder, ou non, avec les marques de groupes intonatifs. Les analyses démontrent que la CPS est suscitée spécifiquement par les allongements marquant la fin des groupes temporels, indépendamment des autres variables. Notons que ces marques d’allongement, qui apparaissent universellement dans la langue parlée, créent le même type de chunking que celui qui émerge lors de l’apprentissage de séquences par des humains et des animaux. Nos résultats appuient donc l’idée que l’auditeur chunk la parole en groupes temporels et que ce chunking perceptif opère de façon similaire avec des comportements verbaux et non verbaux. Par ailleurs, les observations de l’Article 1 remettent en question des études où on associe la CPS au traitement de syntagmes intonatifs sans considérer les effets de marques temporels. Article 2 : Perceptual chunking and its effect on memory in speech processing:ERP and behavioral evidence Nous avons aussi observé comment le chunking perceptif d’énoncés en groupes temporels de différentes tailles influence la mémoire immédiate d’éléments entendus. Afin d’observer ces effets, nous avons utilisé des mesures comportementales et des PÉ, dont la composante N400 qui permettait d’évaluer la qualité de la trace mnésique d’éléments cibles étendus dans des groupes temporels. La modulation de l’amplitude relative de la N400 montre que les cibles présentées dans des groupes de 3 syllabes ont bénéficié d’une meilleure mise en mémoire immédiate que celles présentées dans des groupes plus longs. D’autres mesures comportementales et une analyse de la composante P300 ont aussi permis d’isoler l’effet de la position du groupe temporel (dans l’énoncé) sur les processus de mise en mémoire. Les études ci-dessus sont les premières à démontrer le chunking perceptif de la parole en temps réel et ses effets sur la mémoire immédiate d’éléments entendus. Dans l’ensemble, nos résultats suggèrent qu’un processus général de chunking perceptif favorise la mise en mémoire d’information séquentielle et une interprétation de la parole « chunk par chunk ».

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La voix est tout sauf un stimulus auditif ordinaire. Pour cause, elle prend son importance de manière très précoce chez l’Homme lorsque, dans l’environnement amniotique, le fœtus entend pour la toute première fois la voix de sa mère. C’est en quelque sorte par l’intermédiaire de cette voix que les premiers contacts avec le monde extérieur, mais également avec l’Autre, s’effectuent. Le statut particulier de la voix humaine perdure au fil du développement, devenant plus tard le principal médium véhiculant le langage oral, si significatif pour l’Homme. En parallèle, et de manière tout aussi adaptative, elle permet la transmission d’informations non langagières renseignant sur l’identité, l’état émotionnel mais également le statut social de chaque individu. C’est ainsi que simplement en entendant la voix d’une personne inconnue, il est généralement possible d’en extrapoler son âge, son genre, mais également d’avoir une idée assez précise de l’état émotionnel dans lequel elle se trouve. Les capacités permettant d’extraire de la voix les divers éléments informationnels qu’elle contient ne seraient toutefois pas stables au fil du temps. Ainsi, le vieillissement normal semble associé à des difficultés de traitement des informations vocales de nature langagière, mais également non langagière. De nombreuses études se sont intéressées au déclin des capacités de traitement du discours avec l’âge. Beaucoup moins de travaux ont cependant considéré les conséquences du vieillissement sur le domaine paralinguistique et, lorsque des travaux s’y sont attardés, c’est essentiellement la sphère affective qui a été investiguée. En raison de ce peu d’études, mais également de leur focus portant spécifiquement sur la sphère émotionnelle, il est extrêmement ardu de généraliser les résultats obtenus au traitement vocal général. La présente thèse s’est donc intéressée aux capacités de traitement de la voix dans le vieillissement normal. La première étude de cette thèse (Article 1) avait pour objectif d’évaluer l’impact du vieillissement normal sur les capacités comportementales de traitement paralinguistique vocal non émotionnel. Pour ce faire, une batterie informatisée composée de quatre tâches a été élaborée : la batterie d’évaluation de la perception vocale (Batterie EPV; tâches de catégorisation de genre, de discrimination de sources sonores, adaptative de discrimination et de mémorisation). Cette batterie permettait de comparer les performances d’adultes jeunes et âgés lors du traitement de stimuli vocaux et non vocaux, mais également lors du traitement de divers stimuli vocaux. Cette première étude met en évidence, pour trois des quatre tâches comportementales, des performances inférieures chez les adultes âgés et ce, malgré le contrôle statistique des contributions du déclin auditif et cognitif. Pour les aînés, le traitement de stimuli vocaux, en comparaison au traitement de stimuli non vocaux, n’était toutefois pas systématiquement inférieur à celui des jeunes adultes. Sans que les performances ne puissent être prédites par la mesure cognitive utilisée comme covariable (performances au MoCA), il appert que les demandes cognitives inhérentes aux tâches participent à ces différences intergroupes. Le second article de ce travail visait quant à lui à explorer à l’aide de l’imagerie par résonnance magnétique fonctionnelle (IRMf), l’influence du vieillissement normal sur les réseaux neuronaux sous-tendant le traitement de l’information vocale, une telle investigation n’ayant jamais été effectuée auparavant. Pour ce faire, une tâche d’écoute passive (permettant le contraste de blocs de sons vocaux et non vocaux) ainsi qu’une tâche adaptative de discrimination ont été utilisées. La tâche adaptative, basée sur une type de protocole psycoacoustique « up-down », assurait l’obtention de niveau de performance équivalent entre les deux groupes, une condition nécessaire pour la comparaison de groupe au niveau neurofonctionnel. La comparaison des adultes jeunes et âgés n’a mis en évidence aucune disparité quant au recrutement des aires répondant préférentiellement à la voix : les aires vocales temporales (AVT). Ce résultat suggère que l’âge n’affecte pas la mobilisation des aires spécialisées dans le traitement de la voix. Néanmoins, à l’extérieur des AVT et chez les aînés, le sous recrutement d’une portion du cortex auditif a été observé, en parallèle au recrutement additionnel de régions pariétale, temporale et frontale (Article 2 – Étude 1). Lors de la réalisation d’une tâche adaptative de discrimination, contrairement à ce qui était attendu, les seuils de discrimination des deux groupes d’âges étaient comparables. Pour effectuer la tâche, les participants âgés ont cependant recruté un réseau neuronal plus étendu que celui des jeunes adultes, et pour les aînés, l’activation additionnelle de régions frontale et temporale sous-tendaient la réalisation de la tâche (Article 2 - Étude 2). Les données comportementales présentées dans cette thèse suggèrent que l’effet délétère que semble avoir le vieillissement normal sur les capacités de traitement paralinguistique vocal affectif est également retrouvé lors du traitement d’informations vocales émotionnellement neutres. En parallèle, la mise en place de phénomènes de plasticité cérébrale est objectivée. Ces derniers ne toucheraient cependant pas les réseaux spécialisés dans le traitement de la voix, qui seraient recrutés de manière comparable par les adultes jeunes et âgés. Néanmoins, la tâche d’écoute passive a mis en évidence la présence, chez les aînés, du recrutement sous-optimal d’une portion du cortex auditif (gyrus temporal transverse). En parallèle, et ce pour les deux tâches, des réseaux neuronaux surnuméraires étaient sollicitées par les adultes âgés, permettant potentiellement d’assurer, chez les ainés, le maintien de performances adéquates.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Medical fields requires fast, simple and noninvasive methods of diagnostic techniques. Several methods are available and possible because of the growth of technology that provides the necessary means of collecting and processing signals. The present thesis details the work done in the field of voice signals. New methods of analysis have been developed to understand the complexity of voice signals, such as nonlinear dynamics aiming at the exploration of voice signals dynamic nature. The purpose of this thesis is to characterize complexities of pathological voice from healthy signals and to differentiate stuttering signals from healthy signals. Efficiency of various acoustic as well as non linear time series methods are analysed. Three groups of samples are used, one from healthy individuals, subjects with vocal pathologies and stuttering subjects. Individual vowels/ and a continuous speech data for the utterance of the sentence "iruvarum changatimaranu" the meaning in English is "Both are good friends" from Malayalam language are recorded using a microphone . The recorded audio are converted to digital signals and are subjected to analysis.Acoustic perturbation methods like fundamental frequency (FO), jitter, shimmer, Zero Crossing Rate(ZCR) were carried out and non linear measures like maximum lyapunov exponent(Lamda max), correlation dimension (D2), Kolmogorov exponent(K2), and a new measure of entropy viz., Permutation entropy (PE) are evaluated for all three groups of the subjects. Permutation Entropy is a nonlinear complexity measure which can efficiently distinguish regular and complex nature of any signal and extract information about the change in dynamics of the process by indicating sudden change in its value. The results shows that nonlinear dynamical methods seem to be a suitable technique for voice signal analysis, due to the chaotic component of the human voice. Permutation entropy is well suited due to its sensitivity to uncertainties, since the pathologies are characterized by an increase in the signal complexity and unpredictability. Pathological groups have higher entropy values compared to the normal group. The stuttering signals have lower entropy values compared to the normal signals.PE is effective in charaterising the level of improvement after two weeks of speech therapy in the case of stuttering subjects. PE is also effective in characterizing the dynamical difference between healthy and pathological subjects. This suggests that PE can improve and complement the recent voice analysis methods available for clinicians. The work establishes the application of the simple, inexpensive and fast algorithm of PE for diagnosis in vocal disorders and stuttering subjects.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This thesis investigates the potential use of zerocrossing information for speech sample estimation. It provides 21 new method tn) estimate speech samples using composite zerocrossings. A simple linear interpolation technique is developed for this purpose. By using this method the A/D converter can be avoided in a speech coder. The newly proposed zerocrossing sampling theory is supported with results of computer simulations using real speech data. The thesis also presents two methods for voiced/ unvoiced classification. One of these methods is based on a distance measure which is a function of short time zerocrossing rate and short time energy of the signal. The other one is based on the attractor dimension and entropy of the signal. Among these two methods the first one is simple and reguires only very few computations compared to the other. This method is used imtea later chapter to design an enhanced Adaptive Transform Coder. The later part of the thesis addresses a few problems in Adaptive Transform Coding and presents an improved ATC. Transform coefficient with maximum amplitude is considered as ‘side information’. This. enables more accurate tfiiz assignment enui step—size computation. A new bit reassignment scheme is also introduced in this work. Finally, sum ATC which applies switching between luiscrete Cosine Transform and Discrete Walsh-Hadamard Transform for voiced and unvoiced speech segments respectively is presented. Simulation results are provided to show the improved performance of the coder

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Biometrics deals with the physiological and behavioral characteristics of an individual to establish identity. Fingerprint based authentication is the most advanced biometric authentication technology. The minutiae based fingerprint identification method offer reasonable identification rate. The feature minutiae map consists of about 70-100 minutia points and matching accuracy is dropping down while the size of database is growing up. Hence it is inevitable to make the size of the fingerprint feature code to be as smaller as possible so that identification may be much easier. In this research, a novel global singularity based fingerprint representation is proposed. Fingerprint baseline, which is the line between distal and intermediate phalangeal joint line in the fingerprint, is taken as the reference line. A polygon is formed with the singularities and the fingerprint baseline. The feature vectors are the polygonal angle, sides, area, type and the ridge counts in between the singularities. 100% recognition rate is achieved in this method. The method is compared with the conventional minutiae based recognition method in terms of computation time, receiver operator characteristics (ROC) and the feature vector length. Speech is a behavioural biometric modality and can be used for identification of a speaker. In this work, MFCC of text dependant speeches are computed and clustered using k-means algorithm. A backpropagation based Artificial Neural Network is trained to identify the clustered speech code. The performance of the neural network classifier is compared with the VQ based Euclidean minimum classifier. Biometric systems that use a single modality are usually affected by problems like noisy sensor data, non-universality and/or lack of distinctiveness of the biometric trait, unacceptable error rates, and spoof attacks. Multifinger feature level fusion based fingerprint recognition is developed and the performances are measured in terms of the ROC curve. Score level fusion of fingerprint and speech based recognition system is done and 100% accuracy is achieved for a considerable range of matching threshold