955 resultados para Spoken language


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Automatic spoken Language Identi¯cation (LID) is the process of identifying the language spoken within an utterance. The challenge that this task presents is that no prior information is available indicating the content of the utterance or the identity of the speaker. The trend of globalization and the pervasive popularity of the Internet will amplify the need for the capabilities spoken language identi¯ca- tion systems provide. A prominent application arises in call centers dealing with speakers speaking di®erent languages. Another important application is to index or search huge speech data archives and corpora that contain multiple languages. The aim of this research is to develop techniques targeted at producing a fast and more accurate automatic spoken LID system compared to the previous National Institute of Standards and Technology (NIST) Language Recognition Evaluation. Acoustic and phonetic speech information are targeted as the most suitable fea- tures for representing the characteristics of a language. To model the acoustic speech features a Gaussian Mixture Model based approach is employed. Pho- netic speech information is extracted using existing speech recognition technol- ogy. Various techniques to improve LID accuracy are also studied. One approach examined is the employment of Vocal Tract Length Normalization to reduce the speech variation caused by di®erent speakers. A linear data fusion technique is adopted to combine the various aspects of information extracted from speech. As a result of this research, a LID system was implemented and presented for evaluation in the 2003 Language Recognition Evaluation conducted by the NIST.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Tämä tutkielma on osa Helsingin yliopiston rahoittamaa HY-talk -tutkimusprojektia, jonka tavoite on vankentaa puheviestinnän, erityisesti vieraiden kielten suullisen taidon opetusta ja arviointia yleissivistävässä koulutuksessa ja korkeakouluasteella. Tämän tutkielman tavoite on selvittää millaisia korjauksia englantia vieraana kielenä puhuvat ihmiset tekevät puheeseensa ja tutkia itsekorjauksen ja sujuvuuden välistä suhdetta. Korjausjäsennystä ja itsekorjausta on aiemmin tutkittu sekä keskustelunanalyysin että psykolingvistiikan aloilla, ja vaikka tämä tutkielma onkin lähempänä aiempaa keskustelunanalyyttistä kuin psykolingvististä tutkimusta, siinä hyödynnetään molempia suuntauksia. Itsekorjausta on yleisesti pidetty merkkinä erityisesti ei-natiivien kielenpuhujien sujuvuuden puutteesta. Tämän tutkielman tarkoitus on selvittää, kuinka läheisesti itsekorjaus todella liittyy sujuvuuteen tai sen puutteeseen. Tutkielman materiaali koostuu HY-talk -projektia varten kerätyistä puhenäytteistä ja niiden pohjalta tehdyistä taitotasoarvioinneista. Puhenäytteet kerättiin vuonna 2007 projektia varten järjestettyjen puhekielen testaustilanteiden yhteydessä kolmessa eteläsuomalaisessa koulussa. Koska projektin tavoitteena on tutkia ja parantaa kielten suullisen taidon arviointia, projektissa mukana olleet kieliammattilaiset arvioivat puhujien taitotasot projektia varten (Eurooppalaisen Viitekehyksen taitotasokuvainten pohjalta) koottujen arviointiasteikoiden perusteella, ja nämä arvioinnit tallennettiin osaksi projektin materiaalia. Tutkielmassa analysoidaan itsekorjauksia aiemman psykolingvistisen tutkimuksen pohjalta kootun korjaustyyppiluokituksen sekä tätä tutkielmaa varten luodun korjausten oikeellisuutta vertailevan luokituksen avulla. Lisäksi siinä vertaillaan kahden korkeamman ja kahden matalamman taitotasoarvioinnin saaneen puhujan itsekorjauksia. Tulokset osoittavat, että ei-natiivien puheessa esiintyy monenlaisia eri korjaustyyppejä, ja että yleisimpiä korjauksia ovat alkuperäisen lausuman toistot. Yleisiä ovat myös korjaukset, joissa puhuja korjaa virheen tai keskeyttää puheensa ja aloittaa kokonaan uuden lausuman. Lisäksi tuloksista käy ilmi, ettei suurin osa korjauksista todennäköisesti johdu puhujien sujuvuuden puutteesta. Yleisimmät korjaustyypit voivat johtua suurimmaksi osaksi yksilön puhetyylistä, siitä, että puhuja hakee jotain tiettyä sanaa tai ilmausta mielessään tai siitä, että puhuja korjaa puheessaan huomaamansa kieliopillisen, sanastollisen tai äänteellisen virheen. Vertailu korkeammalle ja matalammalle taitotasolle arvioitujen puhujien välillä osoittaa selkeimmin, ettei suurin osa itsekorjauksista ole yhteydessä puhujan sujuvuuteen. Vertailusta käy ilmi, ettei pelkkä itsekorjausten määrä kerro kuinka sujuvasti puhuja käyttää kieltä, sillä toinen korkeammalle taitotasolle arvioiduista puhujista korjaa puhettaan lähes yhtä monesti kuin matalammalle tasolle arvioidut puhujat. Lisäksi korjausten oikeellisuutta vertailevan luokituksen tulokset viittaavat siihen, etteivät niin korkeammalle kuin matalammallekaan tasolle arvioidut puhujat useimmiten korjaa puhettaan siksi, etteivät pystyisi ilmaisemaan viestiään oikein ja ymmärrettävästi.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A visual world eye-tracking study investigated the activation and persistence of implicit causality information in spoken language comprehension. We showed that people infer the implicit causality of verbs as soon as they encounter such verbs in discourse, as is predicted by proponents of the immediate focusing account (Greene & McKoon, 1995; Koornneef & Van Berkum, 2006; Van Berkum, Koornneef, Otten, & Nieuwland, 2007). Interestingly, we observed activation of implicit causality information even before people encountered the causal conjunction. However, while implicit causality information was persistent as the discourse unfolded, it did not have a privileged role as a focusing cue immediately at the ambiguous pronoun when people were resolving its antecedent. Instead, our study indicated that implicit causality does not affect all referents to the same extent, rather it interacts with other cues in the discourse, especially when one of the referents is already prominently in focus.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

We present a new approach to spoken language modeling for language identification (LID) using the Lempel-Ziv-Welch (LZW) algorithm. The LZW technique is applicable to any kind of tokenization of the speech signal. Because of the efficiency of LZW algorithm to obtain variable length symbol strings in the training data, the LZW codebook captures the essentials of a language effectively. We develop two new deterministic measures for LID based on the LZW algorithm namely: (i) Compression ratio score (LZW-CR) and (ii) weighted discriminant score (LZW-WDS). To assess these measures, we consider error-free tokenization of speech as well as artificially induced noise in the tokenization. It is shown that for a 6 language LID task of OGI-TS database with clean tokenization, the new model (LZW-WDS) performs slightly better than the conventional bigram model. For noisy tokenization, which is the more realistic case, LZW-WDS significantly outperforms the bigram technique

Relevância:

100.00% 100.00%

Publicador:

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Recent research into the acquisition of spoken language has stressed the importance of learning through embodied linguistic interaction with caregivers rather than through passive observation. However the necessity of interaction makes experimental work into the simulation of infant speech acquisition difficult because of the technical complexity of building real-time embodied systems. In this paper we present KLAIR: a software toolkit for building simulations of spoken language acquisition through interactions with a virtual infant. The main part of KLAIR is a sensori-motor server that supplies a client machine learning application with a virtual infant on screen that can see, hear and speak. By encapsulating the real-time complexities of audio and video processing within a server that will run on a modern PC, we hope that KLAIR will encourage and facilitate more experimental research into spoken language acquisition through interaction. Copyright © 2009 ISCA.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This paper investigates several approaches to bootstrapping a new spoken language understanding (SLU) component in a target language given a large dataset of semantically-annotated utterances in some other source language. The aim is to reduce the cost associated with porting a spoken dialogue system from one language to another by minimising the amount of data required in the target language. Since word-level semantic annotations are costly, Semantic Tuple Classifiers (STCs) are used in conjunction with statistical machine translation models both of which are trained from unaligned data to further reduce development time. The paper presents experiments in which a French SLU component in the tourist information domain is bootstrapped from English data. Results show that training STCs on automatically translated data produced the best performance for predicting the utterance's dialogue act type, however individual slot/value pairs are best predicted by training STCs on the source language and using them to decode translated utterances. © 2010 ISCA.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Current commercial dialogue systems typically use hand-crafted grammars for Spoken Language Understanding (SLU) operating on the top one or two hypotheses output by the speech recogniser. These systems are expensive to develop and they suffer from significant degradation in performance when faced with recognition errors. This paper presents a robust method for SLU based on features extracted from the full posterior distribution of recognition hypotheses encoded in the form of word confusion networks. Following [1], the system uses SVM classifiers operating on n-gram features, trained on unaligned input/output pairs. Performance is evaluated on both an off-line corpus and on-line in a live user trial. It is shown that a statistical discriminative approach to SLU operating on the full posterior ASR output distribution can substantially improve performance both in terms of accuracy and overall dialogue reward. Furthermore, additional gains can be obtained by incorporating features from the previous system output. © 2012 IEEE.