7 resultados para Syllabification
Resumo:
In this paper, a rule-based automatic syllabifier for Danish is described using the Maximal Onset Principle. Prior success rates of rule-based methods applied to Portuguese and Catalan syllabification modules were on the basis of this work. The system was implemented and tested using a very small set of rules. The results gave rise to 96.9% and 98.7% of word accuracy rate, contrary to our initial expectations, being Danish a language with a complex syllabic structure and thus difficult to be rule-driven. Comparison with data-driven syllabification system using artificial neural networks showed a higher accuracy rate of the former system.
Resumo:
Given the importance of syllables in the development of reading, spelling, and phonological awareness, information is needed about how children syllabify spoken words. To what extent is syllabification affected by knowledge of spelling, to what extent by phonology, and which phonological factors are influential? In Experiment 1, six- and seven-year-old children did not show effects of spelling on oral syllabification, performing similarly on words such as habit and rabbit. Spelling influenced the syllabification of older children and adults, with the results suggesting that knowledge of spelling must be well entrenched before it begins to affect oral syllabification. Experiment 2 revealed influences of phonological factors on syllabification that were similar across age groups. Young children, like older children and adults, showed differences between words with short and long vowels (e.g., lemon vs. demon) and words with sonorant and obstruent intervocalic consonants (e.g., melon vs. wagon). (C) 2002 Elsevier Science (USA). All rights reserved.
Resumo:
A fala apresenta aspectos paralinguísticos que não pertencem ao código linguístico convencional, mas contribuem significativamente para a unidade temática do discurso, Essas realizações se constituem em enunciados não-lexicalizados que funcionam que funcionam como atos de fala completos nas interações comunicativas interpessoais. Sobre essas emissões não-verbais, Campbell (2002a, 2002b, 2003 e 2004), Maekawa (2004), Fujie et. al (2004), Hoult (2004), Key (1958) apud Steimberg (1988) postulam que elas constribuem para a manifestação da fala expressiva. Para os autores, é justamente o fenômeno da paralinguagem que sinaliza informações sobre atitudes, opiniões e emoções do falante em relação ao interlocutor ou ao tópico discursivo. Nesse sentido, investigamos, neste trabalho, as manifestações paralinguísticas recorrentes em conversas informais para demonstrarmos seu papel expressivo na linguagem falada. Para tanto, fizemos um levantamento de 450 ocorrências de elementos paralinguísticos no processo de transcrição de amostras de falas do Português Regional Paraense produzidas em situações reais de conversação. Pressupondo que essas realizações não-verbais são caracterizadas por variações prosódicas, nós as submetemos a uma análise fonética por meio do software PRAAT. A partir dessa análise, constatamos a contribuição de duas propriedades: a frequência fundamental (F0) e o tempo de emissão, para a manifestação expressiva dos elementos paralinguísticos no discurso falado. Além disso, identificamos também a silabação como uma propriedade comum às realizações sonoras focalizadas. Após o processo de análise, fizemos a descrição do uso e do funcionamento desses elementos nas conversas, bem como da contribuição deles para a manifestação da fala expressiva. Os resultados nos mostram que os elementos paralinguísticos, além de contribuírem para a fluência do discurso falado, desempenham a função de sinalizar compreensão, interesse e/ou atenção, gerenciar relações interpessoais e expressar emoções, atitudes e afeto.
Resumo:
Sistema Texto-Fala (TTS) é atualmente uma tecnologia madura que é utilizada em muitas aplicações. Alguns módulos de um sistema TTS são dependentes do idioma e, enquanto existem muitos recursos disponíveis para a língua inglesa, os recursos para alguns idiomas ainda são limitados. Este trabalho descreve o desenvolvimento de um sistema TTS completo para português brasileiro (PB), o qual também apresenta os recursos já disponíveis. O sistema usa a plataforma MARY e o processo de síntese da voz é baseado em cadeias escondidas de Markov (HMM). Algumas das contribuições deste trabalho consistem na implementação de silabação, determinação da sílaba tônica e conversão grafema-fonema (G2P). O trabalho também descreve as etapas para a organização dos recursos desenvolvidos e a criação de uma voz em PB junto ao MARY. Estes recursos estão disponíveis e facilita a pesquisa na normalização de texto e síntese baseada em HMM par o PB.
Resumo:
Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão.
Resumo:
Artykuł dotyczy korpusu tekstów dla dzieci, który został utworzony na potrzeby projektu Graphogame-Fluent*, poświęconego ocenie skuteczności komputerowych gier edukacyjnych w terapii trudności w czytaniu (Szczerbiński et al. 2012). W artykule poruszono zagadnienia związane z przygotowaniem korpusu, przy czym najwięcej uwagi poświęcono podziałowi korpusu na sylaby (Śledziński 2010). W publikacji przedstawiono kilka istotnych pojęć lingwistycznych – definicje: sylaby, sonorności i skali sonorności. Na podstawie dostępnych definicji nie da się przeprowadzić jednoznacznego podziału na sylaby. Problem ten w szczególności dotyczy języka polskiego – ze względu na występujące licznie wieloelementowe grupy spółgłoskowe o strukturze niespotykanej w innych językach. Na potrzeby praktyczne można jednak zastosować określone procedury i rozwiązania umowne. W artykule zaproponowano dwuetapową procedurę sylabizacji. Pierwszy etap obejmuje wyznaczenie kategorii zbitek spółgłoskowych oraz ustalenie dla tych kategorii wstępnego podziału opartego na zasadzie sonorności (jeżeli jest to możliwe). Etap drugi związany jest z ustaleniem umownych szczegółowych reguł podziału dla konkretnych zbitek spółgłoskowych przy uwzględnieniu wskazówek, które również zostały omówione w artykule.
Resumo:
In the last sixty years a steadily maintained process of convergence towards the Castilian national standard has been occurring in Southern Spain affecting urban middle-class speakers’ varieties, particularly phonology and lexis. As a consequence, unmarked features characterising innovative southern pronunciation have become less frequent and, at the same time, certain standard marked features have been adapted to the southern phonemic inventory. Then, urban middle-class varieties have progressively been stretching out the distance separating them from working-class and rural varieties, and bringing them closer to central Castilian varieties. Intermediate, yet incipient koineised varieties have been described including also transitional Murcia and Extremadura dialects (Hernández & Villena 2009, Villena, Vida & von Essen 2015). (1) Some of the standard phonologically marked features have spread out among southern speakers exclusively based on their mainstream social prestige and producing not only changes in obstruent phoneme inventory –i.e. acquisition of /s/ vs. /θ/ contrast, but also standstill and even reversion of old consonant push- or pull-chain shifts –e.g. /h/ or /d/ fortition, affricate /ʧ/, etc. as well as traditional lexis shift (Villena et al. 2016). Internal (grammar and word frequency) and external (stratification, network and style) factors constraining those features follow similar patterns in the Andalusian speech communities analysed so far (Granada, Malaga) but when we zoom in on central varieties, which are closer to the national standard and then more conservative, differences in frequency increase and conflict sites emerge. (2) Unmarked ‘natural’ phonological features characterising southern dialects, particularly deletion of syllable-final consonant, do not keep pace with this trend of convergence towards the standard. Thus a combination of southern innovative syllable-final and standard conservative onset-consonant features coexist. (3). The main idea is that this intermediate variety is formed through changes suggesting that Andalusian speakers look for the best way of accepting marked prestige features without altering coherence within their inventory. Either reorganisation of the innovative phonemic system in such a way that it may include Castilian and standard /s/ vs. /θ/ contrast or re-syllabification of aspirated /s/ before dental stop are excellent examples of how and why linguistic features are able to integrate intermediate varieties between the dialect-standard continuum.