2 resultados para Transposições ortográficas

em Portal do Conhecimento - Ministerio do Ensino Superior Ciencia e Inovacao, Cape Verde


Relevância:

10.00% 10.00%

Publicador:

Resumo:

Neste trabalho, discutirei as relações entre as fonologias das línguas crioulas de São Tomé e Príncipe (stp) e o anteprojeto da proposta ortográfica unificada do Alfabeto Unificado para a Escrita das Línguas Nativas de S. Tomé e Príncipe (alustp): o São-tomense (Fôlo ou Forro), o Angolar (ou Ngola) e o Principense (Lung’iê). Assim, apresentarei, em primeiro lugar, as ‘ortografias autorais’ utilizadas anteriormente e, em seguida, mostrarei as principais características do alustp, destacando os seus pontos positivos e negativos. Tanto em stp como em outros países da África, o planejamento linguístico das línguas crioulas mostra-se problemático devido a questões relativas à oficialização, à manutenção, à codificação e à padronização destas línguas, que comumente convivem em ambientes multilíngues e/ou em situação de diglossia. Contudo, propostas ortográficas oficiais têm se mostrado de grande importância, posto que o uso de material linguístico (como gramáticas, dicionários etc.) auxilia o aprendizado das línguas crioulas nas escolas e as tornam línguas de prestígio

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Esta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis para esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que se apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas, que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistemas de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridade entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual se publicaram vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, o código fonte de todo sistema de treino e conversão e um demonstrador online.