4 resultados para Noisy corpora.

em Repositório Institucional da Universidade de Aveiro - Portugal


Relevância:

10.00% 10.00%

Publicador:

Resumo:

No trabalho apresentado realiza-se uma primeira descrição de voz e emoção para o Português Europeu. Estudamos, utilizando como base estudos realizados em diversas línguas (finlandês; inglês; alemão), os parâmetros relacionados com voz e que variam consoante a emoção que expressamos. Analisamos assim os parâmetros relacionados com a frequência Fundamental (F0) com a perturbação (jitter) com a amplitude (shimmer) e com aspectos relacionados com o ruído (HNR). Trata-se de um estudo abrangente que estudando voz e a sua relação/variação de acordo com a emoção o faz em três vertentes: patologia de voz de origem psicogénica (carácter emocional); emoção produzida por actores e a análise de emoção espontânea. Conseguindo, como trabalho pioneiro nesta área, valores para todos estes tipos de produção. Salientamos o facto de no nosso trabalho apenas existir a análise de voz sem recurso a expressão facial ou à postura dos indivíduos. Para que pudéssemos realizar estudos comparativos com os dados que íamos recolhendo em cada corpus (patologia; emoção por actor e emoção espontânea), procurámos utilizar sempre os mesmos métodos de análise (Praat; SFS; SPSS, Hoarseness Diagram – para a análise de voz com patologia - e o sistema Feeltrace - para as emoções espontâneas). Os estudos e análises relativos à emoção produzida por actores são complementados por testes de percepção aplicados a falantes nativos de Inglês Americano e a falantes de Português Europeu. Este teste, juntamente com a análise da emoção espontânea, permitiu-nos retirar dados particulares relativos à língua portuguesa. Apesar de haver tanto na expressão como na percepção de emoções muitas características consideradas universais, em Português percebe-se algo de peculiar. Os valores para a expressão neutra; tristeza e alegria são todos muito próximos, ao contrário do que acontece noutras línguas. Além disso estas três emoções (de famílias distintas) são as que mais dificuldades causam (aos dois grupos de informantes) em termos de distinção no teste de percepção. Poderá ser esta a particularidade da expressão da emoção no Português Europeu, podendo estar ligada a factores culturais. Percebe-se ainda, com este trabalho, que a emoção expressa pelo actor se aproxima da emoção espontânea. No entanto, alguns parâmetros apresentam valores diferentes, isto porque o actor tem a tendência de exagerar a emoção. Com este trabalho foram criados corpora originais que serão um recurso importante a disponibilizar para futuras análises numa área que é ainda deficitária, em termos de investigação científica, em Portugal. Tanto os corpora, como respectivos resultados obtidos poderão vir a ser úteis em áreas como as Ciências da Fala; Robótica e Docência.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

O presente trabalho de investigação visa propor uma metodologia de elaboração de uma base de dados terminológica destinada a um público não- -especialista, e surge como resposta à necessidade de transmissão de informação ao consumidor, fruto de falta de – ou parca – compreensão do mesmo, relativa a géneros alimentícios com alegações de saúde disponíveis no mercado: os denominados alimentos funcionais. A proposta metodológica de segmentação e caracterização do processo terminográfico, baseada no modelo desenvolvido por Gouadec, para organização do processo global de tradução, encontra-se organizada em três fases – pré-terminografia, terminografia e pós-terminografia –, e compreende três vertentes de análise – uma vertente conceptual, uma vertente comunicativa e uma vertente textual. Em termos gerais, na fase de pré-terminografia é desenvolvido um trabalho preparatório – de familiarização com a área de especialidade e de delimitação da subárea de especialidade, de identificação dos contextos comunicativos e de constituição de corpora especializados – essencial à subsequente fase executória – fase de terminografia – de elaboração do recurso terminológico. A última fase – fase de pós-terminografia – compreende o desenvolvimento de esforços com vista à aplicação industrial do recurso, assim como a sua posterior constante actualização. Constituem objecto de análise do presente trabalho as duas primeiras fases supramencionadas e as etapas que as constituem. A consideração de três vertentes de análise é, de igual forma, relevante.Tal facto é demonstrado ao longo do processo terminográfico, designadamente a nível da análise das repercussões, na fase de terminografia, de cada uma destas vertentes, consideradas já na fase de pré-terminografia. Com este trabalho de investigação pretendemos demonstrar o papel social da Terminologia, no contributo que pode prestar na divulgação de ciência, concretamente através da apresentação de uma proposta de uma base de dados terminológica sobre alimentos funcionais para o consumidor – a AlF Beta. Do mesmo modo, temos por objectivo contribuir a nível da reflexão teórica e metodológica em Terminologia, nomeadamente no que concerne a sua vertente aplicada, através da elaboração de recursos terminológicos destinados a públicos não-especialistas.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

O presente trabalho tem por objecto de estudo o conjunto lexicográfico da Prosodia de Bento Pereira e a recuperação do seu texto. Foi feito o registo integral do texto dicionarístico em suporte digital, totalmente editável. Neste trabalho apresenta-se o estudo da obra no que respeita às suas características lexicográficas e percurso bibliográfico. Dilucida-se ainda o percurso editorial deste conjunto dicionarístico, sobre o qual têm subsistido algumas discrepâncias. A observação do léxico português deste conjunto editorial ocupa uma boa parte deste trabalho. Trata-se de um corpus de grandes dimensões que é constituído por 46 067 formas portuguesas não lematizadas e com numerosas variantes gráficas. Apresentam-se alguns dados estatísticos dos subcorpora português e latino. A confrontação destes corpora permite ainda a observação de testemunhos de relatinização do português e de transferência de sufixos latinos muito produtivos. Observam-se também alguns aspectos do léxico português que assinalam o seu percurso diacrónico. São feitas anotações relativas à formação de palavras através da crescente disponibilidade do sistema sufixal.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The rapid evolution and proliferation of a world-wide computerized network, the Internet, resulted in an overwhelming and constantly growing amount of publicly available data and information, a fact that was also verified in biomedicine. However, the lack of structure of textual data inhibits its direct processing by computational solutions. Information extraction is the task of text mining that intends to automatically collect information from unstructured text data sources. The goal of the work described in this thesis was to build innovative solutions for biomedical information extraction from scientific literature, through the development of simple software artifacts for developers and biocurators, delivering more accurate, usable and faster results. We started by tackling named entity recognition - a crucial initial task - with the development of Gimli, a machine-learning-based solution that follows an incremental approach to optimize extracted linguistic characteristics for each concept type. Afterwards, Totum was built to harmonize concept names provided by heterogeneous systems, delivering a robust solution with improved performance results. Such approach takes advantage of heterogenous corpora to deliver cross-corpus harmonization that is not constrained to specific characteristics. Since previous solutions do not provide links to knowledge bases, Neji was built to streamline the development of complex and custom solutions for biomedical concept name recognition and normalization. This was achieved through a modular and flexible framework focused on speed and performance, integrating a large amount of processing modules optimized for the biomedical domain. To offer on-demand heterogenous biomedical concept identification, we developed BeCAS, a web application, service and widget. We also tackled relation mining by developing TrigNER, a machine-learning-based solution for biomedical event trigger recognition, which applies an automatic algorithm to obtain the best linguistic features and model parameters for each event type. Finally, in order to assist biocurators, Egas was developed to support rapid, interactive and real-time collaborative curation of biomedical documents, through manual and automatic in-line annotation of concepts and relations. Overall, the research work presented in this thesis contributed to a more accurate update of current biomedical knowledge bases, towards improved hypothesis generation and knowledge discovery.