6 resultados para corpora, terminologia, termini, estrazione automatica

em Universidade Federal do Pará


Relevância:

20.00% 20.00%

Publicador:

Resumo:

Este trabalho, fundamentado em duas correntes teóricas terminológicas - a Socioterminologia e Teoria Comunicativa da Terminologia, propôs descrever e apresentar sob forma de glossário em uma versão impressa e outra eletrônica a linguagem técnica da ALBRAS Alumínio Brasileiro S.A., a maior indústria de produção de alumínio do norte do Brasil. A coleta dos termos para listagem foi feita a partir de 53 textos especializados distribuídos de acordo com sete áreas operacionais da empresa. Com este trabalho de coleta, buscou-se extrair não apenas os termos técnicos, mas também as definições e contextos de ocorrência dos termos. Para melhoramento qualitativo e quantitativo do repertório escolhido, elaboramos uma listagem com os termos coletados e procedemos com entrevistas, relativas ? s informações sobre esses termos, junto a um corpo de 20 funcionários da empresa. Essas entrevistas tiveram como propósito complementar informações relativas as definições e aos contextos. Esses dados foram digitalizados em um programa computacional chamado Lexique-Pro que automaticamente organizou as entradas do glossário em ordem alfabética. Após uma versão provisória, procedemos com a checagem junto a alguns especialistas da área para ver se as informações relativas as definições e aos contextos estavam de acordo com seus entendimentos. A versão definitiva do repertório possui 640 entradas que representam um amplo universo da linguagem técnica atual da metalurgia do alumínio, embora se compreenda que o trabalho tenha sido exaustivo, não representa a totalidade dos termos técnicos correspondente a esta área de conhecimento. Apresentamos as unidades terminológicas, descrevendo seus funcionamentos por meio de atribuição de definição e comprovando seus usos reais através de contextos. Assim, apresentamos o Glossário Terminológico da Indústria do Alumínio como uma importante ferramenta tanto para os profissionais da área quanto para os demais profissionais interessados pela linguagem desta atividade humana.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

O 3º Consenso Brasileiro para pesquisa de autoanticorpos em Células HEp-2 (FAN) teve como propósito avaliar as dificuldades de implantação do 2º Consenso ocorrido no ano de 2002, discutir estratégias para controlar a qualidade do ensaio e promover a atualização das associações clínicas dos diversos padrões. MÉTODOS: Participaram do encontro em Goiânia nos dias 13 e 14 de abril de 2008 pesquisadores e especialistas de diversos centros universitários e laboratórios clínicos de diferentes regiões do Brasil, com o propósito de discutir e aprovar as recomendações que visam à melhor padronização, interpretação e utilização do ensaio pelos clínicos. Representantes comerciais de diferentes empresas produtoras de insumos para realização do teste de FAN foram convidados como ouvintes. RESULTADOS E CONCLUSÕES: O 3º Consenso enfatizou a necessidade do controle de qualidade em imunofluorescência dada a heterogeneidade de microscópios e reagentes disponíveis no mercado, promoveu adequações na terminologia utilizada para classificar os diferentes padrões e, finalmente, atualizou as associações clínicas com finalidade de facilitar cada vez mais o melhor uso do ensaio pelos clínicos.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

OBJETIVO: O III Consenso Brasileiro para Pesquisa de Autoanticorpos em Células HEp-2 (FAN) objetivou discutir estratégias para controlar a qualidade do ensaio, promover a atualização das associações clínicas dos diversos padrões e avaliar as dificuldades de implantação do II Consenso ocorrido no ano de 2002. MÉTODOS: Nos dias 13 e 14 de abril de 2007 participaram do encontro em Goiânia pesquisadores e especialistas de diversos centros universitários e laboratórios clínicos de diferentes regiões do Brasil, com o propósito de discutir e aprovar as recomendações que visam a melhores padronização, interpretação e utilização do ensaio pelos clínicos. Foram convidados como ouvintes representantes comerciais de diferentes empresas produtoras de insumos para realização do teste de FAN. RESULTADOS E CONCLUSÃO: Dada a heterogeneidade de microscópios e reagentes disponíveis no mercado, o III Consenso enfatizou a necessidade do controle de qualidade em ensaios de imunofluorescência indireta. Foram também feitas algumas adequações na terminologia utilizada para classificar os diferentes padrões. Finalmente, foi realizada uma atualização das associações clínicas com finalidade de facilitar cada vez mais o melhor uso do ensaio pelos clínicos.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável.