Estruturas de dados para representação de um léxico bilingue


Autoria(s): Costa, Jorge André Nogueira da
Contribuinte(s)

Russo, Luís

Lopes, José Gabriel Pereira

Data(s)

18/02/2011

18/02/2011

2010

Resumo

Trabalho apresentado no âmbito do Mestrado em Engenharia Informática, como requisito parcial para obtenção do grau de Mestre em Engenharia Informática

Através do processo de tradução, vários textos importantes tornaram-se universais e disponíveis em várias línguas. A globalização torna o processo de tradução cada vez mais crítico, devido à maior quantidade de textos disponíveis online, sendo por isso importante desenvolver novos projectos nesta área. O objectivo desta dissertação foi implementar um sistema para gestão e representação de um léxico bilingue. O léxico bilingue é uma estrutura essencial em ferramentas para tradução e armazena expressões de duas línguas diferentes. A implementação do sistema é baseada em árvores de sufixos generalizadas, uma para cada linguagem representada. As árvores de sufixos são construídas usando o algoritmo de Ukkonen. Na gestão das duas árvores de sufixos definem-se ligações de correspondência entre duas expressões de línguas diferentes, que sejam adicionados ao sistema, marcando-os como tradução um do outro. Porém, a característica única do sistema é a cobertura, que pode ser monolingue ou bilingue. A cobertura monolingue verifica quais os segmentos de uma expressão que se encontram na respectiva árvore. A cobertura bilingue faz a mesma verificação para um par de expressões, analisando depois quais os diferentes pares de segmentos têm ligação de correspondência entre eles. Com este tipo de informação, o sistema torna-se muito útil a aplicações que envolvam extracção de pares de tradução e alinhamento de textos paralelos, permitindo descobrir traduções que sejam desconhecidas. No final, é feita uma comparação da eficiência das operações de cobertura com uma implementação baseada nas árvores de sufixos, contra uma implementação baseada em arrays de sufixos.

Identificador

http://hdl.handle.net/10362/5177

Idioma(s)

por

Publicador

Faculdade de Ciências e Tecnologia

Direitos

openAccess

Palavras-Chave #Cobertura #Correspondência #Alinhamento #Tradução #Léxico
Tipo

masterThesis