Estruturas de dados para representação de um léxico bilingue
Contribuinte(s) |
Russo, Luís Lopes, José Gabriel Pereira |
---|---|
Data(s) |
18/02/2011
18/02/2011
2010
|
Resumo |
Trabalho apresentado no âmbito do Mestrado em Engenharia Informática, como requisito parcial para obtenção do grau de Mestre em Engenharia Informática Através do processo de tradução, vários textos importantes tornaram-se universais e disponíveis em várias línguas. A globalização torna o processo de tradução cada vez mais crítico, devido à maior quantidade de textos disponíveis online, sendo por isso importante desenvolver novos projectos nesta área. O objectivo desta dissertação foi implementar um sistema para gestão e representação de um léxico bilingue. O léxico bilingue é uma estrutura essencial em ferramentas para tradução e armazena expressões de duas línguas diferentes. A implementação do sistema é baseada em árvores de sufixos generalizadas, uma para cada linguagem representada. As árvores de sufixos são construídas usando o algoritmo de Ukkonen. Na gestão das duas árvores de sufixos definem-se ligações de correspondência entre duas expressões de línguas diferentes, que sejam adicionados ao sistema, marcando-os como tradução um do outro. Porém, a característica única do sistema é a cobertura, que pode ser monolingue ou bilingue. A cobertura monolingue verifica quais os segmentos de uma expressão que se encontram na respectiva árvore. A cobertura bilingue faz a mesma verificação para um par de expressões, analisando depois quais os diferentes pares de segmentos têm ligação de correspondência entre eles. Com este tipo de informação, o sistema torna-se muito útil a aplicações que envolvam extracção de pares de tradução e alinhamento de textos paralelos, permitindo descobrir traduções que sejam desconhecidas. No final, é feita uma comparação da eficiência das operações de cobertura com uma implementação baseada nas árvores de sufixos, contra uma implementação baseada em arrays de sufixos. |
Identificador | |
Idioma(s) |
por |
Publicador |
Faculdade de Ciências e Tecnologia |
Direitos |
openAccess |
Palavras-Chave | #Cobertura #Correspondência #Alinhamento #Tradução #Léxico |
Tipo |
masterThesis |