French-greek machine translation of imperative sentences: issues in aspect and mood from a controlled language perspective


Autoria(s): Kriezia, Eleni
Contribuinte(s)

Baptista, Jorge

Cardey, Sylviane

Data(s)

15/10/2014

15/10/2014

2012

2012

Resumo

The present dissertation examines how grammatical aspect and mood are handled by machine translation (MT) systems within the scope of imperative sentences (orders, recommendations) when dealing with the language pair French-Greek (unidirectional, towards Greek). As the grammatical category of aspect is not expressed in the same way in both languages, choosing the correct aspect value when translating a verb from French to Greek can pose problems. We are interested in describing the types of errors that occur and their frequency in a corpus taken from texts pertaining to the security domain and from technical manuals, where imperative sentences are very common. In order to further delimit our research, our sample consists of sentences that comply with the general principles of simplicity and readability provided by several controlled language guidelines and aimed at higher translatability when having MT in mind. In a second phase, this study aims at discovering how modifying some of the control rules would help (or not) the MT systems better decide upon the translation of aspect and mood.

A presente dissertação analisa a forma como o modo e o aspecto gramatical são tratados pelos sistemas de tradução automática no âmbito das frases imperativas (ordens, recomendações), no caso do par de línguas francês, grego (unidireccional, para o grego). Como a categoria gramatical do aspecto não se expressa da mesma forma em ambas as línguas, a escolha correcta do valor do aspecto ao traduzir um verbo do francês para o grego pode causar problemas. Estamos interessados em descrever os tipos de erros que ocorrem e a sua frequência num corpus retirado de textos pertencentes ao domínio de segurança, de manuais técnicos e de receitas, onde frases imperativas são muito comuns. A fim de delimitar a nossa pesquisa, a amostra foi composta de frases que cumprem os princípios gerais de simplicidade e legibilidade fornecidas por várias orientações de linguagem controlada e destinada a maior traduzibilidade quando se tem em mente a tradução automática. Numa segunda fase, este estudo tem como objectivo descobrir como a modificação de algumas das regras de controlo ajudaria (ou não) os sistemas de Tradução Automática a escolher sobre a tradução de aspecto et de modo. Para este projecto, foi elaborado um sistema de avaliação do verbo com consideração de três parâmetros: modo (2 pontos), aspecto (1 ponto) e pessoa/número (0,5 pontos). Adicionalmente, se o modo fosse correcto era avaliado se a presença da partícula do conjuntivo να (na) era adequada (0 pontos) ou não (-1 ponto). Consequentemente, as pontuações variam de 0 (se o verbo não for correcto do ponto de vista de nenhum dos três parâmetros) a 3,5 (o verbo é absolutamente correcto). Também, foi adicionada a pontuação “00” para os casos nos quais o verbo não está presente na tradução ou não foi traduzido, ou ainda se estiver presente na tradução mas não for traduzido como verbo. Este projecto foi dividido em duas fases. Na primeira fase, as regras de controlo foram intencionalmente menos estritas a fim de testar se determinados fenómenos podem estar ligados a pontuações inferiores. Concluiu-se que, para nossa amostra, a coordenação e a causalidade foram conectadas a pontuações menores. A forma do verbo foi vista como sendo de alguma importância no caso das pontuações mais baixas (0 e “00”). A subordinação não parece influenciar a tradução do verbo principal e não foi, consequentemente, tomada em consideração. A negação foi um factor que não foi considerado desde o início, mas surgiu durante a análise dos resultados. Percebeu-se que o padrão neg1 Vimp neg2, em todas as frases, quando ele apareceu, cedeu 0 pontos para o Systran.Com base nos resultados obtidos na primeira fase, um conjunto de quatro regras de controlo foi criado. Cada regra visava um problema específico. A regra de controlo 1 visa o problema de coordenação. A regra de controlo 2 visa determinar se há uma associação entre a forma verbal dafrase original (infinitivo ou imperativo) e a qualidade da tradução do verbo. A regra de controlo 3 pode ser considerada como um caso especial da primeira, mas tem como objetivo o padrão de negação neg1 Vimp neg2, que foi substituído pelo padrão neg1 neg2 Vimp. A regra de controlo 4 destina-se a testar se a introdução de um marcador de imperfectividade (como os advérbios sempre e nunca), nas frases em que imperfectividade está implícita, daria um aspecto imperfectivo na tradução grega. As quatro regras de controlo foram aplicadas separadamente nas frases, com o fim de verificar o seu impacto sobre a tradução do verbo. Finalmente, duas das quatro regras de controlo foram mantidas (regra 1 e regra 3). As regras de controlo 2 e 4 foram descartadas por razões diferentes. A regra de controlo 2 produziu resultados ligeiramente melhores para o Google, que no entanto não foram considerados como significativas, a fim de manter a regra. Para o Systran, a regra reduziu a ocorrência de pontuações de 0 pontos, mas também praticamente eliminou a grande maioria das pontuações de 3,5 pontos da fase anterior, fazendo com que a pontuação média para as frases tivesse diminuído. A regra de controlo 4 não produziu quase nenhuma alteração no aspecto e foi, portanto, rejeitada. Para a segunda fase, as duas regras que foram mantidas foram aplicadas simultaneamente. As médias gerais melhoraram tanto para o Google e o Systran em 0,27 e 0,45 respectivamente. É notável que, para o Systran, as pontuações 0 diminuíram para menos de metade (de 74 a 30). Apenas duas frases sofreram alterações, resultando num pior resultado para o Systran. Tanto na primeira fase como na segunda fase, o Google superou o Systran. Na segunda fase, a diferença entre as médias gerais diminuiu ligeiramente (de 0,7 a 0,52). É notável como a aplicação das regras de controlo causou apenas pequenas alterações na distribuição dos resultados para o Google, enquanto afectou grandemente a distribuição dos resultados do Systran. O efeito menos significativo das regras de controlo sobre os resultados do Google pode ser atribuído à sua natureza puramente estatística, que torna o efeito das regras menos previsível. Pelo contrário, o Systran é um sistema híbrido e a sua componente baseado em regras é possivelmente o que o faz mais constante sobre os seus erros e as causas deles.

Universidade do Algarve, Faculdade de Ciências Humanas e Sociais

Identificador

http://hdl.handle.net/10400.1/5347

Idioma(s)

por

Direitos

closedAccess

Palavras-Chave #Processamento da linguagem natural #Tradução automática #Frases
Tipo

masterThesis