基于结构转换和序列标注的形式化句法统计翻译模型研究


Autoria(s): 张大鲲
Contribuinte(s)

赵琛

孙乐

Data(s)

28/05/2010

Resumo

随着全球化的不断深入和互联网的发展,人们在日常工作和生活中常常需要面对大量的非母语信息,如何利用计算机实现不同语言之间的自动转换以克服人类的语言障碍已成为当前人们的迫切需求。由于统计机器翻译方法具有语言依赖性弱、系统开发周期短、翻译质量较好等优点,目前已成为机器翻译研究界的热点研究方向。本文从形式化句法的角度,针对目前统计机器翻译方法中存在的非连续短语处理、训练和搜索相独立以及短语顺序的调整等问题开展了研究工作。论文的主要工作和创新点总结如下: 1. 改进的短语翻译模型 目前常用的基于短语的翻译模型没有考虑对非连续短语的处理。我们提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,通过借助上下文词汇信息以达到改善翻译结果的目的。同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。实验表明,改进的非连续短语模型在取得与层次型短语模型相当的翻译性能的情况下,计算效率也得到了提高。 2. 基于SEARN的形式化句法模型 在目前的机器学习方法中,训练和搜索的过程相对独立,训练时采用的复杂结构信息在搜索过程中常常难于保持。我们提出了一种转换操作,将集成训练和搜索的结构化预测方法(Search-based Structured Prediction,SEARN)用于转换后的序列标注问题,以解决双语句法树之间的映射。实验表明,该方法在抽取短语数量只有短语模型十分之一的情形下,仍可取得与短语模型相当的翻译性能。 3. 基于压平的双语句法树结构的形式化句法模型 短语顺序是翻译时需要关注的关键问题之一,目前的方法通常只是以源语言端的信息作为调序的依据。我们提出了一种基于压平的双语句法树结构的形式化句法方法。其核心是抽取带有方向属性的短语对,利用这种方向属性辅助目标句子的生成,从而改善目标句子的内部结构(短语顺序)以提高翻译质量。在NIST MT08机器翻译评测数据上的实验表明,这种方法和基于短语的系统相比BLUE值获得7%的提高。 4. 基于序列标注的形式化句法模型 在翻译时句子中的某些区域通常倾向于作为一个整体来进行翻译,目前的方法对句子中的所有词都允许任意位置的词序调整,带来了很多不合理的顺序调整结果。我们提出了一种基于序列标注的形式化句法模型。首先利用压平的双语句法树结构表示双语句子,然后通过我们定义的标签对树节点进行标记,最后借助条件随机场模型对这些标签进行学习。通过这些标签可以区分出能够作为整体翻译的区域,以及句子中难于翻译的部分。同时,对不同的翻译区域可以采用不同的翻译方法,通过局部翻译质量的提高可以带来了整个句子翻译质量的改善。该模型和基于层次型短语的模型比较,BLUE值得到了5%的提高。

Identificador

http://ir.iscas.ac.cn/handle/311060/2305

http://www.irgrid.ac.cn/handle/1471x/67297

Idioma(s)

中文

Fonte

张大鲲.基于结构转换和序列标注的形式化句法统计翻译模型研究[博士].北京.中国科学院研究生院.2010

Palavras-Chave #人工智能::自然语言处理 #统计机器翻译
Tipo

学位论文