藏文统计语言模型研究


Autoria(s): 谢文森
Contribuinte(s)

吴健

Data(s)

05/06/2009

Resumo

藏文语言模型是藏文信息处理的基础和核心技术。研究和开发具有强大描述藏语能力的藏文统计语言模型对藏文信息处理的各个应用领域,如机器翻译、藏文语音识别、藏文输入法、藏字校对和藏文信息检索等具有重要的现实意义和实用价值,构建藏文语言模型是藏文信息处理的关键性基础工作,是实现藏文信息化的必要步骤。 本文首先对藏文自动分词进行了研究,实现了基于格助词的藏文最大匹配分词方案。接着研究了统计语言模型构造、数据平滑等技术,实现了一个藏文统计语言模型系统,主要包括词频统计、模型训练和模型评估三个模块。为解决数据稀疏问题,实现了多种模型平滑方法,包括Witten-Bell平滑、绝对折扣平滑、Kneser-Ney平滑和修正的Kneser-Ney平滑。 本文的实验在收集和整理一定规模的藏文语料并进行预处理的基础上,使用分词程序对藏文文本进行分词,并将藏文文本分成训练语料和测试语料两个部分。接着使用测试语料训练得到藏文统计语言模型,并使用了多种平滑方法,结合测试语料对藏文统计语言模型进行评估,比较了不同平滑方法的优劣。

Identificador

http://ir.iscas.ac.cn/handle/311060/214

http://www.irgrid.ac.cn/handle/1471x/67291

Idioma(s)

中文

Fonte

谢文森.藏文统计语言模型研究[硕士论文].软件园5号楼12层A1206.中国科学院软件研究所.2009

Palavras-Chave #人工智能::自然语言处理 #统计语言模型
Tipo

学位论文