基于词汇链与文本切分的更新型多文档摘要技术研究


Autoria(s): 李靖
Contribuinte(s)

孙乐

Data(s)

04/06/2008

Resumo

本文从文本摘要的背景和概念入手,着重介绍了新近出现的两种自动文本摘要类型:查询型摘要和更新型摘要。接着从基于外部特征、基于简单语义分析和基于深度语义分析三个方面详细给出了自动文本摘要技术的主要方法,以及目前国际上普遍采用的三种自动摘要评价方法:ROUGE,Pyramid,BE。本文以基于词汇链的摘要方法为研究重点,在描述词汇链构建算法、词汇链摘要算法及其优化算法的基础上,主要从以下四个方面展开了研究工作: 1) 将用户查询关键词词义序列引入词汇链评分算法,利用词汇链与查询关键词词义序列的语义相似度为词汇链评分,并结合经典的Strongest Chain评分方法以获得能同时满足正确体现原文含义并且符合用户查询的词汇链。 2) 利用词汇链是原始文档含义的中间表示这一特性,通过对来自历史文档和待摘要文档这两方面的词汇链进行相似度计算,实现了历史信息与新信息的分离,并依此生成了更新型摘要。 3) 对旧词汇链结构进行扩展,使之同时包含链成员来源句段,并且通过引入文本切分研究领域的TextTiling算法,对同一条链的链成员来源句段所组成的临时短文进行切分,以切分结果作为摘要候选,实现了句子抽取的摘要生成方法和段落抽取的摘要生成方法的结合,提高了生成摘要的良构性。 4) 依据上述算法改良了原有的自动文本摘要系统,并与跨语言检索系统相结合实现了一个中英跨语言新闻摘要系统。

Identificador

http://ir.iscas.ac.cn/handle/311060/6276

http://www.irgrid.ac.cn/handle/1471x/143932

Fonte

基于词汇链与文本切分的更新型多文档摘要技术研究.李靖[d].中国科学院软件研究所,2008.20-25

Palavras-Chave #自动文本摘要 #查询型摘要 #更新型摘要 #词汇链
Tipo

学位论文