基于小世界模型的中文文本主题分析


Autoria(s): 石晶; 胡明; 戴国忠
Data(s)

2007

Resumo

本文旨在研究如何基于小世界模型进行文本分割,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来。为此首先证明由文本形成的词汇共现图呈现短路径,高聚集度的特性,说明小世界结构存在于文本中;然后依据小世界结构将词汇共现图划分为“簇”,通过计算“簇”在文本中所占的密度比重识别片段边界,使“簇”与片段对应起来;最后利用短路径,高聚集度的特性提取图“簇”的主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵。虽然国际上已有很多关于小世界结构及基于其上的应用研究,但利用小世界特性进行主题分析还是一个崭新的课题。实验表明,本文所给方法的结果明显好于其他方法,说明可以为下一步文本推理的工作提供有价值的预处理。

Identificador

http://ir.iscas.ac.cn/handle/311060/2226

http://www.irgrid.ac.cn/handle/1471x/68050

Idioma(s)

中文

Fonte

石晶; 胡明; 戴国忠.基于小世界模型的中文文本主题分析,中文信息学报,2007,21(3):69-75

Palavras-Chave #计算机应用 #中文信息处理 #主题分析 #小世界模型 #文本分割 #词汇聚类
Tipo

期刊论文