基于Labeled-LDA模型的文本分类新算法


Autoria(s): 李文波; 孙乐; 张大鲲
Data(s)

2008

Resumo

LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro_F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro—F-提高约3%.

Identificador

http://ir.iscas.ac.cn/handle/311060/620

http://www.irgrid.ac.cn/handle/1471x/67491

Idioma(s)

中文

Fonte

李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法.计算机学报,2008,31(4):620-627

Palavras-Chave #文本分类
Tipo

期刊论文