基于Context_Graphs的主题爬虫系统的设计与实现


Autoria(s): 陈星
Contribuinte(s)

秦晓

Data(s)

01/06/2010

Resumo

为了利用有限的硬件资源和存储空间,即时获取网络上用户最关心的数据,研究者们提出了主题爬虫。以往的通用爬虫既不考虑页面内容与主题的相关度,也不做任何预测,相比之下,主题爬虫以一定策略去评价网页的优先度,选择最为可能获取主题网页的路径进行搜索,因此有能力更快更准地获取目标网页。 主题爬虫爬行策略有很多方法,其中,Context Graphs方法是一种结合了网页的文字内容信息与Web超链结构信息的综合方法。Context Graphs方法将网络中的页面视为分层的结构,链接到达主题网页的页面根据其特征会被分到一定层次中。基于各个层次的特征,可以指导爬行器更快地去发掘可能存在的主题页面。然而,以往的Context Graphs方法在建立层次模型的时候没有区分网页不同部分文本信息的重要程度,但是在很多情况下,网页标题、超链锚文字等信息在区分网页主题时比网页正文内容更重要。此外,Context Graphs方法在指导抓取的时候不能根据新得到的主题网页更新模型,事实上,如果能利用这些新得到的网页来增量更新模型,将有可能获得更为准确的结果。基于这两点,作者提出了一种采用混合打分法以及引入模型反馈更新机制的M-Context Graphs方法,并进一步设计并实现了一个主题爬虫原型系统。 本文首先对目前已有的和正在探索中的各种主题爬行策略进行了综述和分析,并对国内外主题爬虫系统的开发现状做了简要介绍;接下来,本文详细介绍了M-Context Graphs方法中的混合打分法和模型反馈更新策略,并进一步给出了一个主题爬虫原型系统的详细设计和实现方案。最后,利用该系统通过实验比较了M-Context Graphs算法与以往算法,结果表明,M-Context Graphs方法确实获得了更好的效果。

Identificador

http://ir.iscas.ac.cn/handle/311060/2326

http://www.irgrid.ac.cn/handle/1471x/141803

Idioma(s)

中文

Fonte

陈星.基于Context_Graphs的主题爬虫系统的设计与实现[硕士].北京.中国科学院研究生院.2010

Palavras-Chave #计算机应用 #计算机应用::计算机应用其他学科 #主题爬虫 #Context Graphs模型 #层次建模 #链接分析 #内容分析
Tipo

学位论文