Biblioteca Digital

**Autoria(s):** You, Yue; Xu, Guandong; Cao, Jian; Zhang, Yanchun; Huang, Guangyan
Data(s)	01/01/2013
Resumo	Traditional information extraction methods mainly rely on visual feature assisted techniques; but without considering the hierarchical dependencies within the paragraph structure, some important information is missing. This paper proposes an integrated approach for extracting academic information from conference Web pages. Firstly, Web pages are segmented into text blocks by applying a new hybrid page segmentation algorithm which combines visual feature and DOM structure together. Then, these text blocks are labeled by a Tree-structured Random Fields model, and the block functions are differentiated using various features such as visual features, semantic features and hierarchical dependencies. Finally, an additional post-processing is introduced to tune the initial annotation results. Our experimental results on real-world data sets demonstrated that the proposed method is able to effectively and accurately extract the needed academic information from conference Web pages. © 2013 Springer-Verlag.
Identificador	http://hdl.handle.net/10536/DRO/DU:30083693
Idioma(s)	eng
Publicador	Springer
Relação	http://dro.deakin.edu.au/eserv/DU:30083693/huang-leveragingvisual-2013.pdf http://dro.deakin.edu.au/eserv/DU:30083693/huang-leveragingvisual-evid-2013.pdf http://www.dx.doi.org/10.1007/978-3-642-37401-2_41
Direitos	2013, Springer
Tipo	Conference Paper

Acesso ao item digital