Hits:
Indexed by:期刊论文
Date of Publication:2012-10-21
Journal:计算机工程与应用
Included Journals:ISTIC、CSCD
Volume:48
Issue:30
Page Number:151-156
ISSN No.:1002-8331
Key Words:正文特征;标签信息;正文抽取
Abstract:Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础.在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法.在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息.实验证明,这种方法具有很好的准确率及召回率.