王宇

个人信息Personal Information

教授

硕士生导师

性别:男

毕业院校:吉林大学

学位:博士

所在单位:信息管理与信息系统研究所

学科:信息管理与电子政务

办公地点:管理楼518

电子邮箱:ywang@dlut.edu.cn

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于正文特征及网页结构的主题网页信息抽取

点击次数:

论文类型:期刊论文

发表时间:2012-10-21

发表刊物:计算机工程与应用

收录刊物:ISTIC、CSCD

卷号:48

期号:30

页面范围:151-156

ISSN号:1002-8331

关键字:正文特征;标签信息;正文抽取

摘要:Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础.在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法.在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息.实验证明,这种方法具有很好的准确率及召回率.