王宇

个人信息Personal Information

教授

硕士生导师

性别:男

毕业院校:吉林大学

学位:博士

所在单位:信息管理与信息系统研究所

学科:信息管理与电子政务

办公地点:管理楼518

电子邮箱:ywang@dlut.edu.cn

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

一种基于正文特征的新闻网页抽取方法

点击次数:

论文类型:期刊论文

发表时间:2010-08-18

发表刊物:情报杂志

收录刊物:PKU、CSSCI

卷号:29

期号:8

页面范围:122-124,54

ISSN号:1002-1965

关键字:正文特征;网页抽取;DOM模型

摘要:在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值.