大连理工大学主页平台管理系统王宇一种基于正文特征的新闻网页抽取方法 Home

Current position: Home >> Scientific Research >> Paper Publications

一种基于正文特征的新闻网页抽取方法

Release Time:2019-03-10 Hits:

Indexed by: Journal Article

Date of Publication: 2010-08-18

Journal: 情报杂志

Included Journals: CSSCI、PKU

Volume: 29

Issue: 8

Page Number: 122-124,54

ISSN: 1002-1965

Key Words: 正文特征;网页抽取;DOM模型

Abstract: 在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值.

Prev One:Algorithm of the text copy detection based on topic bag

Next One:基于卷积核的港口客户细分方法

Home

Scientific Research

Teaching Research

Awards and Honours

Enrollment Information

Student Information

My Album

Blog

一种基于正文特征的新闻网页抽取方法