大连理工大学主页平台管理系统王宇基于正文特征及网页结构的主题网页信息抽取 Home

Current position: Home >> Scientific Research >> Paper Publications

基于正文特征及网页结构的主题网页信息抽取

Release Time:2019-03-11 Hits:

Indexed by: Journal Article

Date of Publication: 2012-10-21

Journal: 计算机工程与应用

Included Journals: CSCD、ISTIC

Volume: 48

Issue: 30

Page Number: 151-156

ISSN: 1002-8331

Key Words: 正文特征;标签信息;正文抽取

Abstract: Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础.在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法.在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息.实验证明,这种方法具有很好的准确率及召回率.

Prev One:基于主题句的期刊文献知识元库构建

Next One:基于共词分析的我国食品安全研究热点实证分析

Home

Scientific Research

Teaching Research

Awards and Honours

Enrollment Information

Student Information

My Album

Blog

基于正文特征及网页结构的主题网页信息抽取