宋明秋

个人信息Personal Information

副教授

硕士生导师

主要任职:Associate Professor

其他任职:中国软件行业协会系统安全工程分会主任,国际注册信息安全专家CISSP,国际注册信息系统审计师CISA

性别:女

毕业院校:大连理工大学

学位:博士

所在单位:系统工程研究所

学科:管理科学与工程. 系统工程

办公地点:D526, Management Building,No.2 Linggong Road,Dalian China 116024

联系方式:songmq at dlut.edu.cn,

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

逆序解析DOM树及网页正文信息提取

点击次数:

论文类型:期刊论文

发表时间:2011-04-15

发表刊物:计算机科学

收录刊物:PKU、ISTIC、CSCD

卷号:38

期号:4

页面范围:213-215,225

ISSN号:1002-137X

关键字:DOM树;网页正文提取;结构相似性;逆序解析

摘要:一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取.这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度.事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的.在此,提出了逆序解析DOM树算法.并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息.利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度.最后,通过实验证实了该方法的优越性.