宋明秋

个人信息Personal Information

副教授

硕士生导师

主要任职:Associate Professor

其他任职:中国软件行业协会系统安全工程分会主任,国际注册信息安全专家CISSP,国际注册信息系统审计师CISA

性别:女

毕业院校:大连理工大学

学位:博士

所在单位:系统工程研究所

学科:管理科学与工程. 系统工程

办公地点:D526, Management Building,No.2 Linggong Road,Dalian China 116024

联系方式:songmq at dlut.edu.cn,

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于HTML树的网页结构相似度研究

点击次数:

论文类型:期刊论文

发表时间:2011-01-01

发表刊物:情报学报

收录刊物:PKU、ISTIC、CSSCI

卷号:30

期号:2

页面范围:160-165

ISSN号:1000-0135

关键字:HTML树;结构相似度;自由匹配;信息提取

摘要:HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速.