宋明秋
个人信息Personal Information
副教授
硕士生导师
主要任职:Associate Professor
其他任职:中国软件行业协会系统安全工程分会主任,国际注册信息安全专家CISSP,国际注册信息系统审计师CISA
性别:女
毕业院校:大连理工大学
学位:博士
所在单位:系统工程研究所
学科:管理科学与工程. 系统工程
办公地点:D526, Management Building,No.2 Linggong Road,Dalian China 116024
联系方式:songmq at dlut.edu.cn,
扫描关注
基于链路压缩树的网页相似度研究
点击次数:
论文类型:期刊论文
发表时间:2012-01-01
发表刊物:情报学报
收录刊物:PKU、ISTIC、CSSCI
卷号:31
期号:1
页面范围:40-46
ISSN号:1000-0135
关键字:网页结构;链路相似度;结构相似度;链路压缩树
摘要:大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页.HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构.网页的相似性表现结构上就是结构相似性.研究网页结构相似性的方法有很多,本文从DOM树中的链路结构的角度来研究不同网页间的相似性,并提出了基于链路压缩树的结构相似度度量模型.本文中的计算方法都用Python语言实现.通过实验,本文使用多种方法对不同网页间的相似度进行了计算和分析,实验数据表明,基于链路压缩树的结构相似度度量模型具有较好的适用性,其速度是传统方法不可比拟的.