Hits:
Indexed by:期刊论文
Date of Publication:2009-10-25
Journal:现代图书情报技术
Included Journals:PKU、CSSCI
Issue:10
Page Number:50-55
Key Words:复制检测;句子相似度;句子包;结构树
Abstract:针对目前学术界抄袭现象日趋严重的问题,提出基于文本结构树的论文复制检测算法。将一篇论文分为三层的结构树:最上层的根节点表示整篇论文,分支节点表示句子包,叶节点表示句子。根据一个函数和句子的综合相似度计算句子相似度,以最大句子相似度计算叶节点相似度,上层节点的相似度由相邻的下层节点相似度计算得到。选用中国期刊全文数据库中的论文进行测试,实验结果证明该算法是可行的、高效的。