周宽久
个人信息Personal Information
教授
博士生导师
硕士生导师
任职 : 大连理工大学软件评测中心主任
性别:男
毕业院校:哈尔滨工业大学
学位:博士
所在单位:软件学院、国际信息与软件学院
学科:软件工程. 计算机系统结构
办公地点:开发区校区综合楼409
联系方式:zhoukj@dlut.edu.cn 13804248599
电子邮箱:zhoukj@dlut.edu.cn
扫描关注
基于词序方法的文本相似度计算模型
点击次数:
论文类型:期刊论文
发表时间:2008-01-01
发表刊物:情报学报
收录刊物:PKU、ISTIC、CSCD、CSSCI
卷号:27
期号:6
页面范围:857-862
ISSN号:1000-0135
关键字:文本相似度;词序;向量空间模型;TF-IDF方法
摘要:针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.