周宽久

个人信息Personal Information

教授

博士生导师

硕士生导师

任职 : 大连理工大学软件评测中心主任

性别:男

毕业院校:哈尔滨工业大学

学位:博士

所在单位:软件学院、国际信息与软件学院

学科:软件工程. 计算机系统结构

办公地点:开发区校区综合楼409

联系方式:zhoukj@dlut.edu.cn 13804248599

电子邮箱:zhoukj@dlut.edu.cn

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于词序方法的文本相似度计算模型

点击次数:

论文类型:期刊论文

发表时间:2008-01-01

发表刊物:情报学报

收录刊物:PKU、ISTIC、CSCD、CSSCI

卷号:27

期号:6

页面范围:857-862

ISSN号:1000-0135

关键字:文本相似度;词序;向量空间模型;TF-IDF方法

摘要:针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.