郭成

个人信息Personal Information

教授

博士生导师

硕士生导师

主要任职:软件学院、大连理工大学-立命馆大学国际信息与软件学院副院长

性别:男

毕业院校:大连理工大学

学位:博士

所在单位:软件学院、国际信息与软件学院

学科:软件工程. 计算机应用技术

联系方式:guocheng@dlut.edu.cn

电子邮箱:guocheng@dlut.edu.cn

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于改进的TF-IDF方法的文本相似度算法研究

点击次数:

论文类型:期刊论文

发表时间:2015-05-25

发表刊物:泰山学院学报

卷号:37

期号:3

页面范围:18-22

ISSN号:1672-2590

关键字:文本相似度算法;TF-IDF方法;词语关联;马尔可夫模型;文本分类

摘要:传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高.