高级工程师
性别: 男
毕业院校: 大连理工大学
学位: 博士
所在单位: 计算机科学与技术学院
学科: 计算机应用技术
办公地点: 创新园大厦D0103房间
联系方式: QQ:2407849530
电子邮箱: xukan@dlut.edu.cn
qq : 2407849530
开通时间: ..
最后更新时间: ..
点击次数:
论文类型: 期刊论文
发表时间: 2017-01-01
发表刊物: 山东大学学报(理学版)
收录刊物: CSCD
卷号: 52
期号: 7
页面范围: 66-72
ISSN号: 1671-9352
关键字: 短文本;EMD 距离;词向量;相似度计算;聚类
摘要: 短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法.首先使用Skip-gram 模型(Continuous Skip-gram Model) 在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance) 来计算短文本间的相似度;最后将其应用到Kmeans 聚类算法中实现短文本聚类.在3 个数据集上进行的评测结果表明,效果优于传统的聚类算法.