大连理工大学主页平台管理系统 Sam 基于词向量和ＥＭＤ距离的短文本聚类 Home

Current position: Home >> Scientific Research >> Paper Publications

基于词向量和ＥＭＤ距离的短文本聚类

Release Time:2019-03-11 Hits:

Indexed by: Journal Article

Date of Publication: 2017-06-14

Journal: 山东大学学报(理学版)

Issue: 07

Page Number: 1-6

ISSN: 1671-9352

Key Words: 短文本;ＥＭＤ距离;词向量;相似度计算;聚类

Abstract: 短文本聚类在数据挖掘中发挥着重要的作用，传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题，针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题，提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Ｓｋｉｐ-ｇｒａｍ模型（ＣｏｎｔｉｎｕｏｕｓＳｋｉｐ-ｇｒａｍＭｏｄｅｌ）在大规模语料中训练得到表示特征词语义的词向量；然后利用欧式距离计算特征词相似度，引入ＥＭＤ（ＥａｒｔｈＭｏｖｅｒｓＤｉｓｔａｎｃｅ）来计算短文本间的相似度；最后将其应用到Ｋｍｅａｎｓ聚类算法中实现短文本聚类。在３个数据集上进行的评测结果表明，效果优于传统的聚类算法。

Prev One:Tripartite-replicated softmax model for document representations

Next One:基于似然损失函数的组样本排序学习方法

Home

Scientific Research

Teaching Research

Awards and Honours

Enrollment Information

Student Information

My Album

Blog

基于词向量和ＥＭＤ距离的短文本聚类

基于词向量和 ＥＭＤ距离的短文本聚类

基于词向量和ＥＭＤ距离的短文本聚类