Hits:
Indexed by:期刊论文
Date of Publication:2015-11-25
Journal:泰山学院学报
Issue:6
Page Number:43-47
ISSN No.:1672-2590
Key Words:共现频率;投票矩阵;协同过滤;特征提取;短文本
Abstract:特征提取算法的目的是为了放大特征项和非特征项之间的权值差异性。目前文本特征提取算法通常都是面向通用文本,文本因篇幅差异在采用通用特征提取算法进行特征提取时性能也各有差异。以关键词词频特性为基础,构建关键词间协同过滤投票矩阵,投票矩阵中特征值作为特征项之间的投票数值,以投票权值和反文档频率共同来表征特征项权值,以此来满足短文本内容简短而特征提取准确率较高的要求。以新浪微博数据为测试数据集,实验结果表明,本文算法能够较为明显地差异化特征项和非特征项之间的权值。