王宇

个人信息Personal Information

教授

硕士生导师

性别:男

毕业院校:吉林大学

学位:博士

所在单位:信息管理与信息系统研究所

学科:信息管理与电子政务

办公地点:管理楼518

电子邮箱:ywang@dlut.edu.cn

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于句子的文本表示及中文文本分类研究

点击次数:

论文类型:期刊论文

发表时间:2009-01-01

发表刊物:情报学报

收录刊物:PKU、ISTIC、CSCD、CSSCI

卷号:28

期号:6

页面范围:839-843

ISSN号:1000-0135

关键字:信息资源管理;句子包;文本表示;文本分类

摘要:文本挖掘技术是信息资源管理的一项关键技术.向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息.为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性.实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的.