王宇

个人信息Personal Information

教授

硕士生导师

性别:男

毕业院校:吉林大学

学位:博士

所在单位:信息管理与信息系统研究所

学科:信息管理与电子政务

办公地点:管理楼518

电子邮箱:ywang@dlut.edu.cn

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于句子相似度的文本主题句提取算法研究

点击次数:

论文类型:期刊论文

发表时间:2011-01-01

发表刊物:情报学报

收录刊物:PKU、ISTIC、CSSCI

卷号:30

期号:6

页面范围:605-609

ISSN号:1000-0135

关键字:句子相似度 主题句提取 文本分割 句子关系图

摘要:文本主题提取是文本挖掘领域的重要研究内容,解决文本信息泛滥的重要手段.为了解决现有文本主题句提取中一些局部主题容易被忽略的问题,本文提出一种"先分割,再提取"的思想.首先将文本表示为句子的线性序列,句子表示为词的线性序列,并对每个句子都预处理为含有实词的词汇链,然后基于知网(Hownet)计算相邻句子相似度.基于句子相似度,采用文本分割技术将文本分为多个关于子主题的句子包,通过句子关系图对这些句子包进行主题句提取.最后选用不同的语料库,设计进行了可接受性测试,实验结果验证该算法是可行、有效地.