郭禾
开通时间:..
最后更新时间:..
点击次数:
论文类型:期刊论文
发表时间:2010-06-15
发表刊物:计算机应用研究
收录刊物:PKU、ISTIC、CSCD
卷号:27
期号:6
页面范围:2106-2108
ISSN号:1001-3695
关键字:HITS算法;锚文本;网页标题;专题相关度;向量模型;专题训练集
摘要:Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地.提出一种基于锚文本和标题信息过滤并结合网页内容相关度判断的HITS专题检索策略,利用专题训练集判断主题相关度,很好地解决了只依靠查询字符串判断的弊端.实验表明,此策略能很好地提高专题信息汇聚精确度和检索的准确率,并且减少了非相关URL的下载量.