
教授 博士生导师 硕士生导师
性别:男
毕业院校:中国科技大学
学位:博士
所在单位:软件学院、国际信息与软件学院
学科:计算机应用技术
软件工程
电子邮箱:
开通时间: ..
最后更新时间:..
点击次数:
发布时间:2019-03-10
论文类型:期刊论文
发表时间:2012-11-15
发表刊物:计算机研究与发展
收录刊物:Scopus、CSCD、ISTIC、PKU、EI
卷号:49
期号:11
页面范围:2352-2358
ISSN号:1000-1239
关键字:Web社区识别;最大流算法;文本相似度;Web挖掘;信息检索
摘要:当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提出一种新的基于文本相似度的边容量分配方法.基于网页间内容越相似彼此传递的权威度越大的特点,将网页的内容相似度用于Web图的边容量设置上,具体策略为Max flow+TF IDF边容量设置和Max-flow+TF-IDF+Seeds边容量设置.其次,提出的社区结点的排序策略充分考虑了结点和社区主题的相似度,以此来增强结点区分度.理论分析和实验证明了该算法具有提高社区发现的精度和大小、计算出的排序分值更为客观合理等优点.