大连理工大学  登录  English 
张宪超
点赞:

教授   博士生导师   硕士生导师

性别: 男

毕业院校: 中国科技大学

学位: 博士

所在单位: 软件学院、国际信息与软件学院

学科: 计算机应用技术. 软件工程

电子邮箱: xczhang@dlut.edu.cn

手机版

访问量:

开通时间: ..

最后更新时间: ..

当前位置: 中文主页 >> 科学研究 >> 论文成果
一种结合文本和链接分析的局部Web社区识别技术

点击次数:

论文类型: 期刊论文

发表时间: 2012-11-15

发表刊物: 计算机研究与发展

收录刊物: EI、PKU、ISTIC、CSCD、Scopus

卷号: 49

期号: 11

页面范围: 2352-2358

ISSN号: 1000-1239

关键字: Web社区识别;最大流算法;文本相似度;Web挖掘;信息检索

摘要: 当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提出一种新的基于文本相似度的边容量分配方法.基于网页间内容越相似彼此传递的权威度越大的特点,将网页的内容相似度用于Web图的边容量设置上,具体策略为Max flow+TF IDF边容量设置和Max-flow+TF-IDF+Seeds边容量设置.其次,提出的社区结点的排序策略充分考虑了结点和社区主题的相似度,以此来增强结点区分度.理论分析和实验证明了该算法具有提高社区发现的精度和大小、计算出的排序分值更为客观合理等优点.

辽ICP备05001357号 地址:中国·辽宁省大连市甘井子区凌工路2号 邮编:116024
版权所有:大连理工大学