location: Current position: Home >> Scientific Research >> Paper Publications

一种结合文本和链接分析的局部Web社区识别技术

Hits:

Indexed by:期刊论文

Date of Publication:2012-11-15

Journal:计算机研究与发展

Included Journals:EI、PKU、ISTIC、CSCD、Scopus

Volume:49

Issue:11

Page Number:2352-2358

ISSN No.:1000-1239

Key Words:Web社区识别;最大流算法;文本相似度;Web挖掘;信息检索

Abstract:当前Web社区识别算法大都基于纯链接分析,忽略了Web的文本属性.针对Flake等人提出的基于最大流算法的社区识别框架的不足(如赋予网页之间的链接不公平的权重、排序策略单一等),提出了一种结合网页内容分析与链接分析的改进算法.首先,提出一种新的基于文本相似度的边容量分配方法.基于网页间内容越相似彼此传递的权威度越大的特点,将网页的内容相似度用于Web图的边容量设置上,具体策略为Max flow+TF IDF边容量设置和Max-flow+TF-IDF+Seeds边容量设置.其次,提出的社区结点的排序策略充分考虑了结点和社区主题的相似度,以此来增强结点区分度.理论分析和实验证明了该算法具有提高社区发现的精度和大小、计算出的排序分值更为客观合理等优点.

Pre One:Automatic seed set expansion for trust propagation based anti-spamming algorithms

Next One:Community identification based on a new approximate personalized pagerank algorithm