周宽久

个人信息Personal Information

教授

博士生导师

硕士生导师

任职 : 大连理工大学软件评测中心主任

性别:男

毕业院校:哈尔滨工业大学

学位:博士

所在单位:软件学院、国际信息与软件学院

学科:软件工程. 计算机系统结构

办公地点:开发区校区综合楼409

联系方式:zhoukj@dlut.edu.cn 13804248599

电子邮箱:zhoukj@dlut.edu.cn

扫描关注

论文成果

当前位置: 中文主页 >> 科学研究 >> 论文成果

基于MapReduce的Web标签SOINN聚类算法

点击次数:

论文类型:期刊论文

发表时间:2014-12-15

发表刊物:计算机科学

收录刊物:PKU、ISTIC、CSCD

卷号:41

期号:12

页面范围:197-201

ISSN号:1002-137X

关键字:Web标签聚类;SOINN算法;MapReduce

摘要:Web标签有助于用户根据自己特定的兴趣完成信息资源的分类、组织和检索.然而,正是由于协同标记系统特有的公开性、自由化的特点,采用其对信息资源进行描述、组织、分类和检索,存在着信息描述不精确、标签组织混乱和标签语意模糊等问题.在此背景下提出了3种基于特征向量表示法(FVR)的Web标签SOINN聚类算法:基于资源的特征向量表示法、基于其他共现标签的特征向量表示法和基于全集共现标签的特征向量表示法.同时应用MapReduce框架将SOINN算法进行并行化.实验表明,当类中心数量超过2000时,3种分布式聚类FVR算法的召回率和准确度优于原始算法,可获得很好的加速比.从而证明此分布式聚类算法具有很好的可扩展性,可以用于更为海量的Web日志聚类分析系统.