Hits:
Indexed by:会议论文
Date of Publication:2009-11-14
Page Number:432-438
Key Words:密度网格密度;数据流聚类算法;数据结构
Abstract:提出一种采用树型概要结构的密度网格树流聚类算法DG-Tree(Density and Grid-Tree Algorithm)。该算法利用数据流聚类算法CluStream中的处理框架,把聚类分为微聚类和宏聚类两个过程。在微聚类过程中,通过把数据流按属性值分配到一棵树中,消除了空刚格对聚类结果的影响,同时针对数据流聚类中,近期的数据往往比久远的数据更受关注的特点,引入了时间衰退模型;在宏聚类过程中,对微聚类中生成的树中的叶子节点进行密度聚类,通过设立噪音密度阀值函数和更新周期,不仅可以有效的发现噪音叶子节点,还减少了密度聚类中对叶子节点密度更新的计算量,减少了算法的时间消耗。通过在KDD Cup 99数据集上的实验表明,相比DBScan算法和CluStream算法,DG-Tree算法在时间效率上有很大提高。