Hits:
Indexed by:会议论文
Date of Publication:2010-10-21
Page Number:460-463
Key Words:近邻传播聚类;特征加权;聚类
Abstract:聚类是一种有效的数据分析方法,在数据挖掘和模式识别领域有很广泛的应用。样本中不同的特征变量所包含的信息不同,在所研究的问题中表现出的区分能力也不同。为体现不同特征在所研究的问题中的不同重要程度,本文对特征加权进行研究,并将其和聚类过程相结合,提出了一种基于近邻传播(简称AP)的特征加权聚类方法。该方法根据AP初始聚类的结果,以每类的中心为圆点,以距离为半径选取位于圆中的样本作为训练集,采用特征分析方法对数据空间的特征的重要性进行度量,计算特征的权重,利用加权后的特征更新AP的相似矩阵,重新聚类得到一个新的聚类结果。距离半径是一个影响该方法性能的重要参数。本文采用所有聚在同一类的任意两个样本的加权距离和进行评价,以选取合适的半径。对公共数据集的测试结果显示了该方法的优越性。