编辑推荐:
针对密度峰值聚类(DPC)因密度度量不当导致单簇内出现多个密度峰值的问题,研究人员提出信息熵峰值聚类方法(IEPC)。引入动态反向最近邻序列计算信息熵,构建含信息熵、欧氏距离和余弦距离的 3D 决策图识别簇代表。实验表明其聚类效果优于 DBSCAN、DPC 等算法。
在数据挖掘与机器学习领域,聚类分析作为重要的无监督学习方法,旨在揭示数据点间的内在相似性或差异性,将其归类到不同组别。密度峰值聚类(DPC)因能检测任意形状和大小的簇而备受关注,但其密度度量方式存在明显缺陷,常导致单个簇内检测出多个密度峰值,使聚类有效性下降。此外,现有局部密度估计模型或不够精准,或对密度变化和噪声敏感,且决策图通常仅考虑局部密度和空间距离,忽略了局部分布相似性,这些问题严重制约了聚类算法在复杂数据场景中的应用。
为解决上述难题,国内研究人员开展了信息熵峰值聚类方法的研究。他们提出一种基于动态反向最近邻序列(dynamic reverse nearest neighbor sequence)和三维(3D)决策图的信息熵峰值聚类算法(IEPC),相关成果发表在《Expert Systems with Applications》。该研究通过创新密度度量和决策图构建方式,显著提升了聚类算法对可变密度、噪声数据的鲁棒性和簇代表识别的准确性。
研究人员采用的关键技术方法包括:利用 K-d 树搜索 k 最近邻,在此基础上并行计算动态反向最近邻序列;基于该序列计算每个数据点的信息熵,信息熵反映数据点周围的动态局部结构,簇峰值的信息熵较大,可作为簇代表;构建包含信息熵、欧氏距离(Euclidean distance)和余弦距离(cosine distance)的 3D 决策图,其中余弦距离基于动态反向最近邻序列计算,用于度量空间方向上的距离;最后以簇代表为初始值,应用最近邻传播算法(nearest neighbor propagation algorithm)形成簇。
实验结果
在合成数据集和真实数据集上开展综合实验,将 IEPC 与 DBSCAN、DPC、SC 等先进聚类算法进行性能对比。结果表明,IEPC 在识别簇代表方面表现出色,对可变密度和噪声具有较强鲁棒性,聚类效果显著优于对比算法,验证了其在局部密度估计、簇代表识别和聚类任务中的有效性。
结论与讨论
IEPC 通过引入信息熵峰值概念和 3D 决策图,有效克服了传统密度峰值聚类方法的缺陷。动态反向最近邻序列的应用使信息熵能更精准反映数据局部结构,3D 决策图结合多维度距离度量,弥补了传统二维决策图的不足,揭示了数据结构的细微差异,有助于更深入理解潜在簇及其关系。该研究为复杂数据场景下的聚类分析提供了新方法,在社区检测、人脸识别、入侵检测等领域具有广阔应用前景,推动了聚类算法向更高效、鲁棒的方向发展。