基于动态反向最近邻序列和三维决策图的信息熵峰值聚类研究

【字体: 时间:2025年05月20日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对密度峰值聚类(DPC)因密度度量不当导致单簇内出现多个密度峰值的问题,研究人员提出信息熵峰值聚类方法(IEPC)。引入动态反向最近邻序列计算信息熵,构建含信息熵、欧氏距离和余弦距离的 3D 决策图识别簇代表。实验表明其聚类效果优于 DBSCAN、DPC 等算法。

  
在数据挖掘与机器学习领域,聚类分析作为重要的无监督学习方法,旨在揭示数据点间的内在相似性或差异性,将其归类到不同组别。密度峰值聚类(DPC)因能检测任意形状和大小的簇而备受关注,但其密度度量方式存在明显缺陷,常导致单个簇内检测出多个密度峰值,使聚类有效性下降。此外,现有局部密度估计模型或不够精准,或对密度变化和噪声敏感,且决策图通常仅考虑局部密度和空间距离,忽略了局部分布相似性,这些问题严重制约了聚类算法在复杂数据场景中的应用。

为解决上述难题,国内研究人员开展了信息熵峰值聚类方法的研究。他们提出一种基于动态反向最近邻序列(dynamic reverse nearest neighbor sequence)和三维(3D)决策图的信息熵峰值聚类算法(IEPC),相关成果发表在《Expert Systems with Applications》。该研究通过创新密度度量和决策图构建方式,显著提升了聚类算法对可变密度、噪声数据的鲁棒性和簇代表识别的准确性。

研究人员采用的关键技术方法包括:利用 K-d 树搜索 k 最近邻,在此基础上并行计算动态反向最近邻序列;基于该序列计算每个数据点的信息熵,信息熵反映数据点周围的动态局部结构,簇峰值的信息熵较大,可作为簇代表;构建包含信息熵、欧氏距离(Euclidean distance)和余弦距离(cosine distance)的 3D 决策图,其中余弦距离基于动态反向最近邻序列计算,用于度量空间方向上的距离;最后以簇代表为初始值,应用最近邻传播算法(nearest neighbor propagation algorithm)形成簇。

实验结果


在合成数据集和真实数据集上开展综合实验,将 IEPC 与 DBSCAN、DPC、SC 等先进聚类算法进行性能对比。结果表明,IEPC 在识别簇代表方面表现出色,对可变密度和噪声具有较强鲁棒性,聚类效果显著优于对比算法,验证了其在局部密度估计、簇代表识别和聚类任务中的有效性。

结论与讨论


IEPC 通过引入信息熵峰值概念和 3D 决策图,有效克服了传统密度峰值聚类方法的缺陷。动态反向最近邻序列的应用使信息熵能更精准反映数据局部结构,3D 决策图结合多维度距离度量,弥补了传统二维决策图的不足,揭示了数据结构的细微差异,有助于更深入理解潜在簇及其关系。该研究为复杂数据场景下的聚类分析提供了新方法,在社区检测、人脸识别、入侵检测等领域具有广阔应用前景,推动了聚类算法向更高效、鲁棒的方向发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号