基于动态反向最近邻序列和三维决策图的信息熵峰值聚类研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月20日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对密度峰值聚类（DPC）因密度度量不当导致单簇内出现多个密度峰值的问题，研究人员提出信息熵峰值聚类方法（IEPC）。引入动态反向最近邻序列计算信息熵，构建含信息熵、欧氏距离和余弦距离的 3D 决策图识别簇代表。实验表明其聚类效果优于 DBSCAN、DPC 等算法。

在数据挖掘与机器学习领域，聚类分析作为重要的无监督学习方法，旨在揭示数据点间的内在相似性或差异性，将其归类到不同组别。密度峰值聚类（DPC）因能检测任意形状和大小的簇而备受关注，但其密度度量方式存在明显缺陷，常导致单个簇内检测出多个密度峰值，使聚类有效性下降。此外，现有局部密度估计模型或不够精准，或对密度变化和噪声敏感，且决策图通常仅考虑局部密度和空间距离，忽略了局部分布相似性，这些问题严重制约了聚类算法在复杂数据场景中的应用。

为解决上述难题，国内研究人员开展了信息熵峰值聚类方法的研究。他们提出一种基于动态反向最近邻序列（dynamic reverse nearest neighbor sequence）和三维（3D）决策图的信息熵峰值聚类算法（IEPC），相关成果发表在《Expert Systems with Applications》。该研究通过创新密度度量和决策图构建方式，显著提升了聚类算法对可变密度、噪声数据的鲁棒性和簇代表识别的准确性。

研究人员采用的关键技术方法包括：利用 K-d 树搜索 k 最近邻，在此基础上并行计算动态反向最近邻序列；基于该序列计算每个数据点的信息熵，信息熵反映数据点周围的动态局部结构，簇峰值的信息熵较大，可作为簇代表；构建包含信息熵、欧氏距离（Euclidean distance）和余弦距离（cosine distance）的 3D 决策图，其中余弦距离基于动态反向最近邻序列计算，用于度量空间方向上的距离；最后以簇代表为初始值，应用最近邻传播算法（nearest neighbor propagation algorithm）形成簇。

实验结果

在合成数据集和真实数据集上开展综合实验，将 IEPC 与 DBSCAN、DPC、SC 等先进聚类算法进行性能对比。结果表明，IEPC 在识别簇代表方面表现出色，对可变密度和噪声具有较强鲁棒性，聚类效果显著优于对比算法，验证了其在局部密度估计、簇代表识别和聚类任务中的有效性。

结论与讨论

IEPC 通过引入信息熵峰值概念和 3D 决策图，有效克服了传统密度峰值聚类方法的缺陷。动态反向最近邻序列的应用使信息熵能更精准反映数据局部结构，3D 决策图结合多维度距离度量，弥补了传统二维决策图的不足，揭示了数据结构的细微差异，有助于更深入理解潜在簇及其关系。该研究为复杂数据场景下的聚类分析提供了新方法，在社区检测、人脸识别、入侵检测等领域具有广阔应用前景，推动了聚类算法向更高效、鲁棒的方向发展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号