基于加权自适应近邻的密度峰值聚类算法(WANN-DPC)研究:解决密集与稀疏簇中心同步识别难题

【字体: 时间:2025年06月27日 来源:Pattern Recognition 7.5

编辑推荐:

  针对传统密度峰值聚类(DPC)算法无法同步识别密集与稀疏簇中心且存在"多米诺效应"的问题,研究人员提出加权自适应近邻密度峰值聚类(WANN-DPC)算法。通过加权近邻局部密度定义、簇中心校正因子和两步分配策略,显著提升聚类精度。实验证明其优于同类算法,为复杂数据聚类提供新思路。

  

在数据爆炸的时代,如何从海量信息中挖掘隐藏模式成为关键挑战。密度峰值聚类(DPC)算法自提出以来,因其高效性被誉为聚类领域的里程碑,却始终面临两大顽疾:一是难以同步识别数据集中密集区域和稀疏区域的簇中心,二是存在一旦误分配就引发连锁错误的"多米诺效应"。尽管后续涌现出ANN-DPC等改进算法,但其自适应近邻策略可能导致局部密度计算偏差,进而影响最终聚类效果。

陕西师范大学的研究团队在《Pattern Recognition》发表的研究中,创新性地提出加权自适应近邻密度峰值聚类(WANN-DPC)算法。该研究通过三个关键技术突破:首先构建加权近邻密度核,综合考虑数据点的近邻和远邻贡献;其次设计簇中心校正因子,实现不同密度簇的精准定位;最后开发基于近邻关系和加权隶属度的两步分配策略。在合成和真实数据集上的测试表明,WANN-DPC在ARI、NMI等指标上显著优于DBSCAN、OPTICS等8种对比算法。

关键技术方法包括:1) 加权自适应近邻密度计算,通过高斯核函数赋予不同距离邻居差异化权重;2) 基于决策图的簇中心自动检测技术,引入校正因子优化选择过程;3) 融合K近邻和加权隶属度的标签传播策略,采用广度优先搜索实现高效分配。

密度峰值聚类
分析指出传统DPC依赖截断距离dc和手动选中心的问题,其变体大多未能根本解决"多米诺效应"。ANN-DPC虽实现自适应近邻,但可能模糊稀疏/密集区域的密度差异。

WANN-DPC
提出加权密度公式ρi=∑j∈KNN(i)exp(-(dij/σ)2),其中σ为自适应带宽。簇中心检测引入γ=ρ×δ校正因子(δ为最小距离),通过决策图自动定位中心点。分配阶段先通过KNN传播标签,再对未分配点计算加权隶属度完成分类。

实验分析
在D31、Aggregation等数据集测试显示,WANN-DPC的ARI值平均提升15.6%,运行效率较层次方法提高2个数量级。特别在流形分布数据中,其NMI指标达到0.912,显著优于对比算法。

该研究开创性地将加权思想引入密度聚类领域,其提出的校正因子和两步分配策略为复杂数据聚类提供新范式。未来可结合深度表征学习拓展至高维数据场景,其核心思想对医疗影像分析、社交网络挖掘等领域具有重要借鉴价值。作者Juanying Xie团队指出,该方法为克服DPC固有缺陷提供了系统解决方案,相关代码已开源以促进领域发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号