融合自然邻居与模糊信息的密度峰值聚类算法:解决流形数据与密度失衡问题的创新方法

【字体: 时间:2025年08月09日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出融合自然邻居与模糊信息的密度峰值聚类算法(FNaN-DPC),针对传统DPC算法在流形数据、密度失衡数据和边界重叠数据中的局限性进行改进。通过自适应局部密度度量(基于自然邻居)消除簇间密度差异,结合新型标签传播策略(适应流形结构)和模糊隶属度函数(处理边界重叠),实现无需人工参数的全自动聚类。实验证明其在合成与真实数据集上优于FCM、KNN-DPC等经典算法。

  

亮点

自然邻居算法

自然邻居(NaN)受人类社会友谊关系启发,解决了KNN中参数k难以确定的问题。该方法能动态计算不同数据的自然特征值λ,替代KNN中的固定k值。每个数据点的自然邻居数量可灵活变化(0到n),噪声点的自然邻居数为0,越接近簇中心的数据点自然邻居数越多。

FNaN-DPC算法

本节提出的FNaN-DPC包含三大创新步骤:

  1. 簇中心识别:基于自然邻居设计无参数局部密度度量,消除不同簇间的密度差异,显著提升低密度簇中心的识别准确率;

  2. 核心点分配:提出新型标签传播方法,通过自然邻居关系构建自适应传播路径,有效避免流形数据中的"链式反应"错误;

  3. 边界点处理:设计模糊隶属度函数量化边界点归属概率,完美解决传统DPC在重叠边界区域的失效问题。

实验验证

在11个合成数据集和7个真实世界数据集(见表4、表5)上的测试表明,FNaN-DPC性能全面超越FCM、DPC、KNN-DPC等算法。特别是在Pathbased、Spiral等经典流形数据集上,其聚类准确率较改进前的DPC提升超过40%。

结论

FNaN-DPC通过融合自然邻居与模糊理论,攻克了传统DPC对截断参数dc敏感、难以处理流形结构和密度失衡等关键难题。其无参数化设计为临床基因表达数据、医学影像分割等生命科学领域的复杂数据分析提供了新工具。未来可进一步探索其在单细胞RNA测序(scRNA-seq)聚类中的应用。

第二个结论

本文提出的FNaN-DPC算法通过自然邻居与模糊信息的协同融合,实现了对复杂数据结构的智能解析。其创新性体现在:① 像"智能显微镜"般自动识别不同密度簇中心;② 采用"多米诺骨牌式"标签传播策略适应流形拓扑;③ 通过"模糊投票机制"精准判定边界点归属。这些突破为生物医学大数据分析开辟了新途径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号