
-
生物通官微
陪你抓住生命科技
跳动的脉搏
融合自然邻居与模糊信息的密度峰值聚类算法:解决流形数据与密度失衡问题的创新方法
【字体: 大 中 小 】 时间:2025年08月09日 来源:Neurocomputing 6.5
编辑推荐:
本文提出融合自然邻居与模糊信息的密度峰值聚类算法(FNaN-DPC),针对传统DPC算法在流形数据、密度失衡数据和边界重叠数据中的局限性进行改进。通过自适应局部密度度量(基于自然邻居)消除簇间密度差异,结合新型标签传播策略(适应流形结构)和模糊隶属度函数(处理边界重叠),实现无需人工参数的全自动聚类。实验证明其在合成与真实数据集上优于FCM、KNN-DPC等经典算法。
亮点
自然邻居算法
自然邻居(NaN)受人类社会友谊关系启发,解决了KNN中参数k难以确定的问题。该方法能动态计算不同数据的自然特征值λ,替代KNN中的固定k值。每个数据点的自然邻居数量可灵活变化(0到n),噪声点的自然邻居数为0,越接近簇中心的数据点自然邻居数越多。
FNaN-DPC算法
本节提出的FNaN-DPC包含三大创新步骤:
簇中心识别:基于自然邻居设计无参数局部密度度量,消除不同簇间的密度差异,显著提升低密度簇中心的识别准确率;
核心点分配:提出新型标签传播方法,通过自然邻居关系构建自适应传播路径,有效避免流形数据中的"链式反应"错误;
边界点处理:设计模糊隶属度函数量化边界点归属概率,完美解决传统DPC在重叠边界区域的失效问题。
实验验证
在11个合成数据集和7个真实世界数据集(见表4、表5)上的测试表明,FNaN-DPC性能全面超越FCM、DPC、KNN-DPC等算法。特别是在Pathbased、Spiral等经典流形数据集上,其聚类准确率较改进前的DPC提升超过40%。
结论
FNaN-DPC通过融合自然邻居与模糊理论,攻克了传统DPC对截断参数dc敏感、难以处理流形结构和密度失衡等关键难题。其无参数化设计为临床基因表达数据、医学影像分割等生命科学领域的复杂数据分析提供了新工具。未来可进一步探索其在单细胞RNA测序(scRNA-seq)聚类中的应用。
第二个结论
本文提出的FNaN-DPC算法通过自然邻居与模糊信息的协同融合,实现了对复杂数据结构的智能解析。其创新性体现在:① 像"智能显微镜"般自动识别不同密度簇中心;② 采用"多米诺骨牌式"标签传播策略适应流形拓扑;③ 通过"模糊投票机制"精准判定边界点归属。这些突破为生物医学大数据分析开辟了新途径。
生物通微信公众号
知名企业招聘