
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于密度与邻近性的边界感知层次聚类算法Gauging-β:解决非凸与重叠数据集聚类难题
【字体: 大 中 小 】 时间:2025年07月19日 来源:Pattern Recognition 7.5
编辑推荐:
研究人员针对传统聚类算法在参数设置、数据凸性和数据分离性三大挑战,提出了一种新型边界感知层次聚类算法Gauging-β。该算法通过密度检测去除边界点实现数据分离,结合Gauging-δ算法构建核心聚类结构,最终实现边界点精准重分配。实验证明该方法能有效处理凸/非凸、分离/重叠数据集,在合成与真实数据集上均优于5种经典算法,为复杂数据模式识别提供了创新解决方案。
在数据爆炸的时代,如何从海量信息中挖掘隐藏模式成为科学界的重要命题。数据聚类作为无监督学习的核心技术,在生物医学(如细胞分型)、图像分析等领域应用广泛。然而现有算法面临三大"顽疾":参数设置依赖经验、难以处理非凸结构、对重叠数据束手无策。特别是当不同细胞群在流式数据中边界模糊时,传统方法往往"力不从心"。
针对这些挑战,电子科技大学的研究团队在《Pattern Recognition》发表了创新性研究。他们开发的Gauging-β算法如同给数据装上"边界雷达",通过三阶段策略破解聚类难题:首先用密度检测识别"模糊地带"的边界点;然后采用Gauging-δ算法对核心点进行层次聚类;最后像拼图般将边界点精准归位。这种"先分治后整合"的思路,让复杂的数据结构变得清晰可辨。
研究团队运用了三大关键技术:基于局部密度估计的边界检测算法(参数p=2%、α=0.1)、改进的Gauging-δ层次聚类算法(采用单连锁准则),以及基于最近邻原则的边界点重分配策略。这些方法协同工作,使算法既能识别任意形状的簇,又能精确划分重叠区域。
【边界点检测】通过计算每个点的邻域密度(公式1),利用四分位距设定阈值,成功标记出处于簇边缘或重叠区域的"模糊点"。如图3所示,红色边界点的去除使原本粘连的簇呈现明显分离。
【核心点聚类】采用改进的Gauging-δ算法,通过动态调整合并阈值(公式2-3)实现自适应聚类。该过程不依赖预设参数,能自动判定最佳簇数量,在非凸数据集上表现优异(图4)。
【边界点重分配】按距离最近原则将边界点归入已形成的簇,通过合并条件验证(公式2)确保分配准确性。如图2(d)所示,最终聚类结果完整保留了数据原始结构。
实验部分令人信服:在15个合成数据集上,Gauging-β的NMI(标准化互信息)和ARI(调整兰德指数)平均值分别达0.834和0.872,显著优于K-Means++等传统方法(表3-4)。特别是在"钻石9"等复杂数据集上,其准确率比次优算法TC高出15%。真实数据测试中,该算法在UCI数据集和COIL-20图像集同样展现优势(表6-8)。
这项研究的突破性在于:其一,首创"边界剥离-核心聚类-边界整合"的三段式框架,为重叠聚类提供新范式;其二,参数敏感性分析显示算法在α∈[0,0.3]和p∈[1%,5%]范围内表现稳定(图6-7),鲁棒性强;其三,开源实现促进方法推广,GitHub代码已获广泛关注。
正如讨论部分指出,该算法在密度分布极不均匀时仍有改进空间。未来结合深度学习特征提取,或可解决高维数据挑战。这项源自中国学者的创新,为生物医学图像分析、单细胞测序等前沿领域提供了强大工具,其"分而治之"的聚类哲学,也将启迪更多数据挖掘研究。
生物通微信公众号
知名企业招聘