
-
生物通官微
陪你抓住生命科技
跳动的脉搏
高维数据判别性局部仿射壳聚类:突破维度灾难的几何建模新框架
【字体: 大 中 小 】 时间:2025年07月25日 来源:Array 2.7
编辑推荐:
推荐:针对高维数据聚类存在的维度灾难、特征冗余和噪声敏感等问题,研究人员提出判别性局部仿射壳聚类算法(DLAC)。该方法通过构建局部仿射子空间模型,结合相关/无关子空间距离比度量,在MNIST等7个数据集上实现最高92.60%的准确率,为无监督学习提供几何可解释的高效解决方案。
在人工智能和大数据时代,高维数据聚类犹如在迷雾中寻找路标。基因表达谱的数千个特征、医学图像的百万级像素、传感器网络的实时数据流,这些高维数据在带来丰富信息的同时,也陷入了"维度灾难"的泥潭——传统k-means等算法在冗余特征和噪声干扰下举步维艰,而深度学习方法又面临"数据饥渴"和"黑箱效应"的双重困境。更棘手的是,常规降维技术可能丢失判别性特征,就像用模糊滤镜观察星空,虽简化了画面却湮灭了关键星辰。
针对这一瓶颈,研究人员创新性地提出了判别性局部仿射壳聚类(Discriminative Local Affine-Hull Clustering, DLAC)算法。该方法独辟蹊径地放弃了传统降维思路,直接在原始高维空间中构建几何模型。其核心思想是将样本空间划分为多个局部仿射壳(Affine Hull)——这些壳如同量身定制的"特征容器",每个容器由同类样本的m个最近邻张成,通过奇异值分解(SVD)获得正交基。与简单线性子空间不同,仿射壳通过均值偏移和线性组合,能更灵活地捕捉类内样本分布的几何特性。
研究团队设计的关键突破在于"双空间"判别机制:不仅计算查询样本到同类仿射壳的距离(dc+),还评估其到异类仿射壳的距离(dc-),最终以比值(dpc=dc+/dc-)作为判别依据。这就像同时观察"相似度雷达"和"差异度声纳",使模型兼具类内聚合力和类间区分力。为提升计算效率,算法将距离计算转化为矩阵乘法,并利用SVD进行子空间投影,使时间复杂度控制在O(n·d·(n·logn+d))。
在技术方法上,研究通过四个关键步骤实现突破:(1)局部仿射壳建模:选择每类m个最近邻构建仿射组合空间;(2)相关/无关子空间划分:分别用同类和异类样本建立正负子空间;(3)奇异值分解:获得子空间正交基并计算投影距离;(4)判别性距离优化:通过最小化距离比实现样本分配。
实验结果验证了DLAC的卓越性能:
特别值得注意的是,在Two Moons非线性可分数据集上的可视化实验显示,DLAC能准确识别"双月"结构,而对比方法SSC和LSC-aff.hull则完全失效。消融实验进一步证实,单独优化dc+或dc-都会导致模型崩溃,唯有双空间联合优化才能保持稳定性能。
这项发
生物通微信公众号
知名企业招聘