无监督子空间聚类超参数优化的自引导方法研究及其在模式识别中的应用

《Pattern Recognition》:Pseudo Labels Approach to Interpretable Self-Guided Subspace Clustering

【字体: 时间:2025年10月16日 来源:Pattern Recognition 7.6

编辑推荐:

  为解决子空间聚类(SC)算法依赖带标签数据优化超参数(HPO)的问题,研究人员提出了一种基于伪标签的自引导超参数优化(LFSG)方法。该方法利用聚类质量指标(ACC/NMI)在预定义搜索空间内自动选择最优超参数,无需外部标签。实验表明LFSG方法在LSR SC、SSC、LRSSC等算法上取得了与oracle版本相近的性能,显著提升了SC算法在无标签场景下的应用价值。

  
在当今大数据时代,无监督学习特别是子空间聚类(Subspace Clustering, SC)技术已成为模式识别和机器学习领域的重要研究方向。子空间聚类的基本假设是:高维数据实际上是由多个低维子空间的并集构成的,每个子空间对应一个特定的类别或簇。然而,现有的SC算法面临着一个普遍而棘手的挑战——大多数算法的性能严重依赖于超参数的选择,而传统的超参数优化(Hyperparameter Optimization, HPO)方法通常需要依赖带有真实标签的验证集,这在真正的无监督学习场景中是不现实的。
以最小二乘回归子空间聚类(Least Squares Regression SC, LSR SC)算法为例,其核心优化问题包含一个关键的正则化参数λ,该参数的取值直接影响聚类结果的准确性。类似地,稀疏子空间聚类(Sparse SC, SSC)、低秩稀疏子空间聚类(Low-Rank Sparse SC, LRSSC)以及多视图子空间聚类(Multi-view SC)算法等都存在一个或多个需要优化的超参数。缺乏有效的无标签超参数优化方法极大地限制了这些算法在实际应用中的推广。
为了解决这一根本性问题,研究人员在《Pattern Recognition》上发表了一项创新性研究,提出了一种名为"标签无关自引导超参数优化"(Label-Free Self-Guided HPO, LFSG HPO)的新方法。该方法的核心思想是利用聚类算法自身生成的伪标签(pseudo-labels)来指导超参数的选择过程,完全摆脱了对真实标签的依赖。
研究人员为开展这项研究,主要采用了以下关键技术方法:首先建立了基于网格搜索的超参数空间初始化方法,定义了λ ∈ [10-7, 10-6, ..., 10]等对数尺度搜索空间;然后提出了基于ACC(准确率)和NMI(标准化互信息)的伪标签质量评估指标,通过比较相邻超参数值产生的伪标签之间的相似性来定位最优超参数区间;接着采用三分法逐步缩小搜索空间,直到满足收敛条件(ε=0.001);最后利用估计的子空间基进行可视化解释,为领域专家提供决策支持。实验使用了MNIST、USPS、EYaleB、ORL、COIL20和COIL100等标准数据集进行验证。
4.1.1. Least squares regression SC算法
研究人员首先在LSR SC算法上验证了LFSG方法的有效性。结果显示,在大多数数据集上,LFSG版本与oracle版本(使用真实标签优化)的性能差异很小。特别是在测试数据上,性能差异通常小于1%,表明LFSG方法生成的划分足够鲁棒,能够准确估计子空间基用于聚类新数据。
4.1.2. Kernel least squares regression SC算法
对于核LSR SC算法,研究人员引入了高斯核函数,增加了方差σ2作为第二个超参数。有趣的是,虽然oracle版本在训练数据上通常比LFSG版本好3-4%,但在测试数据上,LFSG版本反而在所有数据集上都表现出显著更好的性能,这表明LFSG方法产生的划分对于估计准确的子空间基更加鲁棒。
4.1.3. Graph filtering least squares regression SC算法
图滤波LSR SC算法引入了滤波器阶数k作为附加超参数。结果显示,两种版本的性能差异通常小于4%,有时低于2%。在ORL、COIL20和部分USPS数据集上,两种版本之间没有统计学上的显著差异。
4.1.4. Sparse SC算法
稀疏子空间聚类算法的实验表明,在大多数数据集上,oracle版本比LFSG版本好最多6%,但在COIL100数据集上,LFSG版本反而有2%的优势。在测试数据上,性能差异在很多情况下统计不显著。
4.1.5. S0L0 low rank sparse SC算法
S0L0 LRSSC算法的结果显示,在ORL数据集上,LFSG版本的聚类性能比oracle版本低最多15%,但在其他数据集上,性能差异通常不超过6%。
4.2. Multi-view SC算法
在多视图聚类方面,研究人员在LMVSC(多视图最小二乘子空间聚类)和MLME(多视图拉普拉斯多重嵌入)算法上验证了LFSG方法。结果显示,LFSG方法能够有效估计多视图算法的超参数,性能与参数自由的FPMVS-CAG算法相当甚至更好。
研究结论和讨论部分强调,提出的LFSG HPO方法为解决子空间聚类中的超参数优化问题提供了切实可行的解决方案。该方法不仅摆脱了对真实标签的依赖,真正实现了无监督学习,而且通过可视化子空间基为算法决策提供了可解释性。虽然方法在某些情况下性能略低于oracle版本,但这种差距在实际应用中是可以接受的,特别是考虑到其完全无监督的特性。
这项研究的重要意义在于:首先,它填补了子空间聚类领域无监督超参数优化方法的空白;其次,提出的自引导框架具有通用性,可以应用于各种类型的SC算法;最后,通过可视化解释机制,增强了算法的透明度和可信度,为SC算法在医疗诊断等高风险领域的应用奠定了基础。
研究人员也坦诚指出了方法的局限性:初始超参数搜索空间的设定需要一定的先验知识;对聚类质量指标平滑性的假设在某些情况下可能不成立。针对这些局限性,研究提出了未来的改进方向,包括集成非参数聚类算法产生"目标"伪标签,以及探索基于簇内紧凑性和簇间分离性的新指标等。
这项研究为推动子空间聚类算法在真实无监督环境中的应用迈出了重要一步,为后续研究提供了有价值的思路和框架。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号