子集选择:打破恶性循环

《Microchemical Journal》:Subset selection: Breaking the vicious circle

【字体: 时间:2025年08月21日 来源:Microchemical Journal 5.1

编辑推荐:

  本文提出通过平均样本重要性(mean SI)解决潜在子空间基子集选择中的恶性循环问题,即模型复杂度需测试集确定而测试集依赖复杂度选择。研究表明该方法在多数情况下优于固定维度的选择,并通过实例验证了关键样本的稳定性。分隔符:

  
A.L. 波梅兰采夫 | O.叶. 罗季奥诺娃
俄罗斯科学院谢苗诺夫化学物理联邦研究中心,科西金街4号,莫斯科119991

摘要

本文讨论了基于潜在子空间的子集选择方法中的“恶性循环”问题,例如在将原始数据划分为校准集和测试集时。问题的本质在于,要应用某种方法,必须知道潜在空间的维度(即潜在变量的数量)。然而,没有测试集就无法确定维度。这就形成了一个循环依赖关系,称为“恶性循环”。本文使用样本重要性(SI)方法来研究这一问题,该方法发表于2023年的《Microchemical J.》杂志(第190卷,第108654页),因此本文可以被视为对该研究的延续。
研究表明,通过使用平均SI值可以打破这种“恶性循环”。平均SI值是通过计算所有合理维度下的SI值平均值得到的。所举的例子表明,在改变潜在空间维度的情况下,那些在任何子集选择方法中都起着关键作用的最重要样本仍能保持其重要性。文中解释并论证了这一现象的原因。我们证明,基于平均SI值的子集选择方法从来不会比基于特定维度的方法更差,而在许多情况下甚至更好。同时,本文还讨论了无法计算平均SI值的最坏情况,并提出了合理的解决方案。

引言

已有研究表明[1],子集选择问题具有双重性。首先是缩减集选择(RSS),即寻找一个不会降低模型预测性能的最小校准子集。其次是测试集选择(TSS),即选择一个尽可能代表整个数据集的较小子集(通常为20-30%)。RSS通常用于压缩大型数据集以进行校准转移[2]或图像分析[3];而TSS则是模型优化和验证过程中的常规步骤[4,5]。
尽管目标不同,RSS和TSS问题都采用相同的方法论,即根据样本对建模的重要性对其进行排序。样本重要性可以通过定性或定量的方式来评估。为了说明这一点,图1展示了一个最简单的回归模型y = ax。根据重要性对样本进行排序的结果显而易见:A、B、E、N、V、X和Z。在解决RSS问题(图a)时,应选择样本A和B,因为截距是已知的。需要注意的是,样本A和B都具有影响力,但只有一个是必需的,另一个是多余的[6],因此RSS集合只能包含其中一个样本A或B。对于TSS问题(图b),测试集应包含样本B和X,而校准集应包含样本A、E、N、V和Z。
这个简单的例子说明了建模中的一个重要方面:客观评估数据集中每个样本的作用,特别是其对校准、预测等方面的影响。传统上,关于有影响力样本的概念主要是在异常值检测的背景下讨论的。在普通回归分析中,使用了不同的度量方法,如库克距离[7]等[8,9]。文献中提出了更多或更少自动剔除异常值的策略[10,11],但在许多情况下,最终决策仍需用户根据其背景知识来做出。
样本状态的量化[12,13]也可以用于子集选择问题,它为数据集的排序提供了依据。样本的分级是任何子集选择任务中的关键问题,无论是RSS还是TSS,都可以使用多种方法来完成,每种方法会产生不同的结果,效果也各不相同。一般来说,这些方法可以分为两类:一类是在原始多维空间中操作的;另一类是使用主成分分析(PCA)或偏最小二乘(PLS)方法开发的潜在子空间进行操作的。相应地,它们要么使用欧几里得度量,要么使用非欧几里得度量(例如马氏距离)。第一类的代表方法是肯纳德-斯通设计[14]及其后续改进版本:Duplex[15]、SPXY[16]等[17],[18],[19]。
第二类方法的发展始于一篇发表的文章[20],该文章提出根据马氏距离对样本进行排序并选择最极端的样本。2008年,又提出了一种利用简单区间计算(SIC)方法[12]的子集选择方法。这些样本构成了凸包[22]的顶点,凸包代表了可能的值域。在过去十年中,人们对使用凸包算法的方法兴趣显著增加。这些方法已被应用于图像分析[3]、多变量曲线分辨率[23]等其他问题[13,24]的子集选择中。该类别的另一个方法是样本重要性(SI)方法[1],它在PCA(或PLS)子空间中发挥作用。
已知第二类方法比第一类方法更有效[21,24],因为肯纳德-斯通及相关方法忽略了特定于潜在变量子空间的模型信息。然而,所有在潜在空间中操作的子集选择方法都有一个共同缺点:在应用方法之前必须知道该空间的维度(即主成分或潜在变量的数量)。这就形成了一个恶性循环:通常情况下,没有测试集就无法确定模型复杂性,而不知道模型复杂性就无法选择测试集。
本文旨在打破这一恶性循环,并证明未知的模型复杂性实际上是一个优势。我们使用了SI指数[1]来实现这一目标,因此本文可以被视为对该研究的延续。

章节片段

理论

样本重要性(SI)方法在[1]中首次提出,其中详细介绍了所有理论内容,因此以下文本仅对该内容进行简要总结。SI理论基于累积(组合)分析信号(CAS)的概念,这是一种可用于多变量数据的统计方法。

案例研究

本文考虑了一个模拟数据集和两个真实示例。最后两个数据集已在之前的论文[1]中讨论过,这样做是为了比较之前的和新研究的结果。在所有情况下,都分析了规则数据集,因为事先已经排除了异常值。

模拟数据的SI特征

在这个例子中,(I×J)数据矩阵X有I=500个样本和J=20个变量。其元素是独立的伪随机N(0,1)值,因此X可以通过任意数量的主成分a(1到20)进行PCA分解。因此,在这种情况下A = J = 20。根据公式(1),可以得到(I×A)矩阵C,其列是针对每个主成分a(从1到A)计算出的完整距离向量f_a。这个例子可以作为一个典型的PCA模型。

最重要的样本

我们研究了基于潜在子空间的子集选择方法中的“恶性循环”问题,并证明可以通过使用平均SI指数来解决这个问题。所举的例子表明,在改变潜在空间维度的情况下,那些在任何子集选择方法中都起着关键作用的最重要样本仍能保持其重要性。这一现象在图2b和图3a中得到了验证。现在,这一结论在表1中也得到了证实。
该表是针对EBN数据集构建的

CRediT作者贡献声明

A.L. 波梅兰采夫:撰写——审稿与编辑、撰写——初稿、可视化、验证、监督、软件开发、方法论设计、数据分析、概念化。O.叶. 罗季奥诺娃:撰写——审稿与编辑、可视化、验证、监督、方法论设计、数据分析、资金获取、形式分析、数据整理、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

我们感谢俄罗斯联邦基础研究计划对这项研究的资助。同时,我们也感谢奥尔堡大学的Sergey Kucheryavskiy博士对手稿提出的宝贵意见。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号