已有研究表明[1],子集选择问题具有双重性。首先是缩减集选择(RSS),即寻找一个不会降低模型预测性能的最小校准子集。其次是测试集选择(TSS),即选择一个尽可能代表整个数据集的较小子集(通常为20-30%)。RSS通常用于压缩大型数据集以进行校准转移[2]或图像分析[3];而TSS则是模型优化和验证过程中的常规步骤[4,5]。
尽管目标不同,RSS和TSS问题都采用相同的方法论,即根据样本对建模的重要性对其进行排序。样本重要性可以通过定性或定量的方式来评估。为了说明这一点,图1展示了一个最简单的回归模型y = ax。根据重要性对样本进行排序的结果显而易见:A、B、E、N、V、X和Z。在解决RSS问题(图a)时,应选择样本A和B,因为截距是已知的。需要注意的是,样本A和B都具有影响力,但只有一个是必需的,另一个是多余的[6],因此RSS集合只能包含其中一个样本A或B。对于TSS问题(图b),测试集应包含样本B和X,而校准集应包含样本A、E、N、V和Z。
这个简单的例子说明了建模中的一个重要方面:客观评估数据集中每个样本的作用,特别是其对校准、预测等方面的影响。传统上,关于有影响力样本的概念主要是在异常值检测的背景下讨论的。在普通回归分析中,使用了不同的度量方法,如库克距离[7]等[8,9]。文献中提出了更多或更少自动剔除异常值的策略[10,11],但在许多情况下,最终决策仍需用户根据其背景知识来做出。
样本状态的量化[12,13]也可以用于子集选择问题,它为数据集的排序提供了依据。样本的分级是任何子集选择任务中的关键问题,无论是RSS还是TSS,都可以使用多种方法来完成,每种方法会产生不同的结果,效果也各不相同。一般来说,这些方法可以分为两类:一类是在原始多维空间中操作的;另一类是使用主成分分析(PCA)或偏最小二乘(PLS)方法开发的潜在子空间进行操作的。相应地,它们要么使用欧几里得度量,要么使用非欧几里得度量(例如马氏距离)。第一类的代表方法是肯纳德-斯通设计[14]及其后续改进版本:Duplex[15]、SPXY[16]等[17],[18],[19]。
第二类方法的发展始于一篇发表的文章[20],该文章提出根据马氏距离对样本进行排序并选择最极端的样本。2008年,又提出了一种利用简单区间计算(SIC)方法[12]的子集选择方法。这些样本构成了凸包[22]的顶点,凸包代表了可能的值域。在过去十年中,人们对使用凸包算法的方法兴趣显著增加。这些方法已被应用于图像分析[3]、多变量曲线分辨率[23]等其他问题[13,24]的子集选择中。该类别的另一个方法是样本重要性(SI)方法[1],它在PCA(或PLS)子空间中发挥作用。
已知第二类方法比第一类方法更有效[21,24],因为肯纳德-斯通及相关方法忽略了特定于潜在变量子空间的模型信息。然而,所有在潜在空间中操作的子集选择方法都有一个共同缺点:在应用方法之前必须知道该空间的维度(即主成分或潜在变量的数量)。这就形成了一个恶性循环:通常情况下,没有测试集就无法确定模型复杂性,而不知道模型复杂性就无法选择测试集。
本文旨在打破这一恶性循环,并证明未知的模型复杂性实际上是一个优势。我们使用了SI指数[1]来实现这一目标,因此本文可以被视为对该研究的延续。