编辑推荐:
本文探讨相对重要性(RI)分析在变量选择中的应用,提出高效RI排名方法CRI.Z,通过模拟和真实数据验证其优于LASSO等方法,特别是在高相关预测变量场景。
张天恩(Tien-En Chang)| 陈阿贡(Argon Chen)
台湾国立大学工业工程研究所,罗斯福路4段1号,台北10617
摘要
尽管在概念上相关,但变量选择和相对重要性(RI)分析在文献中的处理方式却大相径庭。虽然RI通常用于事后模型解释,但本文探讨了其在模型创建前的变量或特征排序以及基于过滤器的选择中的潜力。具体而言,我们预期RI度量方法会表现出色,因为它们同时考虑了预测因子的直接效应和组合效应,从而解决了边际相关性(忽略预测因子之间依赖性)这一关键限制。我们实现并评估了基于RI的变量排序和选择方法,包括一种新提出的RI度量方法CRI.Z,其计算效率优于传统的RI度量方法。
通过广泛的模拟,我们首先证明了RI度量方法比边际相关性更能准确地对变量进行排序,尤其是在存在被抑制或弱预测因子的情况下。然后我们展示了基于这些排序构建的预测模型具有很高的竞争力,常常优于诸如套索(lasso)和松弛套索(relaxed lasso)等先进的线性模型方法。在涉及高度相关预测因子群的挑战性案例中,所提出的基于RI的方法尤其有效,而这种情况在许多基准方法中会导致失败。通过两个高维基因表达数据集进一步证明了基于RI的方法的实际效用和效率。尽管套索方法在最近的变量选择文献中占据主导地位,但我们的研究表明,基于RI的方法是一种强大且有竞争力的替代方案。代码可在以下链接获取:
https://github.com/tien-endotchang/RI-variable-selection
引言
变量选择,也称为特征选择,是统计学和机器学习中的一个基本问题。其主要目标是从更大的候选集合中识别出具有实质性预测相关性的变量子集,从而构建简洁、可解释且稳健的模型[1]。在高维环境中,这一任务尤其具有挑战性,因为预测因子的数量(p)远远超过观测值的数量(n)。一个著名的例子是从微阵列数据中识别与癌症相关的基因,其中测量了数千个基因的表达,而患者数量不到一百人[2]、[3]、[4]、[5]。
已经引入了许多方法来应对这一挑战。这些方法通常被分为包装器(wrapper)、嵌入式(embedded)和过滤器(filter)方法[1]。包装器方法,如最佳子集选择[6]、[7]及其贪婪变体——前向逐步选择[8]、[9],使用模型性能来评估候选子集。近年来,还开发了多种元启发式优化算法用于包装器方法[4]、[10]、[11]。嵌入式方法,如套索[12],将变量选择直接纳入模型训练,并在文献中占据主导地位,获得了数以万计的引用。基于树的方法的扩展也被提出作为嵌入式方法[3]。相比之下,过滤器方法将变量排序与模型拟合分开。虽然提出了各种排序策略,例如基于熵的策略[13],但最广泛使用的方法是确定性独立性筛选(Sure Independence Screening,简称SIS)[14],它根据预测因子与响应的边际相关性对它们进行排序。尽管计算效率高,但SIS受到边际相关性的限制,当预测因子之间存在相关性时,这种相关性可能会产生误导,而这是现实世界数据的常见特征。在这种情况下,预测因子之间的预测能力重叠,使得选择最佳预测特征变得困难[14]。例如,在基因组学中,基因表达水平经常表现出严重的多重共线性,研究表明SIS会忽略对白血病分类至关重要的基因[15]。
一个相关但概念上不同的问题是,在多重共线性存在的情况下评估预测因子的的重要性。相对重要性(RI)分析起源于定量行为和心理学研究,旨在量化每个变量对模型解释能力的独特贡献[16]、[17]。与边际相关性或回归系数不同,RI度量方法(如通用优势(General Dominance,简称GD)[18]、[19]和相对权重(Relative Weight,简称RW)[20]、[21])考虑了线性模型中预测因子的直接效应和组合效应,从而处理了预测因子之间的依赖性[16]。历史上,这些方法是作为事后解释工具开发的,一些研究警告不要将它们用于变量选择[18]、[21]、[22]、[23]。尽管最近的方法学发展[5]、[24]和应用研究[25]、[26]开始挑战这一观点,但对基于RI的变量选择方法的系统评估仍然缺乏。
本文旨在弥合RI分析和变量选择之间的差距。通过估计每个变量对模型解释的独特贡献,RI度量方法有望为基于过滤器的变量选择提供坚实的基础。在本文中,我们评估了已建立的RI度量方法(GD、RW、CRI [5])在变量选择和模型预测中的性能。此外,我们提出了一种计算效率高的基于RI的选择方法,称为CRI.Z。通过广泛的模拟和实际数据集示例,我们证明了基于RI的选择方法不仅与现代线性模型基准方法(如套索和松弛套索以及非凸惩罚)具有竞争力,而且在涉及高预测因子相关性的情况下通常更为优越。我们的主要贡献包括:
•我们基于RI排序正式定义了一类过滤器方法,并系统地评估了它们之间的性能以及与简单方法(如边际相关性)的相对性能(第3节和4.2节)。
•我们提出了CRI.Z,这是一种基于CRI框架的新型且相对高效的RI排序方法(第3.3节)。
•我们利用变量选择文献中的广泛模拟,将基于RI的方法与领先的变量选择基准方法进行了比较。我们证明了基于RI的方法不仅在竞争中具有优势,而且在特定条件下还能超越现代线性模型基准方法。(第4.3节)。还使用两个基因表达数据集示例来展示所提出方法的实用性。(第5节)
小节片段
基准变量选择方法
本节回顾了基于线性模型的变量选择方法,这些方法是本文提出方法的主要基准。我们首先介绍了两种经典的包装器方法:最佳子集选择和前向逐步选择。然后我们回顾了最著名的嵌入式方法——套索及其变体松弛套索。最后,我们描述了确定性独立性筛选(SIS),这是一种简单但广泛使用的过滤器方法。
我们考虑标准的线性模型,其中响应向量
相对重要性度量
本节介绍了相对重要性(RI)的概念,并介绍了一类基于RI度量的变量选择方法。我们首先介绍通用优势(GD)及其实际近似方法,然后扩展到高维情况的泛化。最后,我们阐述了在变量选择背景下使用RI的理由。从理论定义到计算实现的这一进展为基于RI的变量选择方法奠定了必要的基础
模拟
我们对所提出的基于RI的方法的实证评估分为两部分。在第一部分,我们专注于变量排序的核心任务。使用Fan和Lv [14]提出的具有挑战性的模拟场景,我们评估了基于RI的排序(GD、CRI、CAR、CRI.Z)与确定性独立性筛选(SIS)使用的边际相关性的稳健性。在第二部分,我们评估了基于RI的模型的预测和选择性能。为此,我们采用了全面的模拟框架
实际数据集示例
为了说明所提出方法在实际高维环境中的实用性,我们分析了来自Arizona scikit-feature仓库的两个基准基因表达数据集[47]。在本节中,我们首先详细介绍了实验设置和评估指标,然后对Leukemia和GLI_85数据集的分类准确性、模型大小和计算效率进行了比较分析。
讨论
本研究确立了基于相对重要性(RI)排序的变量选择方法是传统方法的稳健且有竞争力的替代方案。本节通过模型复杂性的角度分析了所提出的方法,研究了RI度量方法之间的性能差异,讨论了潜在的局限性,并总结了这些发现的更广泛影响。
CRediT作者贡献声明
张天恩(Tien-En Chang):撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据整理、概念化。陈阿贡(Argon Chen):撰写——审阅与编辑、监督、方法论、资金获取、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了台湾国家科学技术委员会(National Science and Technology Council of Taiwan)的NSTC 106-2221-E-002-153-MY3项目的支持。