随机森林在纯交互效应场景中的局限性及改进算法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月03日 来源：Computational Statistics & Data Analysis 1.5

编辑推荐：

　　研究人员针对随机森林(RF)在纯交互效应场景中的识别局限，提出Interaction Forests(INTF)和Random Split Random Forests(RSRF)两种改进算法。通过理论分析和模拟实验证明，新算法能有效捕捉传统CART分裂准则难以识别的交互作用，在保持其他场景预测性能的同时，显著提升纯交互模型的拟合精度。

在机器学习领域，随机森林(Random Forests, RF)因其出色的预测性能和鲁棒性，已成为金融、遗传学和医学影像分析等多个领域的标准工具。然而，当目标函数存在特定类型的"纯交互效应"时——即多个协变量间存在交互作用但缺乏对应的边际效应——传统RF的表现却令人意外地不尽如人意。这一现象引发了研究人员的深入思考：为何在看似简单的交互场景中，这个被广泛认为能自动捕捉交互作用的强大算法会遭遇滑铁卢？

问题的核心在于RF使用的CART(Classification and Regression Trees)分裂准则。当面对纯交互效应时，CART采用的贪心分割策略难以有效识别那些没有单独主效应的交互项。例如在双变量纯交互场景中，任何单变量分割都无法带来显著的杂质减少，导致算法"视而不见"这些关键交互。这一理论缺陷在实际应用中可能造成重要预测因子的遗漏，特别是在金融风险建模、基因互作分析等高度依赖交互效应的领域。

为破解这一难题，来自德国慕尼黑大学的研究团队在《Computational Statistics》发表了突破性研究。他们通过严格的数学定义揭示了纯交互效应的本质——当且仅当交互变量组与其他变量独立，且不存在任何包含部分交互变量的子集效应时，该交互被称为"纯交互"。基于这一理论框架，团队系统比较了四种改进算法：传统RF、极端随机树(Extremely Randomized Trees, ET)、交互森林(Interaction Forests, INTF)和随机分割随机森林(Random Split Random Forests, RSRF)。

研究采用了多项关键技术方法：基于功能方差分析(ANOVA)的交互效应量化、改进的树生长策略比较，以及包含100次蒙特卡洛模拟的大规模基准测试。特别值得注意的是，团队构建了五个具有代表性的仿真模型，从纯交互(pure-type)到层次交互(hierarchical)，系统评估了不同算法在维度变化(d=4,10,30)下的表现。

研究结果部分，小标题"2.1. Handling Interactions with Random Forest-type algorithms"详细阐述了算法创新。INTF通过允许同时沿两个方向分割，创造了七种新型分裂方式（如图3所示），显著提升了双变量交互的识别能力。而RSRF则采用"随机-CART"两步法：先随机分割生成候选分区，再用CART准则优化选择，通过增加分割随机性来覆盖更多交互可能。

在"3. Simulation results"部分，数据揭示了令人信服的结论。在纯交互模型(pure-type)中，当d=10时，INTF和RSRF的均方误差(MSE)分别为0.222和0.263，远优于传统RF的0.697（见表3）。这一优势随着维度升高而扩大，在d=30时差异更为显著。值得注意的是，即使在有噪声特征干扰的"高维(HD)"设定下，新算法仍保持稳定优势。

讨论部分强调了该研究的双重意义：方法论上，提出了针对交互效应的专用算法框架；应用层面，挑战了"交互必伴主效应"的传统假设。研究团队特别指出，在加州房价(california housing)等真实数据集上，INTF的优异表现暗示现实问题中可能存在"近似纯交互"现象——这一发现对特征工程和模型选择具有重要指导价值。

这项研究为机器学习社区提供了重要启示：没有放之四海而皆准的算法，即使是RF这样的"全能选手"也有其认知边界。通过精准定位算法局限并针对性改进，研究人员不仅拓展了非参数回归的理论边界，更开辟了交互感知建模的新方向。未来工作可将这些原理延伸至分类、生存分析等领域，并探索更高阶交互的高效检测方法。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号