RecForest:面向右删失复发事件数据的随机生存森林新方法及其应用验证

《BMC Medical Research Methodology》:Random survival forests for the analysis of recurrent events for right-censored data, with or without a terminal event

【字体: 时间:2025年11月22日 来源:BMC Medical Research Methodology 3.4

编辑推荐:

  本研究针对医学研究中复发事件数据分析的挑战,提出了RecForest算法,扩展了随机生存森林(RSF)至复发事件框架,支持存在或不存在终止事件的情形。通过模拟与真实数据验证,RecForest在C-index(0.60~0.82)和MSE等指标上均优于传统非参数估计和Ghosh-Lin模型,为高维、缺失数据下的复发事件分析提供了强有力的工具,相关R包已开源。

  
在医学研究中,患者常常会经历同一事件的多次发生,例如癌症复发、多次住院或重复手术。这类“复发事件”数据在生存分析中具有独特的复杂性:不仅事件会重复出现,还可能存在“终止事件”(如死亡),使得传统的只关注首次事件发生时间的生存模型不再适用。尽管已有如Andersen-Gill模型、脆弱模型(frailty models)等统计方法处理复发事件,但它们通常依赖于线性或低维假设,难以处理高维数据、多重共线性或缺失值等现代医学数据常见的挑战。随机生存森林(RSF)作为机器学习在生存分析中的成功应用,能有效捕捉预测变量与生存结果间的复杂关系,但此前尚未被扩展至复发事件的分析框架。为此,Juliette Murris等研究人员在《BMC Medical Research Methodology》上发表了题为“Random survival forests for the analysis of recurrent events for right-censored data, with or without a terminal event”的研究,开发了名为RecForest的新算法,填补了这一空白。
为开展研究,作者主要采用了以下几种关键技术方法:基于集成学习的随机森林框架,通过Bootstrap抽样构建多棵生存树;针对复发事件的特点,设计了新的节点分裂规则,分别采用伪得分检验(无终止事件时)或Wald检验(基于Ghosh-Lin模型,有终止事件时)来最大化组间差异;在终端节点内使用加权估计量计算累积期望事件数(结合逆概率加权处理终止事件导致的Informative censoring);模型性能通过专门为复发事件调整的C-index和均方误差(MSE)等指标进行评估;利用Out-of-Bag(OOB)样本进行内部验证和变量重要性(VImp)评估。研究所用数据包括大量模拟数据(涵盖高维、含缺失值、存在多重共线性等场景)以及公开的结直肠癌术后再入院数据(来自R包frailtypack)。
研究结果
模拟研究验证RecForest优越性
研究设置了多种模拟场景(有无终止事件、低维/高维、完整/含缺失数据、随机噪声等),将RecForest与非参数估计(Np)和Ghosh-Lin(GL)模型进行比较。结果显示,在所有场景下,RecForest的C-index均高于GL模型(例如无终止事件时达0.68–0.82,有终止事件时达0.69–0.82),且其集成评分(IScore)显著为正,表明其校准性能优于参考模型。在高维设定(p=300)下,GL模型因未做变量选择而无法实施,RecForest则表现稳健,证明其处理高维数据的能力。
真实数据应用展示实用价值
以结直肠癌术后再入院数据为例,RecForest经过超参数调优(mtry=4, minsplit=2, nodesize=5)后,在10折交叉验证中取得C-index 0.78(±0.07)和IScore 252.10(±14.69),显著优于包括GL模型在内的所有对比方法。变量重要性分析指出Charlson合并症指数为最关键预测因子,而性别和化疗的影响较小。预测曲线显示模型能较好跟踪个体化的事件累积过程。
方法学创新提升分析效能
RecForest的核心创新在于将RSF的节点分裂规则扩展至复发事件背景,并引入针对事件发生率的广义C-index和新型MSE指标,有效克服了因随访时间差异带来的评估偏差。其内置的缺失值处理机制(adaptive-tree imputation)和OOB误差估计进一步增强了模型的实用性和可靠性。
研究结论与意义
本研究提出的RecForest是首个能够同时处理右删失复发事件数据、容忍终止事件、适应高维特征和缺失值的随机森林算法。通过系统的模拟研究和实际数据验证,RecForest在判别和校准方面均表现出色,优于现有常用方法。该算法的实现以R包形式公开发布(CRAN: recforest),为医学研究者提供了一个强大、灵活且用户友好的分析工具。未来工作可进一步探索其在动态预测、可解释性增强(如SHAP分析)以及更复杂缺失机制(如MAR)下的应用,持续推动复发事件分析方法学的前沿发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号