《Biometrical Journal》:A Multiple Imputation Approach to Distinguish Curative From Life-Prolonging Effects in the Presence of Missing Covariates
编辑推荐:
医学进步提高了癌症患者的生存率,也提高了发现治愈可能性的机会。因此,从治愈和延长生存两方面评估治疗的影响至关重要。为实现这一目标,可采用Cox比例风险(PH)治愈模型。然而,应用此类模型时的一个重大挑战,是协变量可能存在部分观测。本文旨在基于多重插补(MI)和
医学进步提高了癌症患者的生存率,也提高了发现治愈可能性的机会。因此,从治愈和延长生存两方面评估治疗的影响至关重要。为实现这一目标,可采用Cox比例风险(PH)治愈模型。然而,应用此类模型时的一个重大挑战,是协变量可能存在部分观测。本文旨在基于多重插补(MI)和完全条件设定(FCS)方法,改进对部分观测协变量的插补方法。更具体地,本文考虑一种更一般的情形,即用于建模治愈概率与未治愈患者生存过程的协变量向量可以不同。在一项大规模模拟实验中,研究人员考察了基于精确条件分布或基于近似插补模型的多重插补程序的表现;后者能够以更低的计算代价抽取插补值。为评估这些方法的有效性,研究人员将其与完全病例分析(CCA)以及一种在治愈概率和未治愈者生存建模中均纳入所有可用协变量的分析进行比较。文中还讨论了这些技术在BO06骨肉瘤临床试验真实数据中的应用。
该文发表于《Biometrical Journal》,聚焦于混合治愈模型(mixture cure model)中缺失协变量处理这一具有方法学意义的问题。研究背景在于,随着肿瘤学治疗进展,部分癌症患者在长期随访后可被视为“治愈”,此时传统生存分析仅关注事件发生时间,难以区分某一因素究竟主要影响治愈概率,还是仅仅延长未治愈患者的生存时间。对于骨肉瘤等儿科或青少年高治愈潜力肿瘤,这一区分尤为关键。现有Cox比例风险(PH)治愈模型能够将总体生存拆分为发生部分(incidence,即未治愈概率或治愈概率部分)与潜伏部分(latency,即未治愈患者的生存部分),从而分别刻画协变量对“是否治愈”和“未治愈者风险进程”的作用。然而,在实际临床数据中,关键预后变量常存在缺失;若简单采用完全病例分析(CCA),在缺失完全随机(MCAR)下虽可保持无偏,但效率不足,而在缺失随机(MAR)且缺失机制与结局相关时则可能产生明显偏倚。既往关于Cox PH治愈模型的多重插补研究,通常假设发生部分与潜伏部分使用相同协变量集合,这限制了模型区分“治愈效应”和“延寿效应”的能力,也可能因参数过多而降低估计精度,甚至影响模型可识别性。因此,研究人员开展本研究,旨在将多重插补方法推广到发生部分与潜伏部分允许使用不同协变量集合的更一般情形,并评估其统计表现及实践适用性。
在方法上,研究人员以Cox PH治愈模型为核心框架:采用Logistic回归描述发生部分,采用Cox PH模型描述潜伏部分,并在潜在治愈状态不可完全观测的前提下,结合期望最大化(EM)算法估计模型参数。围绕缺失协变量插补,研究人员发展了基于完全条件设定(FCS)的多重插补程序,分别构造精确条件分布与近似条件分布两类插补机制;其中还区分缺失变量仅进入发生部分、仅进入潜伏部分、或同时进入两部分三种场景。模拟研究基于1000个重复数据集展开,每个数据集含500例观测,设置MCAR与MAR两类缺失机制,并比较全数据分析、CCA、精确插补、近似插补以及“全模型”策略。随后,研究人员将方法应用于MRC BO06/EORTC 80931骨肉瘤随机对照试验,纳入429例局限性可切除高级别骨肉瘤患者,以治疗结束后的无进展生存(PFS)作为结局,重点处理组织学反应12%的缺失值。
就技术路线而言,本文主要采用四类关键方法。第一,使用混合治愈模型(mixture cure model)分离治愈概率与未治愈者生存风险,其中发生部分为Logistic回归,潜伏部分为Cox比例风险模型。第二,借助EM算法处理潜在治愈状态这一隐变量,并以修正Breslow估计量估计基线累积风险。第三,基于多重插补(MI)与完全条件设定(FCS)对缺失协变量和部分未知的治愈状态进行链式迭代插补,分别实现精确条件分布与近似条件分布的抽样。第四,通过大规模模拟与BO06/EORTC 80931随机对照试验数据应用,系统评估偏倚、均方误差(MSE)、95%置信区间(CI)宽度及覆盖率等指标。
1 Introduction
研究人员首先指出,现代肿瘤治疗使越来越多患者达到长期无事件生存,因而统计分析不应仅停留于“是否延长生存”,还应识别哪些因素影响“是否治愈”。在骨肉瘤这类疾病中,治疗后5年内未复发者极可能已进入治愈状态,因此治愈模型较传统生存模型更合适。文章进一步回顾了混合治愈模型的结构及其优势,强调发生部分和潜伏部分可采用不同协变量,从而识别变量究竟影响治愈概率还是仅影响未治愈者生存。随后,研究人员聚焦缺失数据问题,说明CCA的局限与多重插补的理论优势,并指出既有治愈模型插补方法依赖“两个子模型协变量相同”的限制性假设,难以适配真实研究。由此提出本文目标:推广多重插补方法到发生与潜伏协变量可不同的一般Cox PH治愈模型,并通过模拟和实例加以验证。
2 Basic Concepts
在基础概念部分,研究人员系统定义了混合治愈模型。总体生存函数由“未治愈概率”与“未治愈者生存函数”共同构成;其中治愈状态是潜变量,对删失个体不可直接观测,因此参数估计需依赖EM算法。文中说明了模型可识别所需的充分随访假设,并强调实践中需结合Kaplan–Meier曲线平台段及医学知识判断。随后,文章概述多重插补的一般流程:为缺失变量指定条件分布,重复生成多个插补数据集,分别拟合目标模型,再按Rubin法则合并估计量与方差。最后,研究人员说明在治愈模型中进行多重插补的难点不仅是结局属于生存型数据,还在于治愈状态本身对删失样本而言也是部分未知,因此插补模型必须同时反映随访时间、结局指示与潜在治愈状态的信息。
3 Methodology
本节是全文的方法学核心。研究人员首先推导了缺失协变量同时进入发生部分与潜伏部分时的精确条件分布;若缺失变量为连续型,则可在正态工作模型下构造条件分布,并通过Metropolis–Hastings算法抽样;若缺失变量为二分类,则可利用Bernoulli工作模型构造对应条件分布。文章强调,这些条件模型被视为工作模型,其目的在于逼近真实条件机制,而非声称完全等同于真实生成机制。接着,研究人员给出适用于治愈模型的链式多重插补算法:先用完整病例初始化参数并随机填补缺失值,再迭代估计基线累积风险、抽取模型参数、插补潜在治愈状态、插补缺失协变量,最终形成多个完整数据集。随后,文章为降低计算负担,利用一阶展开与Taylor近似构造近似条件分布,从而将复杂抽样简化为基于线性回归或Logistic回归的插补模型。该部分得出的主要结论是:在发生与潜伏协变量集合不一致时,仍可建立与治愈模型结构相适应的多重插补程序;同时,近似条件分布为实践应用提供了更低计算成本的替代方案。
4 Simulation
4.1 Simulation Design
研究人员构建了多个模拟场景,以系统比较精确插补、近似插补、CCA及全数据分析的表现。设计中设置了二分类与连续型协变量、MCAR与MAR缺失机制、不同缺失比例,以及缺失变量在发生部分和潜伏部分中的不同角色。另设“全模型”场景,将无效协变量纳入两个子模型,以评估饱和建模的代价。该部分表明,模拟框架覆盖了本文方法的主要应用情境,也为检验“区分发生与潜伏协变量是否必要”提供了基础。
4.2 Simulation Results
结果显示,在15% MCAR情形下,CCA基本无偏,但均方误差与置信区间宽度略劣于全数据分析;精确插补与近似插补则与全数据表现非常接近,并可降低部分参数估计的方差。在30% MCAR情形下,这一趋势延续:CCA因样本量损失而效率下降,而两类插补方法维持较好覆盖率与较接近全数据的性能。最关键的是在MAR且缺失机制依赖结局的情形下,插补方法明显优于CCA,后者出现显著偏倚、均方误差增大和覆盖率下降,说明当缺失与结局相关时,多重插补对于恢复信息、减少偏差具有实质意义。在缺失不依赖结局的MAR场景中,CCA与插补差距缩小,但近似插补仍表现稳定,而精确插补在部分参数上出现覆盖率下降,提示其可能在某些场景下存在过度校正或对模型假设更敏感的问题。
4.1.1 Comparison With a Full Model
通过比较约简模型与全模型,研究人员发现,将所有协变量同时纳入发生部分与潜伏部分会导致置信区间普遍变宽,即使偏倚变化有限,估计精度仍明显下降。这一结果支持了本文的核心主张:应区分影响治愈概率的协变量与影响未治愈者生存的协变量,而非机械地在两个子模型中都纳入全部变量。尤其当模型包含更多协变量时,过度参数化造成的低效率问题可能更突出。
4.3 Algorithm Performance Under Model Misspecification
本节考察模型误设下算法的稳健性,包括缺失变量实际只作用于一个子模型却被错误地设定为同时作用于两个子模型,以及缺失变量真实分布与插补工作模型分布不一致两类情形。结果表明,CCA在MAR情形下仍表现较差,而两类插补总体保持较低偏倚。精确插补虽在多数情况下有效,但对模型结构误设更敏感,部分参数覆盖率低于近似插补;近似插补则呈现更稳定的覆盖率和较强适应性。对于分布误设情形,近似与精确方法的总体表现与正确设定时差异不大,提示工作模型的适度失配并未显著破坏方法性能。该部分结论是:近似插补在现实研究中更具稳健性,尤其适用于研究者对变量应归属于发生部分还是潜伏部分并无充分先验信息的场景。
5 Case Study
研究人员将方法应用于MRC BO06/EORTC 80931骨肉瘤随机对照试验。该试验原始纳入497例患者,经过排除未接受化疗、剂量异常、未手术及治疗期间即死亡或进展者后,最终分析429例。研究关注治疗结束后的无进展生存(PFS),并将组织学反应缺失作为敏感性分析对象。根据临床知识与既往研究,潜伏部分纳入组织学反应与分配治疗,发生部分纳入性别与组织学反应。结果显示,两种插补方法的点估计与置信区间高度相似,与CCA相比并未改变协变量效应的总体结论,但插补法的置信区间通常略窄,尤其截距项的不确定性明显小于CCA。进一步比较全模型与约简模型可见,饱和模型的参数不确定性更大,特别是在截距、性别及治疗效应上置信区间更宽。实证分析得出:良好组织学反应是治愈概率的重要预后因素,但对未治愈患者PFS延长并无明确证据;强化治疗也未显示对治愈概率有清晰预测作用。该案例说明,区分“治愈相关因素”与“延寿相关因素”不仅在统计上更高效,也更符合临床解释需求。
6 Discussion
讨论部分总结指出,本文扩展了治愈模型缺失协变量的多重插补方法,使发生部分与潜伏部分能够使用不同协变量集合,兼顾了模型可识别性、计算效率与临床解释性。研究表明,在模型设定正确时,精确插补与近似插补结果相近,且相较CCA具有更高精度;在MAR情形下,多重插补明显优于CCA。精确方法通常给出略窄的置信区间,但在模型误设时近似方法覆盖率更好,因此在实践中更稳健、更安全。文章还指出,将所有协变量无差别纳入两个子模型会降低效率,支持在分析模型中进行针对性的变量选择。对于BO06骨肉瘤数据,组织学反应主要影响治愈概率,而非明确影响未治愈者的PFS,这一发现强调了区分发生与潜伏机制的重要性。研究人员同时指出,未来可探索基于观测似然而非完全似然的插补策略,并进一步发展与实质模型兼容的完全条件设定方法,以及适用于缺失数据情形的变量选择方法。
研究结论部分可概括翻译如下:研究结果表明,当模型设定正确时,精确与近似插补方法可产生相似结果;与完全病例分析(CCA)相比,插补方法能够得到更窄的置信区间,从而提高估计精度。模拟研究提示,在缺失随机(MAR)情形下,所提出的方法对缺失值具有稳健性,且表现优于CCA。精确插补方法在置信区间宽度方面略优于近似方法,但当模型存在误设时,近似方法具有更好的覆盖概率,因此在实际应用中是更安全且更稳健的选择。结果还表明,应区分发生部分与潜伏部分中的协变量,因为错误地将所有协变量都纳入两个组成部分,会导致更宽的置信区间并削弱精确方法的表现。