《Statistics in Medicine》:Empirical Comparison of Win Ratio and Joint Frailty Models for Recurrent Event Endpoints With Applications in Oncology and Cardiology
编辑推荐:
将复发非致命事件与终末事件相结合的复合终点越来越多地用于随机临床试验,然而传统的首次事件时间分析可能会掩盖临床相关信息。研究人员比较了两种针对此类终点定制的统计框架:联合脆弱模型(joint frailty model, JFM)和末次事件辅助的复发事件胜率(
将复发非致命事件与终末事件相结合的复合终点越来越多地用于随机临床试验,然而传统的首次事件时间分析可能会掩盖临床相关信息。研究人员比较了两种针对此类终点定制的统计框架:联合脆弱模型(joint frailty model, JFM)和末次事件辅助的复发事件胜率(last-event assisted recurrent-event win ratio, LWR)。JFM通过共享脆弱项指定复发事件和终末事件的比例风险,从而产生经协变量调整的、针对各组成部分的风险比,这些风险比考虑了信息性复发及与死亡的相关性。LWR是一种非参数、优先化的成对比较方法,它整合了随访期间所有观察到的事件,并在尊重死亡与复发之间预先指定的层次结构的同时,总结出治疗的人群层面获益。研究人员首先通过改变伽马脆弱方差和事件率的模拟评估了这些方法的性能。接着,研究人员利用肿瘤学和心脏病学中的两个临床应用实例说明了这两种方法,重点展示了结论如何依赖于治疗是否主要影响复发事件、死亡率或两者兼有。JFM提供了针对各组成部分的估计值,而LWR则得出了具有方向的治疗效应总结指标。JFM的统计功效得到了系统性提高,因此它似乎是用于推断和样本量估计的最可靠方法。LWR的方法学扩展,以适当处理删失并形式化因果估计量,仍然是未来研究的一个有前景的方向。
**论文解读文章**
**研究背景、问题与目的**
在随机临床试验中,当疾病通过多个临床相关结局表现时,常使用复合终点(composite endpoints, CEs)来更全面地概括治疗获益。然而,传统的首次事件时间分析面临诸多挑战:首先,它仅考虑每个受试者的首次事件,丢弃了后续复发事件的信息;其次,当复合终点包含可复发的非致命事件(如再住院)和致命事件(死亡)时,形成了半竞争风险结构——死亡发生后无法再观察复发事件;第三,复发事件过程与死亡之间存在信息性相关,例如频繁早期复发的患者死亡风险更高;第四,患者内在的未观测异质性导致同一患者多次复发事件之间存在相关性。忽视这些问题会导致推断偏倚和统计功效降低。
本研究旨在实证比较两种针对此类复合终点设计的统计方法:联合脆弱模型(JFM)和复发事件胜率(尤其关注末次事件辅助的胜率LWR)。JFM通过共享脆弱项联合建模复发事件和死亡,提供各组成部分的风险比;LWR则通过优先化的成对比较,给出单一的人群层面治疗效应总结。研究目标包括:(i) 评估两种方法在推断性能(偏倚、I类错误率和功效)上的表现,(ii) 比较它们在样本量估计上的差异。
**主要技术方法**
研究人员采用两种主要框架。第一,复发事件胜率(WR)框架,特别是末次事件辅助的胜率(LWR),它首先比较死亡时间,若平局则比较复发事件计数,若计数相等且非零则比较末次复发事件时间以打破平局。配对策略采用非匹配(全配对)或分层配对,并通过U统计量进行方差估计。第二,联合脆弱模型(JFM)框架,采用伽马-联合脆弱模型,通过共享随机效应(脆弱项)连接复发事件和死亡的条件风险函数,并利用惩罚似然法(如M样条)估计基线风险。样本量估计方面,JFM基于Wald检验和非中心卡方分布,通过蒙特卡罗模拟近似每个受试者的Fisher信息矩阵。LWR的样本量计算采用Mao等人提出的基于Gumbel-Hougaard copula和指数边际分布的模型化公式,但该公式不适用于复发事件;研究人员进一步开发了基于模拟的LWR样本量方法。所有分析基于frailtypack和WR R包,模拟数据来自基于逆变换抽样的伽马-JFM生成过程。
**研究结果**
**3.1 模拟设置**
研究人员设计了六个场景,变化脆弱方差(0.01、0.5、1.0)、复发事件率和死亡率,以及基线风险误设(log-logistic分布)。每个场景生成500个数据集,每个数据集500名受试者,1:1分组。JFM采用Weibull基线风险,LWR采用非匹配和分层配对。
**3.2 估计结果**
JFM对复发事件和死亡的回归系数估计近似无偏,相对偏倚通常在5%以内,但脆弱方差估计存在挑战:低异质性场景严重低估(均值0.055 vs 真值0.01,覆盖率仅20%),高异质性场景低估(0.863 vs 1.0,覆盖率86%),误设场景下更差。LWR的点估计偏倚小(-1.90%以内),但效应大小随脆弱方差增大向零值靠近;分层配对对偏倚和变异影响很小。JFM在除误设场景外收敛良好(500次中的469–500),而LWR无收敛问题。
**3.3 统计功效**
JFM在所有场景中均表现出更高的统计功效(范围34%–98%),远超过LWR(31%–71%)。例如基础场景JFM功效82% vs LWR 41%;高复发/低死亡场景LWR功效最高(71%),但仍低于JFM(93%)。仅在低复发/高死亡场景中两者功效接近(JFM 34.4% vs LWR 34.6%)。分层配对并未提升LWR功效,除非分层变量影响基线风险(额外验证场景显示分层后功效从73.8%升至77.6%)。
**3.4 样本量估计**
基于HF-ACTION数据,Schoenfeld公式(仅首次事件)所需样本量最大(80%功效需2132人);JFM在恒定风险下需1116人,递增风险下仅需832人;标准胜率(无复发事件)需1272人。基于LWR的模拟方法显示所需样本量对效应大小和异质性高度敏感:在较弱效应场景(HR
复发=0.8, HR
死亡=0.9, 方差=0.5)下需超过6000人,而在较强效应场景(HR
复发=0.7, HR
死亡=0.8, 方差=0.1)下仅需约1260人。
**4 临床应用**
**读入数据**:第一项研究为结直肠癌再住院数据(Readmission, n=403),比较化疗与对照。第二项研究为HF-ACTION心衰试验子集(n=424),比较运动训练与常规护理。
**治疗效应**:JFM分析显示,Readmission数据中化疗对再住院风险无显著影响(HR=0.86, p=0.371),但增加死亡风险(HR=2.90, p<0.001),提示方向相反。LWR分析显示胜率未显著偏离1(WR=0.98, p=0.878)。HF-ACTION数据中,JFM显示运动训练降低再住院风险(HR=0.75, p=0.030),对死亡有边界性降低(HR=0.59, p=0.056);LWR显示显著获益(WR=1.31, p=0.023)。两种方法结论一致。
**讨论与结论**
研究总结指出,对于包含复发非致命事件和死亡的复合终点,JFM和LWR均能有效分析,但JFM在统计功效上显著优于LWR(在所有模拟场景中功效更高)。JFM提供各组成部分的效应分解,适合效应方向可能相反的情况;LWR提供单一人群层面摘要,适合明确临床排序。JFM的局限性在于依赖模型假设(如脆弱分布、基线风险形式)且计算耗时;LWR的局限性在于估计量依赖于删失分布,难以调整协变量,且目前不支持复发事件的样本量公式。研究建议在临床试验设计时,优先考虑JFM作为主要分析方法,尤其在预期各组成部分效应方向不同或需要协变量调整时;LWR可作为敏感性分析或补充。未来方向包括为LWR开发IPCW(逆概率删失加权)变体、胜率等指标,以及将Josse & Even的因果框架扩展到复发事件胜率。论文发表在《Statistics in Medicine》。