《Clinical Pharmacology & Therapeutics》:Systematic Evaluation of Data and Trial Fitness for Oncology Trial Emulation: Empirical Findings from the CARE Initiative
编辑推荐:
通过随机对照试验仿真推进真实世界证据联盟(CARE)倡议旨在深化理解真实世界数据(RWD)在何种情形下可通过仿真已完成的肿瘤学随机对照试验(RCT)生成有效的治疗效果估计。获得有意义的RCT仿真见解之前提,在于识别并使用具有足够适用性以满足RCT特定数据要素的
通过随机对照试验仿真推进真实世界证据联盟(CARE)倡议旨在深化理解真实世界数据(RWD)在何种情形下可通过仿真已完成的肿瘤学随机对照试验(RCT)生成有效的治疗效果估计。获得有意义的RCT仿真见解之前提,在于识别并使用具有足够适用性以满足RCT特定数据要素的RWD。研究人员对六种商业化美国电子健康记录(EHR)来源的RWD进行了系统性、多阶段的可行性评估,涵盖23项候选肿瘤学RCT。每项潜在RCT-RWD组合首先被筛选以确认RCT适应症、结局指标及每个试验组样本量是否达到入组人数的≥1.5倍。通过筛选的组合进一步接受RCT设计要素的详细评估,包括纳入/排除标准、结局指标及潜在混杂因素。各数据要素按照可用性(availability)、缺失程度(missingness)及真实性(validity)进行评级。最终可行性判定依据关键要素捕获情况及精细化样本量估计综合确定。在评估的54项候选RCT-RWD组合中,9项进入详细可行性评估,3项被选中进行仿真方案开发。适用仿真的限制因素包括复杂的纳入排除标准、生物标志物要求、体能状态要求及结局确认方式。这些发现强调了在进行仿真前开展系统可行性评估的重要性,并可为未来肿瘤学RWD研究的数据选择提供参考。肿瘤学RCT仿真的数据适用性可通过将高质量、肿瘤学特异性RWD来源与更广泛EHR及理赔数据来源相链接,或通过定制化数据提取加以改善。
## 研究背景与问题提出
随机对照试验(RCT)是验证生物医学产品疗效与安全性的金标准,但肿瘤学RCT面临诸多实践与伦理挑战,包括因人群规模小和严格纳入标准导致的入组困难、高比例的治疗交叉或研究脱落、以及标准治疗方案和超说明书使用的快速演变等。临床与监管决策者日益认可利用常规临床实践中产生的真实世界数据(RWD)为非干预性研究提供补充证据的潜力,真实世界证据(RWE)可在多种维度补充RCT,如为单臂试验提供解读背景、生成新假设、更高效地产出见解、以及在更广泛患者群体中理解真实诊疗模式下的长期治疗效果。然而,源于缺乏随机化所致的不可控混杂,以及数据质量和完整性参差不齐带来的测量误差,RWD非干预性研究的因果推断能力可能受限。
通过随机对照试验仿真推进真实世界证据联盟(CARE)倡议应运而生,旨在通过系统性地利用RWD仿真已完成肿瘤学RCT,并以与RCT结果的一致性作为金标准来评估,从而为肿瘤学真实世界研究的最佳实践提供信息。试验仿真通过RWD复现试验设计特征,以洞察观察性方法在何种情形下可逼近RCT因果效应量。因此,有意义的方法学见解依赖于能够准确实施试验特定人群、暴露、结局和混杂因素的数据可用性。美国食品药品监督管理局(FDA)在发布指南中强调,选择可靠且相关的适用目的数据对于非干预性研究进行恰当因果推断至关重要。尽管已有多种RWD选择框架问世,但针对肿瘤学RCT仿真的数据适用性评估仍缺乏系统经验总结。
## 研究目的与方法学框架
本研究旨在表征多项RCT-RWD组合下的肿瘤学RCT仿真可行性,描述数据可行性流程各步骤在CARE倡议候选RCT和可用数据集中的应用方式,并揭示影响整体评级的关键模式与驱动因素,为肿瘤学仿真研究中的透明化数据适用性评估提供实证依据。
研究人员从CenterWatch和FDA数据库中筛选2015–2020年间完成、含活性对照组、导致FDA药物批准的常见瘤种(乳腺、结直肠、非小细胞肺、胰腺、前列腺、肾或尿路上皮癌;急性髓系或慢性淋巴细胞白血病;滤泡性淋巴瘤)RCT。最终确定23项候选RCT,排除近期获批药物或涉及真实世界未常规评估的新生物标志物的试验。
可行性评估采用六家美国基于电子健康记录的RWD来源(ConcertAI、COTA、Loopback、Tempus、TriNetX、XCures),以分阶段方式进行:第一阶段(Screen 1)评估适应症和治疗方案在各数据集中的可识别性;第二阶段(Screen 2)以各RCT组样本量的1.5倍为阈值筛选满足样本量要求的组合;通过前两项筛选的组合进入基于结构化流程识别适用目的数据(SPIFD2)的详细评估,并针对仿真需求进行预先调整。研究人员从已发表文献中提取RCT设计要素,包括研究问题、目标、治疗方案、中位随访时间、样本量、纳入排除标准及结局指标;基于文献呈现的患者特征和专业知识识别潜在混杂因素。预先认定某些RCT要素在RWD中不可行(如RECIST可测量病灶、同意提供肿瘤样本、危及生命的广泛进展性疾病等),这些被评为"不适用"。
其余适用设计要素被评级为"关键"(essential)或"补充"(supplemental):用于识别适应症人群、治疗目标和结局的要素为关键要素;而旨在保护高风险患者的排除标准归为补充。各关键和补充要素按可用性、完整性(已知缺失程度)和真实性(变量整理状态或外部验证)进行1–5分评级(1分=未满足数据要求,5分=全部或几乎全部满足),并由至少两名团队成员独立评估后达成研究共识。整体评级主要基于关键要素评级和样本量,补充要素仅作定性参考。
## 主要研究结果
**候选RCT筛选结果**:在23项候选RCT中,3项因近期获批或涉及新生物标志而被判定不可行。
**第一阶段筛选结果**:54项潜在RCT-RWD组合中,44项(包括数据源5和6的所有潜在研究)因特定RCT适应症和/或结局在数据集中不可获得,或满足适应症且启动RCT治疗或对照治疗的患者过少(<各组RCT样本量的1.5倍)而未能进入详细评估。
**详细可行性评估关键发现**:以KEYNOTE-189试验为例(比较帕博利珠单抗+化疗与单纯化疗一线治疗转移性非鳞状非小细胞肺癌的OS和PFS),三个数据源(DS2–4)的评估显示:样本量方面,DS2治疗组1,736例、对照组948例;DS3治疗组2,605例、对照组1,925例;DS4治疗组576例、对照组600例。关键要素在三个数据源中均可获得,但完整性和真实性存在差异——DS2因死亡日期确认率低等获得较低评分;DS3和DS4对多数关键要素有可靠完整的数据,但DS3死亡数据未经验证,DS4样本量较低。
九项详细可行性评估的汇总结果显示(表3):DS1的三项评估均获最低评分"2",主要因体能状态和疾病进展指标缺失、需依赖国际疾病分类(ICD)代码而非整理变量确定转移诊断日期;评分较高的数据源倾向于包含更多整理数据元素——即从结构化和非结构化EHR数据中提取构建的标准化肿瘤学特异性指标。数据源对特定RCT的适用性因试验而异:DS4对ASCEND试验评分为最高"5"(高质量肿瘤学特异性指标可用),但对KEYNOTE-189因转移性非小细胞肺癌患者较少且缺乏非癌症诊断治疗信息而评为"4"。
**最终入选结果**:经过进一步精细化样本量估计,因ASCEND仿制样本量不足,最终三项仿真被选中进入方案开发:KEYNOTE-189在DS3和DS4中的仿真,以及PALOMA-2在DS3中的仿真。
## 讨论与核心结论
CARE倡议的可行性评估揭示了肿瘤学RCT仿真数据选择的独特挑战。肿瘤学试验中按标准化方案采集的ECOG体能状态、疾病进展等特异性指标,在真实世界临床实践中因评估时机、记录规范不一而难以直接对应。研究发现,表现最佳的EHR数据源需经过高度整理以创建标准化肿瘤学特异性指标,但这些数据源的相对较小患者规模限制了其覆盖所有潜在RCT仿真的能力;同时,具有高质量肿瘤学数据的数据源反而较少包含非癌症诊断和治疗信息,而这对于完整实施RCT纳入排除标准至关重要。这一发现提示,通过将肿瘤学特异性数据源与更广泛EHR及理赔数据链接,或进行定制化数据提取,可改善仿真数据适用性。
从54项候选组合到最终3项进入方案开发,这一显著"衰减"过程强调了针对RCT仿真目标进行专门化可行性评估的重要性。研究同时揭示了一个关键区分:由于RCT仿真目标是尽可能精确地镜像RCT,其设计选择可能并非产生真实世界比较有效性证据的最优方案——同一RWD源可能不适于RCT仿真,却可能适用于其他RWD研究类型。
该研究的局限性在于仅评估了六家美国合作数据源,未涵盖全球所有可用RWD;数据要素评级存在主观性,且未评估评审者间一致性。此外,处理治疗组间交叉和时变混杂等复杂真实世界分析考量所需的变量未在本评估范围内,这些因素仍可能是RCT与仿真结果差异的潜在解释。
研究结论指出:系统性数据适用性评估对于肿瘤学RCT仿真至关重要;在进行仿真前应进行分阶段的可行性筛选;数据适用性的限制因素包括复杂纳入排除标准、生物标志物要求、体能状态要求和结局确认方式;提高肿瘤学仿真数据适用性的途径在于数据源链接与定制化提取。这些经验为提升RWD研究透明度、优化肿瘤学真实世界研究数据选择流程提供了重要实证参考。