《ImmunoTargets and Therapy》:Identification of Prognostic Clinical Features in Grade?4 Immune-Related Adverse Events: A Triangulation Study
编辑推荐:
背景:4级免疫相关不良事件(immune-related adverse events, irAEs)是免疫检查点抑制剂(immune checkpoint inhibitors, ICIs)治疗危及生命的并发症。由于其罕见性和数据匮乏,目前缺乏对影响不良预后
背景:4级免疫相关不良事件(immune-related adverse events, irAEs)是免疫检查点抑制剂(immune checkpoint inhibitors, ICIs)治疗危及生命的并发症。由于其罕见性和数据匮乏,目前缺乏对影响不良预后关键因素的系统研究。本探索性研究旨在识别与4级irAEs患者死亡稳健相关的临床特征。鉴于样本量极小且数据维度高,研究采用三角验证(triangulation)方法整合传统单变量统计与机器学习,以最大化特征选择的可靠性。方法:本研究纳入26例因4级irAEs入住重症监护室(intensive care unit, ICU)的肿瘤患者。为从有限数据中获取最大稳健性,采用"三角验证"方法。预后特征通过两种独立并行方法识别:(1)传统单变量统计分析;(2)经留一法交叉验证(Leave-One-out Cross-Validation, LOOCV)评估的多种机器学习算法。两种独立方法均一致识别为显著的特征被整合形成最终高置信度特征集。结果:单变量分析识别出21个与死亡显著相关的特征。机器学习分析将其精炼为11个重要特征。通过"三角验证",8个特征得到一致验证:体重指数(body mass index, BMI)和血管内皮生长因子(vascular endothelial growth factor, VEGF)抑制剂与死亡呈负相关,而血管升压药治疗、氧疗、第1天和第2天乳酸(lactic acid, LAC)水平、肺炎及中性粒细胞百分比与死亡呈正相关。结论:本小样本探索性研究采用"三角验证"框架,识别出8个与4级irAEs患者死亡稳健相关的常规可获得的早期ICU临床特征。这些特征凸显了休克、呼吸衰竭和炎症的核心作用。虽未直接构建临床预测模型,但可能有助于早期风险分层,并为未来大样本研究中的优先验证提供假设。
免疫检查点抑制剂(immune checkpoint inhibitors, ICIs)通过重新激活患者自身免疫系统识别并攻击肿瘤细胞,彻底改变了多种晚期或转移性恶性肿瘤的治疗范式,这一成就于2018年获诺贝尔生理学或医学奖认可。然而,ICIs的应用带来了一系列被称为免疫相关不良事件(immune-related adverse events, irAEs)的新型不良反应,给患者和临床医师带来重大挑战。irAEs可影响几乎所有器官系统,且在治疗期间甚至治疗结束后任何时间均可发生。根据美国国立癌症研究所发布的常见不良事件术语标准(Common Terminology Criteria for Adverse Events, CTCAE),irAEs按严重程度分为1级(轻度/无症状,无需干预)至5级(死亡)。现有文献显示,接受ICIs治疗的患者中irAEs发生率为60%-90%,≥3级严重irAEs发生率约为7%-20%。尽管部分研究表明发生irAEs的患者可能获得更好的肿瘤学结局,但严重irAEs(≥3级)不仅可直接导致患者死亡,还要求更高的临床警惕性和干预措施。
目前,针对irAEs预后因素的探索多将不同分级irAEs合并分析,这可能掩盖不同严重程度相关的差异化影响。聚焦4级(危及生命)irAEs患者生存结局的研究仍十分稀缺,主要源于其发生率低、病例数量有限及数据获取困难,使该人群处于"数据荒漠"之中,阻碍了前瞻性临床试验或大规模队列研究的开展。irAEs的发病机制涉及复杂的多系统、多因素相互作用,常表现为变量间的非线性关系。传统统计方法在处理此类高维小样本数据时效能受限,而机器学习(machine learning, ML)方法虽擅长识别复杂模式,却在样本量远小于特征数时极易发生过拟合。
为此,研究人员引入了源于社会科学和流行病学的"三角验证"(triangulation)策略作为核心分析方法。该方法基于以下原则:当多种具有不同方法学假设的独立分析路径汇聚于同一发现时,真实关联的可能性大幅增加,而方法特异性偏倚可能相互抵消。本研究的目标并非追求传统意义上的预测准确性,而是在有限数据条件下最大化特征选择的稳健性和可重复性,为后续大规模验证提供聚焦假设。
本研究纳入2018年至2024年间天津医科大学肿瘤医院ICU收治的26例因4级irAEs入院的肿瘤患者,所有患者转入ICU前均接受过PD-1/PD-L1抑制剂治疗。研究采用回顾性队列设计,但对识别后的病例进行前瞻性随访。患者按最终预后分为存活组(13例)和死亡组(13例)。数据收集涵盖基本信息、治疗史、既往史及入ICU后生化检测指标。研究通过传统统计方法与机器学习方法分别探索该研究不足人群最终预后结局的关键预测因子,并创新性地应用"三角验证"分析框架整合两类方法结果。
在传统统计分析中,连续变量以中位数(四分位距)表示,分类变量以百分比表示。组间比较采用非参数方法:连续变量采用Mann-Whitney U检验,分类变量采用Pearson卡方检验或Fisher精确检验(期望频数<5时)。多重比较校正采用Fisher最小显著差异(Least Significant Difference, LSD)法,该法在比较层面控制Ⅰ类错误,更适合旨在避免遗漏潜在相关假设的探索性研究。校正后双侧P<0.05视为有统计学意义。
机器学习分析针对高维(n=75)、小样本(n=26)数据特点,设计旨在最大化稳健性并最小化过拟合的分析流程。缺失值处理方面,连续变量以均值填补,非连续变量以众数填补(仅限机器学习部分)。采用留一法交叉验证增强模型评估稳健性,每轮迭代以25例样本训练、1例样本测试,重复26次直至每例样本均作为测试集一次。模型选择涵盖六种经典算法:支持向量机(Support Vector Machine, SVM)、随机森林(Random Forest, RF)、决策树(Decision Tree, DT)、逻辑回归(Logistic Regression, LR)、朴素贝叶斯(Naive Bayes, NB)和线性判别分析(Linear Discriminant Analysis, LDA),以覆盖不同建模假设和结构特征。评估指标包括曲线下面积(Area Under the Curve, AUC)、准确率、精确率、召回率、特异度和F1分数。鉴于小样本模型中标准差稳健性不足,采用Bootstrap重抽样法(2000次)计算各性能指标95%置信区间。剔除性能差或不稳定的模型后,对保留模型进行SHAP(SHapley Additive exPlanations)分析获取特征重要性排名,经归一化后计算平均值得到总体特征贡献排名。根据SHAP值差异寻找最陡下降点确定保留特征数,筛选在多个模型中重复出现(出现次数≥2)的特征构成最终子集,重新输入保留模型后选择最佳性能模型进行解释。
三角验证策略将传统统计方法与机器学习技术提取的关键特征取交集作为最终特征集,同时排除未达到传统统计显著性标准但经机器学习SHAP分析认为有解释相关性的特征,以增强特征选择的稳健性和可解释性。
研究结果显示,传统统计分析识别出21个与死亡显著相关的特征。存活组男性比例更低(53.85% vs. 92.31%),BMI更高(25.06±4.17 vs. 22.05±2.20);鳞状细胞癌比例更高(61.54% vs. 30.77%);接受VEGF抑制剂治疗比例更高(53.85% vs. 15.38%);无手术史比例更高(76.92% vs. 38.46%),围手术期比例更低(15.38% vs. 53.85%)。非存活组中69.23%的死亡与肺部不良事件相关,而存活组肺炎发生率仅7.69%;存活组因急性呼吸衰竭转入ICU的比例显著高于非存活组(76.92% vs. 30.77%)。临床指标方面,存活组舒张压、动脉血pH和淋巴细胞计数显著更高,而中性粒细胞百分比、入ICU后前三天乳酸水平及总胆红素、直接胆红素水平显著更低。ICU管理方面,非存活组需要高流量湿化氧疗、呼吸机辅助通气等更高级氧疗方式的比例更高,接受血管活性药物血压支持的比例也更高(100.00% vs. 38.46%)。
机器学习模型筛选中,全特征集建模显示显著过拟合。DT、NB和LDA模型因AUC置信区间包含0.5且整体性能差被排除;SVM、RF和LR模型保留。SHAP分析显示排名第11位处存在显著陡峭点(Δ=0.045),故保留前11个特征:氧疗、BMI、LAC1(第1天乳酸)、血管升压药治疗、LAC2(第2天乳酸)、VEGF抑制剂、尿酸、中性粒细胞百分比(N%)、靶向治疗、年龄和肺炎。该11特征子集重新建模后,LR模型综合表现最优,其SHAP结果显示BMI、靶向治疗、尿酸和VEGF抑制剂与结局变量呈负相关,血管升压药治疗、氧疗、LAC1、肺炎、N%、年龄和LAC2呈正相关。其中氧疗为特殊存在:鼻导管吸氧和高流量湿化与良好结局相关,而机械通气通常预示不良结局。
三角验证整合阶段,传统统计方法的21个显著特征经分组合并后得18个特征,与机器学习11个特征取交集,最终形成8个高置信度特征:BMI和VEGF抑制剂与死亡呈负相关,血管升压药治疗、氧疗、LAC1、LAC2、肺炎和N%与死亡呈正相关。值得注意的是,所有含缺失值的6个特征均未进入最终特征集,进一步缓解了插补引入偏倚的担忧。
讨论部分,研究人员指出本探索性研究聚焦于高风险的4级irAEs临床人群,面对样本量极小的实际挑战,未尝试构建具有泛化能力的临床预测模型,而是调查了一个更基础的前期问题:因4级irAEs入住ICU的危重患者中,哪些临床特征可能与死亡结局稳健相关。为此,研究人员创新性地应用"三角验证"策略整合传统统计与机器学习技术,最大化从有限数据中提取可靠信息。
研究发现与当前对严重irAEs的理解既一致又有所拓展。与传统研究一致的是,4级肺炎相关irAEs与极高死亡率相关,这与致命毒性效应与特定器官系统如肺炎和心肌炎密切相关的报告相符。乳酸升高、中性粒细胞增多、需要血管升压药和高水平呼吸支持等特征与不良结局的关联,与重症医学和脓毒症中的既定预后指标相呼应,提示致命irAEs的最终共同通路常汇聚于多器官功能衰竭和休克。连续乳酸测量(LAC1和LAC2)的重要性凸显不仅初始值重要,早期复苏过程中的趋势和反应同样关键。
然而,研究也获得了与部分更广泛irAEs分析不同的细致见解。虽然若干合并所有分级irAEs的研究提示其发生可能与更好抗肿瘤反应相关,但本研究对4级事件的分析揭示了一个由危及生命并发症主导的截然不同的临床现实。这种差异凸显了分级严重程度和单独研究高级别事件的关键重要性,因为合并数据可能掩盖最严重病例的独特风险特征和结局。此外,本研究优先识别了一些在较低分级或混合严重程度irAEs研究中不常作为顶级预测因子的特征组合(如BMI、VEGF抑制剂),提示4级事件的发病机制和预后驱动因素可能存在独特性。较高BMI与生存结局呈正相关,与危重患者中观察到的"肥胖悖论"相符,可能提示更大代谢储备与更好耐受严重免疫应激相关,但也不能排除更高BMI仅反映更好营养储备或疾病程度较轻而非直接生物学保护效应。VEGF抑制剂使用与该队列死亡率呈负相关,其背后机制值得进一步研究。除抗血管生成作用外,VEGF通路抑制剂也被报道可调节免疫微环境,在严重免疫毒性背景下可能有助于缓解过度炎症反应从而产生保护作用。当然,这种生存优势也可能主要归因于肿瘤类型差异而非VEGF抑制剂的直接生物学保护效应,但由于样本量小,无法在多变量分析中充分调整该因素。
值得指出的是,虽未经最严格"三角验证"筛选,仅通过传统统计或机器学习识别的其他特征仍具有重要提示价值。传统统计中另外10个显著特征提示非存活者可能表现出更具侵袭性的肿瘤生物学特征(如男性、术后状态)、更严重酸中毒(更低pH)、更差生理功能状态(更低舒张压、更高吸入氧浓度
FiO2和急性呼吸衰竭转入ICU)及更重肝损伤(更高总胆红素和直接胆红素)。机器学习中尿酸、靶向治疗和年龄被识别为显著特征,虽未达到传统统计显著性,但可能通过与其他特征的复杂交互影响结局,尤其是年龄作为基本生理指标。这些"次级"特征集不仅深化了对4级irAEs危重患者临床特征的理解,也为后续大规模研究提供了可检验假设的来源。
与既往研究相比,Acar等发现基线嗜酸性粒细胞增多和低红细胞分布宽度(Red Cell Distribution Width, RDW)可预测≥3级irAEs发生风险。由于数据收集限制,本研究未纳入RDW,嗜酸性粒细胞也未保留在最终8特征集中。这种差异可能源于结局和人群的不同:Acar等关注irAEs发生风险,而本研究关注4级irAEs死亡风险;且本研究所有患者均为需ICU救治的危重状态,早期预测因子可能被更直接的器官衰竭指标所掩盖。这提示预测"irAEs发生风险"与"4级irAEs死亡风险"可能需要不同的特征集,凸显了独立研究这一极端亚组的必要性。
尽管本研究为探索性质,发现仍具有明确临床意义。所有8个高置信度特征均为日常ICU监测的常规指标。临床医师应对此类特征组合保持高度警惕,尤其是当血管升压药需求、乳酸升高和高水平呼吸支持共存时,这些是4级irAEs患者危重症和极高死亡风险的强指示。研究结果强化了早期积极血流动力学支持(纠正低血压、降低乳酸)和呼吸支持对4级irAEs患者管理的基石作用。同时,接受VEGF抑制剂的患者需更密切监测。
研究局限性包括:样本量小(n=26)限制了传统分析统计效能并增加机器学习过拟合风险,虽通过LOOCV、Bootstrap置信区间和"三角验证"缓解,但仍需外部验证;回顾性单中心设计可能引入选择偏倚;模型基于入ICU时或 shortly after 可用数据,纳入24-72小时动态数据趋势可能提高预测准确性;未纳入无irAEs的ICU患者对照组,无法区分irAEs特异性预后因素与一般危重症严重程度标志物。
尽管如此,本研究仍提供了务实且重要的进展,展示了将可解释机器学习应用于肿瘤-重症医学"小数据"挑战的可行性和潜在效用。最终8个特征均为任何ICU均可获得的变量,使其可能转化应用于床旁风险评估。临床发现强化了早期识别和积极支持治疗对4级irAEs心血管和呼吸不稳定的核心重要性,为开发识别入ICU时死亡最高风险患者的工具奠定基础,以实现更强化监测和及时考虑二线免疫调节治疗。
未来研究应聚焦多中心合作以汇集更大数据集精炼和验证模型,并在数据收集精细度方面实质性改进,包括系统登记原发肿瘤类型、治疗场景、病理亚型、合并化疗完整病史等。只有具备如此详细信息,才能恰当评估本探索性研究中识别特征的独立预测价值。尚需前瞻性研究评估此类预测工具对临床决策和患者结局的影响。
研究结论部分指出,本明确为探索性的研究采用基于稳健性的"三角验证"发现框架,初步识别出与4级irAEs高风险人群死亡结局密切关联的8个临床特征的高置信度候选特征集,并系统考察了其他潜在关联特征的指示意义。但这些发现严格属于假设生成性质,绝不可解释为可改变实践。通过聚焦这一极端风险亚组并采用针对小样本定制的稳健分析方法,研究人员识别出一组精简的临床预测因子。发现凸显了4级irAEs的独特危险性,其特征为严重休克和呼吸衰竭,并强调了对这一脆弱人群开发专门预后工具和管理方案的迫切需求。虽然所有识别特征均应视为假设生成性质,需要在更大独立队列中严格外部验证,但本工作为风险分层提供了基础框架,并激励对危及生命irAEs的生物学和管理的进一步研究。