基于机器学习预测胃癌根治术后早期并发症的风险分层模型构建与验证

【字体: 时间:2025年10月15日 来源:Frontiers in Oncology 3.3

编辑推荐:

  本研究利用术前与术中数据,通过十种机器学习算法(包括XGBoost、SVM、随机森林等)构建预测模型,发现XGBoost模型在预测胃癌根治术后并发症方面表现最优(AUC=0.788)。关键预测因子包括吸烟、营养风险筛查(NRS2002>3)、重建方式、临床T分期(cT-stage>1)、手术时间及新辅助化疗联合免疫或靶向治疗等,为临床决策提供数据支持,助力术后风险管理。

  
引言
胃癌(GC)是全球第五大常见恶性肿瘤和第三大癌症相关死亡原因。手术切除是目前胃癌最可靠的主流治疗方法,而术后恢复对患者预后至关重要。在影响患者恢复的因素中,短期术后结果,特别是并发症的发生,具有重要临床意义。
机器学习(ML)作为肿瘤学研究的前沿工具,在构建诊断和预后模型方面相比传统统计方法具有显著优势。在癌症研究中,诸如eXtreme Gradient Boosting(XGBoost)、支持向量机(SVM)、随机森林、神经网络(NNET)、朴素贝叶斯、逻辑回归、线性判别分析(LDA)、K-最近邻(KNN)、弹性网络正则化广义线性模型(GLMNet)和分类树等算法被广泛用于预测建模,分析通常使用R或Python进行。
近年来,关于胃癌术后并发症的研究广泛开展。一些研究已应用ML开发此类并发症的预测模型,然而,许多研究排除了接受新辅助治疗的患者或仅包含该亚组的最小数据。为弥补这一空白,本研究利用术前和术中数据,纳入了一个包含大量新辅助治疗接受者的队列,并开发了基于ML的预测模型,以对胃癌患者术后早期并发症的风险进行分层。我们预期这些模型将有助于临床决策,协助并发症预防,并最终促进术后加速康复。
材料与方法
患者选择
我们回顾性收集了2014年至2024年间在北京协和医院因胃癌接受根治性胃切除术的患者数据。纳入标准为:接受根治性胃切除术;经组织病理学证实为胃腺癌;手术由经验丰富的胃肠外科医生完成。排除标准包括:年龄<18岁或>80岁;术中检测到转移性疾病或其他转移证据;并发其他恶性肿瘤;严重的心血管、脑血管或其他全身性合并症;缺失数据超过30%或失访。
并发症定义:术后早期并发症定义为术后30天内发生的任何Clavien-Dindo分级≥2级的事件。
数据收集
我们收集了入组患者的人口统计学和临床数据,同时使用有向无环图(DGA)原则控制潜在的混杂变量。人口统计学特征包括年龄和性别。临床数据包括术前数据、术中数据和术后结果。术前临床数据包括术前住院时间、吸烟和饮酒史、合并症(高血压、糖尿病、反流性食管炎、幽门梗阻)、心理障碍、既往腹部手术史、幽门螺杆菌(HP)感染状态、恶性肿瘤家族史、新辅助治疗、营养风险筛查2002(NRS-2002)评分,以及实验室参数包括白细胞(WBC)计数、血红蛋白、血糖、白蛋白、白蛋白/球蛋白比值(A/G)、C反应蛋白(CRP)、D-二聚体和肿瘤标志物(CA242、AFP、CEA、CA19-9、CA724)。肿瘤位置、临床TNM分期(根据AJCC第8版标准)和Her-2表达状态根据术前影像学和内镜活检结果确定。术中数据包括切除部位、吻合方式、手术持续时间、术中失血量、内镜使用、喂养管放置和输血。主要术后结果是并发症的发生。
数据分析策略
对于缺失值少于30%的变量,对收集的数据应用多重插补。对处理后的数据进行单变量分析和LASSO回归分析。在单变量分析中,分类数据使用卡方检验或Fisher精确检验进行评估,正态分布的数值数据使用t检验分析(结果以均值±标准差表示),非正态分布的数值数据使用秩和检验评估(结果以中位数[25%;75%]表示)。P值小于0.05被认为具有统计学意义。在LASSO分析中,选择了最佳正则化参数(λ),并提取了所有系数非零的因素。这些因素的并集用于构建ML模型。
基于mlr3系统和相关的R包,构建并调整了以下模型:XGBoost、SVM、随机森林、NNET、朴素贝叶斯、逻辑回归、LDA、KNN、GLMNet和分类树。采用嵌套交叉验证(外层5折CV + 内层5折CV,分辨率=3)来评估这些模型,得出AUC、准确率、召回率和特异性。绘制受试者工作特征(ROC)曲线、决策曲线分析(DCA)曲线和校准曲线以评估模型性能,并选择性能最佳的预测模型。
结果
本研究共纳入926例接受胃癌手术的患者,包括667例男性(72%)和259例女性(28%),中位年龄为61岁[53;67]。基线人口统计学和临床特征见表1。131例患者(14.13%)发生术后并发症,包括吻合口漏、胃排空延迟、出血、感染、梗阻、急性心脑血管事件。
单变量分析结果见表1,显示并发症组和非并发症组在以下变量上存在显著差异:年龄(p=0.04)、性别(p=0.019)、术前住院时间(p=0.01)、吸烟史(p=0.001)、新辅助化疗联合免疫治疗或靶向治疗(p=0.015)、NRS2002评分>3(p=0.006)、切除范围(p=0.043)、吻合方式(p<0.001)、失血量≥50 mL(p=0.001)、手术时间(p<0.001)、临床T(cT)分期>1(p=0.003)。
LASSO回归结果如图1所示,显示与术后并发症显著相关的因素包括Roux-en-Y吻合、NRS2002评分>3、手术时间延长、吸烟、A/G、Billroth II吻合、新辅助治疗联合免疫治疗或靶向治疗、cT分期>1、G和切除范围。弱相关因素包括CA242。
基于单变量和LASSO分析的综合结果,选择以下变量用于ML模型构建:吸烟、NRS2002评分>3、重建方式、cT分期>1、手术时间、新辅助化疗联合免疫治疗或靶向治疗以及切除范围。
XGBoost、SVM、随机森林、NNET、朴素贝叶斯、逻辑回归、LDA、KNN、GLMNet和分类树模型的嵌套交叉验证结果见表2。在这些模型中,XGBoost表现出最高的受试者工作特征曲线下面积(AUC = 0.788)和相对较高的召回值(0.741),表明其预测性能最优。各模型的ROC曲线见图2。各模型的DCA和校准曲线分别见图3和图4。在DCA中,XGBoost提供了最高的临床净收益,证实了其作为性能最佳模型之一的地位。此外,校准曲线表明XGBoost的预测概率和观测概率之间具有最佳的一致性。总之,XGBoost模型在预测胃癌患者术后并发症方面表现出最佳性能。
讨论
术后并发症是影响胃癌患者恢复的最关键因素,长期以来一直是外科医生关注的主要问题。尽管大量研究调查了胃癌各种术后并发症的预测因素,并且报道了少量基于ML的模型,但这些研究通常排除了接受新辅助治疗的患者。本研究通过纳入接受新辅助治疗的胃癌患者,弥补了这一研究空白。此外,我们利用术前和术中数据开发了一种基于机器学习的术后并发症预测模型,该模型最终可能指导临床决策,以预防并发症并促进术后恢复。
在方法学上,本研究通过结合单变量分析和LASSO回归的双重方法选择了模型构建的预测因素。该策略不仅保留了统计学上显著的变量,还考虑了特征交互作用,从而降低了假阳性率。关于ML算法,我们采用了十种不同的方法——XGBoost、SVM、随机森林、NNET、朴素贝叶斯、逻辑回归、LDA、KNN、GLMNet和分类树——这些方法的选择基于我们的样本量和结果特征。对于模型验证,我们实施了嵌套交叉验证,与传统的训练-测试分割相比,这种方法具有明显优势。具体来说,这种方法更适用于较小的数据集,严格防止数据泄漏,并能够进行分阶段验证,产生更稳健的结果。由于这是一个并发症预测模型,AUC和召回指标在性能评估中被优先考虑。此外,使用ROC、DCA和校准图来直观评估模型的预测效能。
LASSO和单变量分析确定,Roux-en-Y吻合、NRS2002评分>3、手术时间延长、吸烟、新辅助化疗联合免疫治疗或靶向治疗、cT分期>1是术后并发症的重要风险因素,而全胃切除术显示出保护作用。这些发现表明,有吸烟史、营养状况差、手术时间长、手术方式复杂、肿瘤生物学行为侵袭性强的患者面临更高的并发症风险。
手术是导致术后并发症的最关键因素。一项涉及2508例患者的多中心回顾性研究表明,Roux-en-Y吻合和手术时间延长是术后并发症的风险因素。吸烟和炎症状态与多种肿瘤的发生和发展以及不良预后有关。研究发现,有吸烟史和胃食管结合部白细胞水平较高的患者术后更容易发生吻合口漏。研究表明,营养不良和少肌症与胃癌患者的术后并发症相关。研究揭示,与未接受早期免疫营养支持的术后胃癌患者相比,接受支持的患者其吻合口漏和感染事件的发生率显著降低。相反,研究发现术后营养支持不足是根治性胃切除术后预后不良的风险因素。肿瘤侵袭性也是影响术后并发症的关键因素。研究表明,有神经侵犯和更高T分期的胃癌患者预后更差。这些发现与我们的研究结果一致,进一步验证了本研究的可靠性。
此外,本研究结果表明,接受新辅助治疗联合免疫治疗或靶向治疗的胃癌患者可能面临更高的术后并发症风险,这是一个新发现。近年来,尽管发表了大量关于胃癌新辅助治疗的研究,但大多数集中于比较化疗联合靶向/免疫治疗药物与常规新辅助化疗方案的疗效和安全性。然而,关于接受包含靶向或免疫治疗药物的新辅助治疗后进行手术的患者与未接受任何新辅助治疗的患者之间术后并发症的比较分析仍然缺乏。本研究的一个特点是同时纳入了接受新辅助治疗和未接受治疗的患者。值得注意的是,接受新辅助化疗联合免疫治疗或靶向治疗的患者通常具有与术后并发症较高倾向 inherently 相关的特征,例如更晚期的肿瘤分期、更广泛的侵袭范围和更复杂的手术程序。此外,从机制角度来看,先前的研究表明,免疫治疗和靶向治疗可能诱发炎症反应或免疫相关不良事件,从而损害组织愈合。这些因素可能解释了观察到的联合新辅助免疫治疗或靶向方案与术后并发症风险增加之间的相关性。然而,新辅助治疗联合免疫治疗或靶向治疗导致术后并发症风险升高的确切机制仍需进一步研究。
如图所示,XGBoost模型在评估的ML模型中表现出最佳的预测性能。它在ROC、DCA和校准曲线上均取得了最优结果。此外,表2显示XGBoost模型还实现了高召回率,这是一个在预测并发症时通常比准确率更关键的绩效指标,尤其是在处理不平衡的类别分布时。这些发现共同证实了XGBoost预测模型的高效性、准确性和临床实用性。
在XGBoost预测模型的开发过程中,纳入了术前和术中预测因子,以便能够在术后立即对并发症进行风险分层。这种方法有助于对高风险患者进行早期干预。临床上,吸烟史、术前NRS2002评分、新辅助治疗方案和临床肿瘤分期等因素在术前很容易获得。本研究确定吸烟史、NRS2002评分>3、新辅助治疗联合靶向或免疫治疗以及cT分期>1是术后并发症的重要风险因素。因此,术前干预——包括戒烟咨询、营养支持、充分的肿瘤降期以及新辅助治疗的最佳选择——可能有助于降低这些风险。此外,对于适合不同手术方式的患者,该模型可用于术前计算和比较各种手术技术相关并发症的预测风险分层区间,从而协助选择最合适的手术程序。同时,术中应努力缩短手术时间。最后,对于术后立即预测为并发症高风险的患者,必须加强对其术后状况的监测。及时实施相应的管理措施对于加速康复和改善患者预后至关重要。
本研究的亮点在于应用ML方法建立了一个针对所有胃癌患者(包括接受新辅助治疗者)的术后并发症预测模型,并使用交叉嵌套验证对模型进行了评估。此外,发现化疗联合免疫治疗或靶向治疗可能有助于术后并发症的发生。这项研究也有局限性。它是一项单中心回顾性研究,这固有地限制了样本量。此外,该预测模型中包含某些术中变量可能会部分损害其用于术前临床决策的效用。未来,我们的团队将继续扩大数据库并纳入外部数据集以进一步验证该模型。
结论
本研究利用术前和术中数据开发了一种基于ML的预测模型,用于预测接受根治性胃切除术的胃癌患者(包括接受新辅助治疗者)的术后并发症。关键预测因素包括吸烟、NRS2002评分>3、重建方式、切除范围、T分期>1、手术时间以及新辅助治疗联合免疫治疗或靶向治疗。在评估的十种模型中,XGBoost模型的AUC最高(0.788),在预测胃癌患者术后并发症方面表现出卓越的可靠性和更大的临床决策效益。这些发现凸显了人工智能在改善并发症预测和促进胃癌患者更快术后康复方面的巨大潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号