开发并验证用于预测具有部分实性和实性结节的I期肺腺癌(STAS)的机器学习模型:一项双中心研究
《Frontiers in Oncology》:Development and validation of machine learning models for predicting STAS in stage I lung adenocarcinoma with part-solid and solid nodules: a two-center study
【字体:
大
中
小
】
时间:2025年10月30日
来源:Frontiers in Oncology 3.3
编辑推荐:
预测肺腺癌气腔播散(STAS)的机器学习模型构建与验证。采用多中心回顾性研究,通过mRMR和LASSO算法筛选临床及影像特征,构建七种机器学习模型(Logistic回归、随机森林、SVM、XGBoost、AdaBoost、LightGBM、CatBoost),评估模型性能并利用SHAP分析解释特征重要性。XGBoost模型在训练集和验证集的AUC分别为0.889和0.856,校准曲线显示良好一致性,决策曲线分析证实其临床实用性。SHAP分析显示CEA、血管汇聚、proGRP、年龄、AFP、吸烟史和CTR是关键预测因素。
肺癌作为全球范围内发病率最高的恶性肿瘤之一,其治疗策略的选择对患者预后具有重要影响。在早期肺癌的治疗中,手术方式的决策尤为关键。对于I期非小细胞肺癌(NSCLC)患者,尤其是肺腺癌(LUAD)患者,术前准确识别肿瘤是否具有通过气腔扩散(Spread Through Air Spaces, STAS)的特征,对于制定合理的手术方案具有重要意义。STAS是一种近年来被广泛认可的肺部肿瘤侵袭方式,它表现为肿瘤细胞在气腔内形成微乳头状簇、实性巢或单个细胞的扩散,通常与肿瘤的侵袭性、局部复发率和较差的生存率相关。因此,开发一种可靠的术前预测模型,能够帮助临床医生在手术前判断患者是否为STAS阳性,从而优化治疗方案,对于提高患者生存率和减少不必要的过度治疗至关重要。
本研究的目标是通过结合临床特征与机器学习模型,实现对I期肺腺癌中STAS的术前预测,从而为临床决策提供支持。研究团队收集了来自两家医院的患者数据,包括353例来自北方江苏人民医院的训练集和120例来自无锡人民医院的验证集。通过最大相关最小冗余(mRMR)算法和最小绝对收缩和选择算子(LASSO)方法,筛选出与STAS相关的七个关键预测变量,包括癌胚抗原(CEA)、血管汇合、前列腺胃泌素释放肽(proGRP)、年龄、甲胎蛋白(AFP)、吸烟史和肿瘤实性成分比(CTR)。基于这些变量,构建了七种机器学习模型,包括逻辑回归、随机森林、支持向量机(SVM)、极端梯度提升(XGBoost)、自适应提升(AdaBoost)、轻量梯度提升机(LightGBM)和类别提升(CatBoost),并利用受试者工作特征曲线(ROC曲线)、校准图和决策曲线分析(DCA)对模型进行评估。其中,XGBoost模型表现最为优异,其在训练集和验证集中的曲线下面积(AUC)分别为0.889和0.856,显示出良好的区分能力和预测准确性。
在模型评估中,XGBoost不仅在区分能力方面优于其他模型,其校准性能也表现良好。校准图显示,预测的风险与实际观察结果之间存在高度一致性,这表明XGBoost模型在预测STAS方面具有较高的可信度。相比之下,尽管AdaBoost在AUC值上表现出色,但其校准性能较差,预测概率与实际结果之间存在较大偏差。因此,XGBoost被选为本研究中更优的预测模型。此外,决策曲线分析(DCA)进一步验证了XGBoost模型的临床价值,其在多个阈值概率范围内均显示出优于随机选择的净收益,尤其是在0.30–0.50的阈值区间内,模型的预测一致性最强,表明其在临床决策中的实用性和稳定性。
为了提高模型的临床可解释性,研究团队采用了Shapley加性解释(SHAP)方法,对XGBoost模型的特征重要性进行了可视化分析。结果显示,CEA是预测STAS最重要的变量,其次是血管汇合、proGRP、年龄、AFP、吸烟史和CTR。这些特征在模型中表现出不同的贡献方向,例如,较高的CEA值与STAS风险增加密切相关,而较高的CTR值同样增加了STAS的预测概率。SHAP分析不仅揭示了各变量对模型预测的贡献程度,还帮助临床医生理解模型如何结合不同因素进行判断,从而提高模型在实际应用中的透明度和可信度。
为了便于临床使用,研究团队进一步开发了一个基于XGBoost模型的网络版预测工具——Nomogram。该工具将七个关键预测变量整合为一个可视化的评分系统,允许医生根据患者的临床特征快速评估其STAS风险。通过网页平台实现,Nomogram不仅提升了模型的可操作性,还为临床实践提供了便捷的辅助手段。然而,尽管该模型具有较高的预测准确性和良好的解释性,其临床应用仍处于初步阶段,尚未经过前瞻性、多中心验证或正式的临床影响评估。因此,该工具目前仍被视为研究原型,需进一步验证其在实际临床环境中的适用性。
在临床和影像学特征方面,研究团队发现CT图像中的某些特征,如血管汇合和肿瘤实性成分比(CTR),与STAS的发生具有显著相关性。这些影像学特征在STAS阳性患者中更为常见,表明其可能作为术前判断的重要依据。同时,患者的年龄、吸烟史等临床变量也被证实与STAS风险密切相关。例如,年龄较大的患者更可能表现出STAS阳性,而有吸烟史的患者同样面临更高的风险。这些发现为临床医生提供了额外的判断线索,帮助他们在手术前更全面地评估患者的肿瘤特性。
肿瘤标志物在STAS预测中的作用也得到了进一步验证。CEA、proGRP、AFP等指标在STAS阳性患者中表现出较高的水平,提示这些标志物可能与肿瘤的侵袭性和系统性负荷相关。其中,CEA作为一种与细胞黏附相关的糖蛋白,在健康成人血液中通常不表达,而在STAS阳性患者中其水平显著升高。这一现象可能与CEA在肿瘤细胞迁移和侵袭过程中的作用有关,例如,CEA可能通过调节上皮-间质转化(EMT)相关信号通路,促进肿瘤细胞的侵袭能力,从而增加STAS的发生概率。此外,proGRP在小细胞肺癌(SCLC)中的应用已有较多研究,但在肺腺癌中的作用仍需进一步探索。AFP则主要与肝细胞癌相关,但在某些肺腺癌患者中也表现出升高的趋势,可能提示其在肺部肿瘤中的潜在生物学意义。
本研究的成果不仅为STAS的术前预测提供了新的方法,也为临床医生在制定手术方案时提供了重要的参考依据。通过结合临床、影像和实验室数据,XGBoost模型能够有效识别STAS阳性患者,从而指导医生选择更合适的手术方式。例如,对于预测为STAS阳性的患者,医生可能倾向于选择肺叶切除术,以降低局部复发的风险。而对于预测为STAS阴性的患者,可以选择更保守的手术方式,如楔形切除或段切除,以减少手术创伤并提高患者生活质量。
然而,本研究仍存在一些局限性。首先,研究采用的是回顾性设计,可能引入选择偏差,因此需要进一步开展前瞻性研究以验证模型的稳定性。其次,尽管进行了外部验证,但验证集仅来自一家医院,这可能限制了模型的普遍适用性。此外,研究样本量相对较小,可能导致模型存在一定的过拟合风险。同时,由于研究排除了纯磨玻璃密度(GGO)结节和多发结节患者,未来的研究需要探索这些亚组中STAS的预测方法,以提高模型的全面性。
总体而言,本研究通过机器学习方法成功构建了一个能够有效预测I期肺腺癌中STAS的模型,并展示了其在临床决策中的潜在价值。XGBoost模型在区分能力和校准性能方面均表现出色,而SHAP分析则增强了模型的可解释性,使其更符合临床需求。随着研究的深入和样本量的扩大,该模型有望在未来的临床实践中发挥更大作用,为肺癌患者提供更精准的术前评估和个体化治疗方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号