集成机器学习模型的堆叠分类器:精准预测局部晚期胃癌新辅助化疗后淋巴结转移

【字体: 时间:2025年05月08日 来源:BMC Cancer 3.4

编辑推荐:

  局部晚期胃癌(LAGC)新辅助化疗(NAC)后淋巴结阳性(LN?)的早期预测对优化治疗策略至关重要。研究人员整合 CT 影像组学特征与临床生物标志物进行研究,发现堆叠分类器预测效能最佳,为 LAGC 患者个性化治疗提供依据。

  在全球范围内,胃癌是一个严重威胁人类健康的重大疾病,尤其是亚洲地区,胃癌的发病率居高不下。其中,局部晚期胃癌(Locally Advanced Gastric Cancer,LAGC)更是胃癌治疗中的难题,它是全球癌症相关死亡的第三大原因 。目前,对于 LAGC 的标准手术治疗方式是 D?根治性切除术并进行淋巴结清扫,但患者的预后情况却不尽人意,五年生存率低于 40%。这背后的原因十分复杂,肿瘤相关因素、宿主相关因素以及环境因素都在其中发挥着作用。
为了改善 LAGC 患者的治疗效果,新辅助化疗(Neoadjuvant Chemotherapy,NAC)逐渐成为了标准治疗方案。NAC 能够有效地降低原发性肿瘤的分期,清除微转移病灶,减少术中癌细胞的扩散,提高 R?切除率,从而对患者的生存产生积极影响。然而,在实际治疗过程中,却存在着诸多问题。一方面,只有约 30% 接受 NAC 的患者会出现淋巴结(Lymph Node,LN)消退,而 LN 转移的情况依然时有发生。另一方面,由于癌症的广泛异质性,准确评估肿瘤的异质性以及判断 NAC 后 LN 的受累情况变得异常困难,这对于确定最佳手术范围和优化治疗前决策极为关键。

当前,计算机断层扫描(Computed Tomography,CT)虽然已成为临床实践中诊断 LAGC 患者 NAC 后 LN 阳性(LN?)的常规工具,但这种评估方式存在很大的主观性,诊断准确性受到挑战,其敏感性仅约 57%。此外,由于成像方式本身的局限性,难以检测到微小转移灶,这使得准确评估 LN 状态成为肿瘤学领域长期面临的难题。虽然一些临床病理因素,如肿瘤大小、浸润深度、组织学类型以及中性粒细胞与淋巴细胞比值等与 LN?有关,但这些指标的敏感性较低,代表性也不强,在实际应用中存在很大争议。

在这样的背景下,广西医科大学附属肿瘤医院等机构的研究人员开展了一项极具意义的研究。他们旨在通过机器学习(Machine Learning,ML)方法,将影像组学特征和临床生物标志物相结合,提高对 LAGC 患者 NAC 后 LN?的预测准确性,为个性化治疗提供有力支持。该研究成果发表在《BMC Cancer》杂志上。

研究人员在开展这项研究时,运用了多种关键技术方法。首先,他们进行了回顾性研究,收集了 2014 年 1 月至 2024 年 12 月在广西医科大学附属肿瘤医院接受 NAC 且临床分期为 cT? - 4N?M?的患者数据。经过严格的纳入和排除标准筛选后,将符合条件的 277 例患者随机分为训练集(n = 193)和验证集(n = 84)。然后,从治疗前的门静脉期 CT 扫描图像中提取 1130 个影像组学特征,并通过特征工程处理,计算出影像组学评分(rad score)。最后,将 rad score 和临床生物标志物作为输入特征,运用简单统计策略(基于单个 ML 模型)和集成统计策略(包括硬投票、软投票和堆叠等分类模型集成技术)构建机器学习模型,预测 NAC 后的 LN?情况 。

下面来看具体的研究结果:

  1. 临床病理特征:研究共纳入 277 例接受 NAC 后手术切除的 LAGC 患者,其中 136 例(49.1%)术后被诊断为 LN?。训练集和验证集的临床病理特征无显著差异。同时发现,NAC 后 LN?与晚期临床 T 分期、晚期临床 N 分期、新辅助化疗线数减少(nNAC)、免疫治疗比例降低以及 rad score 升高显著相关。
  2. 影像组学分析:最初提取的 1130 个影像组学特征,经过一系列筛选,最终确定了 11 个具有非零系数的特征。构建的影像组学模型 AUC 达到 0.788 。
  3. 模型性能比较:以 rad score 和临床生物标志物作为输入特征,多种模型参与预测 NAC 后的 LN?。结果显示,在简单统计策略中,LightGBM 模型表现较为突出,AUC 为 0.850;在集成统计策略中,堆叠分类器表现最佳,AUC 达到 0.859,优于硬投票(AUC:0.790)和软投票(AUC:0.850)分类器。
  4. 模型解释:运用 Shapley 加性解释(SHAP)方法对模型进行进一步解读。结果表明,在堆叠模型第一层的贡献评估中,CatBoost 影响最大,其次是 XGBoost、LightGBM、GBDT、RF 和 AdaBoost。通过特征约简确定的最终模型包含五个输入特征,其中 rad score 影响最大,随后依次是临床 N 分期、nNAC、临床 T 分期和 CA199 水平。
  5. 临床应用:研究人员将集成了五个关键特征的堆叠分类器开发成了一个网络应用程序,作为临床使用的在线计算器,能够自主预测 LAGC 患者 NAC 后 LN?的风险,为临床医生提供了便捷的工具。

综合研究结论和讨论部分,这项研究具有重要意义。研究人员成功开发了一种集成影像组学和临床生物标志物的堆叠分类器,用于预测接受手术切除的 LAGC 患者的 LN?状态,为个性化治疗提供了有价值的见解。通过多种模型的比较,发现堆叠分类器能够有效整合多个机器学习模型的信息,在预测 LN?方面表现出卓越的性能。此外,通过 SHAP 分析确定了影响模型预测的关键因素,进一步揭示了肿瘤异质性与 LN?之间的关系。

然而,研究也存在一定的局限性。例如,堆叠分类器训练各层需要单独的数据集,计算资源需求大,计算时间长;仅从 CT 图像中提取影像组学特征,未考虑其他多模态医学成像技术;作为回顾性研究,可能存在选择偏倚和样本量有限的问题;未正式评估观察者间的变异性;没有纳入患者随访,无法评估 LN 状态和 NAC 反应对 LAGC 的长期影响。尽管如此,该研究依然为未来的研究指明了方向,后续研究可以在扩大样本量、纳入多模态影像特征、开展前瞻性研究等方面进一步深入,以提高对 LAGC 患者 NAC 后 LN?预测的准确性,为临床治疗提供更可靠的依据。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号