脾门淋巴结转移预测的机器学习模型的建立

【字体: 时间:2025年02月12日 来源:npj Digital Medicine 12.4

编辑推荐:

  胃癌是全球范围内常见的恶性肿瘤,其发病率和死亡率都较高。在胃癌的治疗中,手术切除结合区域淋巴结清扫是主要的根治手段,但过度切除会导致较高的发病率,缩短患者的预期寿命。脾门淋巴结是胃癌区域淋巴结的一部分,对于胃上部三分之一的胃癌患者,其转移情况不容忽视,转移率在 2.8%-27.9% 之间。虽然日本的一项 III 期试验表明,在特定的胃上部进展期胃癌患者中,脾切除术和保留脾脏手术的生存率无明显差异,但对于侵犯大弯的胃癌,脾门淋巴结清扫具有较高的治疗价值。因此,日本胃癌治疗指南建议对这类肿瘤进行脾门淋巴结清扫。然而,脾切除术存在诸多弊端,术后并发症发生率较高,约为 20%-30%,在某些情况下,这一并发症甚至会抵消手术带来的生存益处。所以,基于癌症的肿瘤学状态制定和选择合适的手术方法至关重要。

  

贝叶斯模型预测脾门淋巴结转移:胃癌手术决策的新助力


在当今医学领域,精准医疗的需求促使科研人员不断探索更有效的疾病预测和治疗决策方法。日本国立癌症中心研究所医学人工智能研发部的 Kenichi Ishizu 等研究人员在npj Digital Medicine期刊上发表了题为 “Establishment of a machine learning model for predicting splenic hilar lymph node metastasis” 的论文。该期刊与首尔国立大学盆唐医院合作出版,在数字医学领域具有较高的影响力。此研究成果对于优化上消化道癌手术方案、提高患者治疗效果具有重要意义,为临床医生在脾门淋巴结(SHLN)清扫决策方面提供了有力的支持工具。


一、研究背景


胃癌是全球范围内常见的恶性肿瘤,其发病率和死亡率都较高。在胃癌的治疗中,手术切除结合区域淋巴结清扫是主要的根治手段,但过度切除会导致较高的发病率,缩短患者的预期寿命。脾门淋巴结是胃癌区域淋巴结的一部分,对于胃上部三分之一的胃癌患者,其转移情况不容忽视,转移率在 2.8%-27.9% 之间。虽然日本的一项 III 期试验表明,在特定的胃上部进展期胃癌患者中,脾切除术和保留脾脏手术的生存率无明显差异,但对于侵犯大弯的胃癌,脾门淋巴结清扫具有较高的治疗价值。因此,日本胃癌治疗指南建议对这类肿瘤进行脾门淋巴结清扫。然而,脾切除术存在诸多弊端,术后并发症发生率较高,约为 20%-30%,在某些情况下,这一并发症甚至会抵消手术带来的生存益处。所以,基于癌症的肿瘤学状态制定和选择合适的手术方法至关重要。


同时,传统的基于频率主义方法的机器学习模型在预测淋巴结转移时,无法满足临床实践的需求,因其不能有效预测不确定性,难以改变临床决策过程。而贝叶斯方法能够将先验信息和信念融入统计推断,通过后验分布量化不确定性,为临床决策提供更丰富的信息,在复杂的临床决策场景中具有独特优势。在医学的多个领域,贝叶斯推断已显示出有效性,但在预测脾门淋巴结转移方面,此前尚未有相关的机器学习模型报道。


二、研究材料与方法


(一)研究对象


研究人员对 2000 年 1 月至 2012 年 12 月期间在日本国立癌症中心医院接受胃切除术并进行淋巴结清扫的患者数据进行回顾性分析。最初有 5957 例患者符合胃切除术并淋巴结清扫的条件,经过一系列筛选,排除了 35 例 pT0 或 pT1 疾病患者、169 例 pStage IV 疾病患者以及 1 例进行 R1 或 R2 切除的患者,最终确定了 593 例接受全胃切除术联合脾切除术的原发性胃癌患者作为研究对象。


(二)变量选择


从一系列与预测胃癌脾门淋巴结转移临床相关的项目中选取解释变量。这些变量涵盖了多种临床和病理因素,包括患者的年龄、性别、是否接受新辅助化疗、肿瘤是否侵犯大弯等临床数据,以及根据日本胃癌分类标准确定的肿瘤位置、横截面积、宏观类型、肿瘤大小、主要组织学类型、次要主要组织学类型、区域淋巴结转移情况(编号 1-12a)等病理数据。对于连续变量,如年龄、肿瘤大小和病理 T 类别,采用 Z-score 标准化处理,使其转化为标准正态分布;对于分类变量,则使用独热编码(one-hot encoding)将其转换为适合模型输入的格式,并进一步进行 Z-score 标准化。


(三)模型构建


研究人员利用 Python 3.10 和 PyMC 5.9.250 设计了贝叶斯逻辑回归模型(Bayes-SHLNM)。该模型的结果变量为脾门淋巴结转移情况(0 表示无转移,1 表示有转移),解释变量通过逻辑回归纳入模型,并假设输出服从伯努利分布。为了进行正则化,研究人员对贝叶斯模型应用了四种不同的先验分布,即正态分布、学生 T 分布、拉普拉斯分布和马蹄形先验分布,并对其进行评估。最终发现马蹄形先验分布在模型性能上表现最佳。同时,为了进行性能基准测试,研究人员使用 Scikitlearn 模块开发了频率主义逻辑回归(FLR)模型,并利用 “Optuna” 版本 3.5.0 超参数优化框架对其进行调优。


(四)模型评估


采用分层 5 折交叉验证(5fCV)方法评估模型性能。在训练数据集中,使用 No-U-Turn Sampler 算法进行马尔可夫链蒙特卡罗(MCMC)采样,共收集 5000 个样本,丢弃前 2000 个样本作为预热期,以确保收敛后分布的更准确估计,并运行 4 个独立的链以保证样本的多样性,将接受率设置为 0.99 以实现高效准确的采样。从每个折叠的训练数据集的后验采样中提取样本的均值作为每个病例的预测概率,使用这些预测概率构建受试者工作特征曲线(ROC),并应用尤登指数确定最佳分类阈值(Yi 阈值)。在测试过程中,将模型预测的后验概率均值与该阈值进行比较,高于阈值则判定为阳性结果,通过计算 ROC 曲线下面积(ROC AUC)、精确召回曲线下面积(PRAUC)、灵敏度、特异性、精度和 F1 分数等指标来评估模型的性能。此外,还通过个体后验概率分布(PPD)评估不确定性,计算 PPD 的 95% 最高密度区间(HDI)范围、均值和中位数,并以核密度图展示,以探究模型在临床实施中的可行性。


三、研究结果


(一)研究人群基线特征


研究队列中的 593 例患者以男性居多,占比 70.5%,15.2% 的患者接受了新辅助化疗。肿瘤主要侵犯胃体上部,占比 58.7%,35.8% 的患者肿瘤侵犯大弯。主要组织学类型为低分化腺癌非实体型(por2),占比 42.0%,印戒细胞癌(sig)是第二常见的组织学成分,占比 25.3%。脾门淋巴结转移率为 8.1%,这也是研究的预测目标。此外,沿小弯(#1、#3)的淋巴结转移最为常见,与脾门淋巴结相邻的淋巴结(#4sb、#4d、#11d)转移率在 7.3%-12% 之间。


(二)模型性能比较


在 5 折交叉验证中,Bayes-SHLNM 模型在多个评估指标上表现出色,其 ROC AUC 为 0.83,PRAUC 为 0.35,F1 分数为 0.31,与 FLR 模型的结果相当。这表明 Bayes-SHLNM 模型是 FLR 模型的有力替代方案。当根据肿瘤是否侵犯大弯将肿瘤分为两类时,两个模型在大约 20% 的病例中均预测为阳性结果;在无大弯侵犯的肿瘤中,模型预测阴性的准确率高达 99%,在有大弯侵犯的肿瘤中,阴性预测准确率为 91%。在无大弯侵犯的病例中,Bayes-SHLNM 模型表现稍好;在有大弯侵犯的病例中,FLR 模型准确率略高。


(三)Bayes-SHLNM 模型个体患者后验概率分布


研究人员展示了 6 个具有代表性的病例。对于无大弯侵犯的病例,如 NonG-Case 1,尽管日本胃癌协会(JGCA)指南强烈不建议对这类肿瘤进行脾门淋巴结清扫,但模型预测的后验概率分布为重新考虑患者是否存在脾门淋巴结转移风险提供了依据。对于有大弯侵犯的病例,如 WithG-Case 1,模型预测的后验概率与 JGCA 指南中建议的脾切除术一致;而 WithG-Case 2 的后验分布则与指南中不进行脾切除术的建议相冲突,为重新考虑决策提供了信息。然而,也存在一些病例,如 WithG-Case 3 和 NonG-Case 3,考虑到不确定性时,决策可能不会改变,此时临床医生可能需要依赖 JGCA 指南、患者意愿或机构政策进行决策。


(四)回归系数参数的后验分布


研究人员对 Bayes-SHLNM 模型训练得到的 47 个回归系数参数进行分析,发现 #4sb 和 #4sa 系数在 95% HDI 内均大于 0,表明它们对模型有显著的正向影响。此外,肿瘤位于大弯、肿瘤大小、主要组织学类型 por2、LNM #11d 和 LNM #12a 等因素的系数也倾向于为正,提示这些因素存在时,脾门淋巴结转移的可能性更高。


四、研究结论与讨论


本研究首次开发了基于贝叶斯技术的机器学习模型 Bayes-SHLNM,用于预测上消化道癌的脾门淋巴结转移。该模型在性能上与传统的频率主义逻辑回归模型相当,且能够提供个体病例的后验概率分布,展示预测的不确定性,为临床决策提供了更丰富的信息。


在临床决策中,考虑不确定性具有重要意义。一方面,不确定性估计有助于临床医生识别预测可靠性高的病例,以及那些可能需要进一步诊断测试或会诊的病例。例如,当模型高度确定地预测脾门淋巴结转移时,可简化手术决策;而当不确定性较高时,则提示需要更谨慎的处理。另一方面,量化不确定性能够促进临床医生与患者之间的沟通。通过以概率分布而非确定性结果呈现预测,医生可以更透明地与患者讨论风险和益处,实现共同决策,使患者更好地参与到治疗过程中。


然而,本研究也存在一些局限性。首先,这是一项来自单一高容量机构的回顾性研究,样本量相对有限,且由于 JGCA 指南的影响,未来可能难以获得更大的样本量。同时,脾门淋巴结转移率较低导致数据不平衡,影响了传统机器学习方法的性能,尽管贝叶斯方法在一定程度上有所改善,但仍存在挑战。其次,模型未使用外部队列进行验证,其准确性和不确定性估计的可靠性有待进一步验证。此外,模型后验概率分布的准确性无法验证,将可解释性融入模型也面临困难,贝叶斯模型提供的不确定性界限的有效性和可解释性也不明确。未来需要开展前瞻性研究和基于模拟的分析,以评估模型在不同场景下的校准情况,使用外部数据集进行验证,进一步明确模型的可靠性和临床实用性。


总体而言,Bayes-SHLNM 模型为临床医生在决定是否进行上消化道癌脾门淋巴结清扫手术时提供了有价值的参考,展示了贝叶斯模型在个性化精准医疗中的潜力,为后续研究和临床应用奠定了基础,有望推动胃癌治疗决策向更加精准和个性化的方向发展。


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号