基于机器学习算法构建乳腺癌前哨淋巴结转移风险预测模型:精准医疗的新突破

【字体: 时间:2025年05月10日 来源:Discover Oncology 2.8

编辑推荐:

  乳腺癌是女性癌症相关死亡的首要原因,前哨淋巴结(SLN)状态对其治疗和预后至关重要。研究人员开展基于机器学习(ML)算法构建乳腺癌 SLN 转移预测模型的研究。结果显示,随机森林(RANDOM FOREST)模型表现理想,有助于临床决策。

  在当今医学领域,乳腺癌如同笼罩在女性健康天空的一片阴霾,其发病率在女性癌症中高居榜首,全球范围内,它已成为女性癌症相关死亡的主要 “元凶” 。腋窝淋巴结(ALN)转移情况对乳腺癌患者的治疗和预后有着举足轻重的影响,而前哨淋巴结(SLN)作为乳腺淋巴引流的第一站,是原发肿瘤转移至腋窝的主要途径。若 SLN 未发生转移,其余 ALN 转移的可能性就较低。因此,精准评估 SLN 状态,成为了乳腺癌治疗的关键一环。
目前,前哨淋巴结活检(SLNB)是评估临床淋巴结阴性乳腺癌患者 ALN 状态的常用方法,它能帮助医生决定是否需要进行后续的腋窝淋巴结清扫(ALND)。然而,SLNB 技术要求较高,其假阴性率在 4% - 12% 之间,且约 60% - 80% 的 SLN 活检病理结果为阴性。这不仅意味着患者要承受手术时间延长、上肢淋巴水肿、感觉异常等风险,还可能导致不必要的医疗资源浪费。因此,开发一种准确、高效且易于实施的术前无创评估 SLN 状态的方法迫在眉睫。

在此背景下,重庆中医药大学附属第一医院等机构的研究人员开展了一项旨在利用机器学习(ML)算法构建乳腺癌 SLN 转移预测模型的研究,相关成果发表在《Discover Oncology》杂志上。该研究的开展,为乳腺癌的精准医疗带来了新的希望。

研究人员在此次研究中运用了多种关键技术方法。他们回顾性收集了重庆中医药大学附属第一医院 2014 年 1 月至 2024 年 10 月期间接受 SLNB 的 225 例女性乳腺癌患者的临床数据。针对数据中存在的缺失值问题,采用多次填补(MI)技术进行处理,并将处理后的数据按 7:3 的比例随机分为训练集和验证集。通过单因素和多因素逻辑回归分析进行特征筛选,确定了多灶性(Multifocal)、淋巴管侵犯(LVI)、最大直径(Maximum Diameter)、超声形态(Shape US)、最大皮质厚度(Maximum Cortical Thickness)等作为建模特征。随后,运用逻辑回归模型(LOGIT)、正则化逻辑回归模型(LASSO)、极限梯度提升(XGBOOST)、随机森林(RANDOM FOREST)模型和梯度提升机(GBM)模型这五种 ML 算法构建预测模型,并使用十折交叉验证和网格搜索进行超参数优化。最后,利用 Shapley 加性解释(SHAP)分析对模型进行解读。

下面来看看具体的研究结果。

  • 患者特征:研究共纳入 225 例患者,其中 86 例(38.22%)无 SLN 转移,139 例(61.73%)发生 SLN 转移 。对比两组患者的基线特征发现,在肿瘤大小的 TNM 分期、肿瘤组织学、肿瘤分级、多灶性、LVI、HER2 等多个方面存在显著差异。
  • 预测因子筛选:经多因素逻辑回归分析,筛选出 5 个与 SLN 转移相关的临床特征。多灶性(OR: 0.11(0.03 - 0.50,p=0.004 ))、LVI(OR:0.02(0.00 - 0.32,p=0.006 ))为有利特征,最大直径(OR:2.17(1.08 - 4.36,p=0.029 ))、超声形态(OR:13.73(2.37 - 79.60,p=0.004 ))、最大皮质厚度(OR:9.18(1.94 - 43.53,p=0.005 )为有害特征。
  • 机器学习模型的预测性能和校准:基于筛选出的 5 个特征,运用 5 种算法构建模型。在训练集中,RANDOM FOREST 模型表现最佳,其灵敏度为 0.6835(95% CI 0.5574 - 0.7827),特异性为 0.9125(95% CI 0.827 - 0.9623),AUC 为 0.9177(95% CI 0.8737 - 0.9537) ,PR 为 0.8909(95% CI 0.8086 - 0.936)。在验证集中,LOGIT 模型总体准确率最高,但 5 种模型的各项指标均显示无过拟合现象。校准曲线表明,5 种模型在大多数阈值概率区间内均有实际应用价值,当疾病转移概率超过 0.75 时,RANDOM FOREST 模型净获益更高。
  • 基于 SHAP 的模型可解释性分析:SHAP 分析显示,不同模型中 5 个特征的贡献程度和排名有所不同,但总体上最大直径和最大皮质厚度对模型的贡献较大,是影响模型预测的重要因素。

研究结论和讨论部分指出,该研究成功筛选出了乳腺癌 SLN 转移的风险因素,构建并评估了 5 种基于 ML 算法的预测模型,其中 RANDOM FOREST 模型预测性能最佳。同时,SHAP 分析明确了最大直径和最大皮质厚度在模型中的重要作用。然而,研究也存在一定局限性,如回顾性研究可能存在数据遗漏和选择偏倚,样本量较小且来自单中心,缺乏外部数据集验证等。尽管如此,该研究仍为乳腺癌的临床诊疗提供了重要参考。它有助于医生在术前更精准地评估患者 SLN 转移风险,从而制定更合理的治疗方案,减少不必要的活检,推动乳腺癌个性化治疗策略的发展。未来,期待通过前瞻性设计、多中心数据整合以及更先进的机器学习技术应用,进一步优化模型性能,为乳腺癌患者带来更多福祉。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号