编辑推荐:
为解决胰腺癌早期诊断难、预后差问题,研究人员开展基于机器学习的研究,构建模型,助力临床诊疗。
《基于机器学习构建胰腺癌诊断与预后评估模型:突破困境,引领精准医疗新方向》
在医学领域,胰腺癌(Pancreatic Cancer,PC)犹如一颗 “定时炸弹”,严重威胁着人类健康。它是消化系统常见的恶性肿瘤,侵袭性强且预后极差。据美国癌症协会监测研究中心数据,2024 年胰腺癌新发病例预估达 66,400 例,死亡人数约 51,800 例,其发病率还在以每年 0.5 - 1.0% 的速度增长,预计到 2030 年将成为西方国家癌症死亡的第二大原因。在众多胰腺癌类型中,胰腺导管腺癌(Pancreatic Ductal Adenocarcinoma,PDAC)最为常见,约占所有病理类型的 90% ,可 5 年生存率仅 10%,10 年生存率更是低至 1% 。
PDAC 早期症状隐匿,多数患者确诊时已错过最佳手术时机。目前,血清生物标志物 CA19 - 9 虽广泛应用于 PDAC 诊断,但敏感性欠佳,难以实现早期诊断。因此,探寻更有效的诊断和预后评估方法迫在眉睫。
在此背景下,中国人民解放军总医院第五医学中心的研究人员展开了深入研究,相关成果发表于《BMC Cancer》。该研究旨在利用机器学习(Machine Learning,ML)结合血清生物标志物,构建 PDAC 的差异诊断和预后评估模型,为早期诊断、风险分层和个性化治疗提供有力支持。
研究人员采用了多种关键技术方法。首先,收集了 2022 年 9 月至 2023 年 10 月中国人民解放军总医院第五医学中心收治的 117 例 PDAC 患者的血清生物标志物数据和预后信息,同时纳入其他胃肠道肿瘤、胰腺炎患者及健康对照者的数据作为对照组。其次,运用 R 软件和 Python 进行数据处理与模型构建。利用 R 软件的 caret 包,采用随机森林(Random Forest,RF)、神经网络(Neural Network,NNET)、支持向量机(Support Vector Machine,SVM)和梯度提升机(Gradient Boosting Machine,GBM)这 4 种监督学习算法构建诊断模型;借助 Python 的 sklearn 库、lifelines 库和 DeepSurv 库,通过 COX 比例风险模型和 DeepSurv 深度学习模型预测生存风险。
研究结果令人瞩目:
- 诊断模型构建:在数据处理与特征选择阶段,采用预测均值匹配(PMM)处理缺失值,递归特征消除(RFE)进行特征选择,确定了 11 个变量(CA19 - 9、AMY、CA12 - 5 等)用于构建诊断模型。经过数据分割、超参数调优,构建并验证了诊断模型。在独立验证集样本中,RF、NNET、SVM 和 GBM 模型的准确率均超 80%,敏感性超 90%,展现出良好的诊断性能。
- 预后模型构建:经单变量和多变量 COX 回归分析,筛选出 BCAT1、AMY 和 CA12 - 5 作为预后模型的输入变量。构建的 COX 比例风险模型(CPH)和 DeepSurv 模型在评估 PDAC 风险预后方面价值显著,且 DeepSurv 模型表现更优。其训练集 C 指数为 0.738,验证集为 0.724,高于 CPH 模型。
- 治疗推荐评估:基于 DeepSurv 模型为靶向药物治疗、PD - 1 免疫治疗和手术治疗提供个性化治疗建议。结果显示,接受推荐治疗方案的患者中位生存时间显著延长,表明该模型在指导个性化治疗方面潜力巨大。
研究结论表明,构建的 PDAC 机器学习诊断模型准确性、敏感性和特异性高,可辅助临床病理诊断,减少误诊漏诊。CPH 和 DeepSurv 模型能准确评估 PDAC 预后,为临床提供参考。DeepSurv 治疗推荐系统指导下的个性化治疗可改善患者生存结局。不过,研究也存在局限性,如样本量有限、缺乏独立外部验证数据集,且仅使用血清学标志物评估,无法实现真正的个性化预测。
总体而言,这项研究为 PDAC 的诊疗开辟了新路径,机器学习和深度学习模型展现出巨大潜力。未来,随着研究的深入和技术的发展,有望进一步完善模型,推动 PDAC 临床管理迈向精准医疗新时代,为更多患者带来希望。