
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习算法的胆囊息肉良恶性术前预测模型构建与验证
【字体: 大 中 小 】 时间:2025年06月18日 来源:Surgery 3.2
编辑推荐:
推荐:本研究针对胆囊息肉(GPLs)术前良恶性鉴别难题,整合超声特征与临床指标,通过6种机器学习算法构建预测模型。随机森林(RF)模型表现最优(AUC达0.963),筛选出息肉大小、年龄、纤维蛋白原(FIB)、CA19-9等6个关键因子,并开发可视化在线预测平台,为临床决策提供精准工具。
胆囊息肉是胆囊黏膜常见的隆起性病变,发病率高达9.5%,其中恶性病变虽仅占4.6%-10%,但胆囊癌(GBC)作为第六大消化道恶性肿瘤,5年生存率不足5%。当前临床面临两大困境:一方面,欧洲指南建议对≥10 mm息肉行胆囊切除术,但实际90%手术切除的为良性病变,导致过度治疗及相关并发症;另一方面,经腹超声虽为首选检查,但对恶性病变的敏感度仅47%-67%,特异性波动在36%-100%。这种诊断困境催生了本研究——通过多中心大样本数据,建立更精准的术前预测体系。
青岛大学附属医院联合山东第二医科大学附属医院的研究团队,回顾性分析了2015-2023年间1050例接受胆囊切除术患者的临床数据。研究采用LASSO回归(最小绝对收缩和选择算子)筛选变量,结合SHAP(沙普利加性解释)算法进行特征重要性排序,最终通过6种机器学习模型比较,发现随机森林(RF)模型在训练集(AUC 0.963)、内部验证集(0.940)和外部验证集(0.958)中均表现最优。相关成果发表在《Surgery》杂志。
关键技术方法包括:1) 多中心回顾性队列设计(主队列945例+外部验证105例);2) LASSO回归联合多因素logistic回归初筛13个变量;3) SHAP算法可视化解释6个核心特征;4) 6种机器学习算法(含RF、XGBoost等)建模比较;5) 开发基于RF模型的在线预测平台。
【研究结果】
患者特征分析显示:恶性组年龄更大(中位69 vs 52.5岁)、单发息肉占比更高(84.21% vs 58.79%)、CA19-9水平显著升高(25.16 vs 11.22 U/mL),而胆碱酯酶(CHE)明显降低(7404 vs 8705 U/L),各组比较P<0.001。
变量筛选过程中,LASSO回归初筛的13个变量经多因素分析缩减至9个,最终SHAP算法确定6个核心预测因子:息肉大小(OR=3.30)、年龄(OR=2.98)、FIB(OR=2.87)、CA19-9(OR=2.45)、合并结石(OR=1.89)和CHE(OR=0.32)。
模型比较显示:RF模型在训练集的灵敏度(95.8%)、特异性(85.2%)均显著优于逻辑回归(92.2%/81.0%)和SVM(91.6%/79.1%)。决策曲线分析(DCA)证实RF模型的临床净获益最高,校准曲线显示预测-观测风险吻合度最佳。
【结论与意义】
这项研究首次将SHAP解释性分析与多算法比较相结合,证实基于6个常规指标的RF模型能准确预测胆囊息肉恶性风险。其中息肉大小和年龄的SHAP值最高,与既往研究一致——≥10 mm息肉恶变率超8%,而<5 mm者仅0.5%;年龄>65岁患者风险显著增加。FIB和CHE的创新性纳入拓展了生物标志物选择:FIB通过促进肿瘤免疫逃逸参与恶变,而CHE降低(7404 vs 8705 U/L)可能反映肝功能受损与肿瘤代谢异常。
开发的在线预测平台(http://123.56.229.150:1001)实现了临床转化应用,有望减少良性病变的过度手术。研究局限性包括回顾性设计的固有偏倚、超声评估的主观性等,未来需前瞻性验证。该成果为胆囊癌早期筛查提供了可解释、易获取的决策工具,推动精准医疗在肝胆外科的应用。
生物通微信公众号
知名企业招聘