机器学习算法结合血液生化标志物(GGT和ALT)预测乳腺癌风险:一项基于大样本的回顾性研究

【字体: 时间:2025年07月06日 来源:BMC Cancer 3.4

编辑推荐:

  本研究针对现有乳腺癌预测模型过度依赖个人信息、缺乏血液生化标志物的局限,由中国广东省中医院团队通过机器学习算法(包括逻辑回归、多层感知机等7种模型)对25,911例患者数据进行分析,首次发现γ-谷氨酰转移酶(GGT)和丙氨酸氨基转移酶(ALT)是乳腺癌发生的独立预测因子,构建的模型AUC达0.862,为亚洲人群乳腺癌早期筛查提供了新型生物标志物组合。

  

乳腺癌作为女性最常见的恶性肿瘤,在中国每年新增病例高达42万例。尽管现有筛查手段如乳腺X线摄影和超声已广泛应用,但其存在辐射暴露、成本较高等局限性。更棘手的是,当前主流风险评估模型如Gail模型主要基于欧美人群数据,对亚洲女性的预测效能不足,且普遍缺乏可量化的血液指标。这种现状催生了一个关键科学问题:能否通过易获取的血液生化指标,构建更适合亚洲人群的乳腺癌预测模型?

广东省中医院乳腺科联合多学科团队开展了一项突破性研究。研究人员收集了2012-2022年间25,911例患者的临床数据,创新性地将27项指标(包括年龄、BMI等临床特征和GGT、ALT等14项血液指标)输入7种机器学习算法进行挖掘。这项发表在《BMC Cancer》的研究首次揭示:γ-谷氨酰转移酶(GGT)和丙氨酸氨基转移酶(ALT)这两个常规肝功能指标,竟与乳腺癌发生风险存在显著关联。

研究团队采用的关键技术路线包括:1)多中心医院信息系统数据采集与标准化处理(来自广东省中医院);2)基于Python 3.11的机器学习建模(含逻辑回归前向选择、随机森林特征筛选等);3)5折分层交叉验证确保模型稳健性;4)校准曲线和Brier评分评估模型性能。特别值得注意的是,研究通过热图分析剔除了体重、胆红素等冗余指标,最终保留21个核心特征。

【数据特征】研究纳入25,911例患者(训练集17,360例,测试集8,551例),基线分析显示乳腺癌患者平均年龄显著更高(52岁 vs 36岁),且GGT中位数水平明显升高(18 U/L vs 14 U/L)。

直观展示了这两个标志物的组间差异。

【模型构建】逻辑回归分析显示,年龄(OR=1.136)、GGT(OR=1.002)和ALT(OR=1.005)是三大独立风险因素。引人注目的是,六种机器学习算法一致将GGT和ALT列为前十重要特征,其中多层感知机模型表现最优(AUC 0.862,准确率84.1%)。

清晰呈现了各算法性能差异。

【机制探讨】研究推测GGT可能通过调节氧化应激影响癌变过程,而ALT的关联机制尚属首次报道。值得注意的是,虽然肥胖是已知风险因素,但BMI在本研究中未显示直接关联,提示血液指标可能更早反映代谢异常。

这项研究的临床价值主要体现在三个方面:首先,GGT和ALT作为常规体检项目,成本低廉且易于推广;其次,建立的预测模型特别适用于亚洲人群,弥补了现有欧美模型的不足;最后,研究证实机器学习能有效挖掘传统统计方法易忽略的复杂关联。不过作者也指出,由于是单中心回顾性研究,未来需要通过多中心前瞻性队列验证模型的普适性。

论文最后展望了三个方向:1)开发整合GGT/ALT的临床风险计算器;2)探索这两个标志物在乳腺癌发生中的生物学机制;3)将模型扩展应用于其他癌症的早期预测。这些工作将为实现"健康中国2030"癌症防治目标提供新的技术支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号