基于可解释机器学习技术的乳腺癌精准预测研究成果显著

【字体: 时间:2025年03月05日 来源:Scientific Reports 3.8

编辑推荐:

  为精准预测乳腺癌,研究人员用可解释机器学习技术分析基因表达数据,确定关键基因,助力医学决策。

  乳腺癌,这个全球健康的 “头号公敌”,每年都无情地夺走无数人的生命。据统计,2020 年全球约有 1930 万新增癌症病例,近 1000 万人因癌症离世,其中乳腺癌在女性群体中尤为高发,是发达国家和发展中国家女性癌症死亡的第二大主因。目前,乳腺癌的防治面临诸多难题,像数据缺失、诊断治疗延迟,还有基因表达数据分析的重重阻碍,这些都严重影响着患者的生存希望。在此背景下,来自加纳大学、夸祖鲁 - 纳塔尔大学等多个国外机构的研究人员,开展了一项基于可解释机器学习技术的乳腺癌预测研究,相关成果发表于《Scientific Reports》。这一研究成果意义非凡,为乳腺癌的精准预测和个性化治疗带来了新的曙光,有望改善患者的预后情况。
研究人员在本次研究中,运用了多种关键技术方法。数据方面,他们借助 R 语言中的 TCGAbiolinks 包,从癌症基因组图谱(TCGA)数据库获取了包含 19948 个基因、1208 个样本的乳腺癌数据。之后,为应对基因数据的高维度问题,采用了稀疏包装算法(SWAG)进行特征选择。建模时,运用了 K 近邻(KNN)、随机森林(RF)、支持向量机(SVM)等多种机器学习模型。为了解释模型预测结果,还使用了 Shapley 值、部分依赖图(PDPS)、累积局部效应图(ALE)等可解释性技术。

研究结果部分:

  • 模型构建与评估:研究人员运用 SWAG 模型,结合 SVM 线性、SVM 径向和随机森林(RF)三种学习器,对数据进行分析。将数据按 60% 和 40% 的比例分为训练集和测试集,设置参数 α=0.2、最大特征数 pmax=10,经 10 次迭代、1000 次排列,最终发现三种学习器在第五次迭代时均达到最小交叉验证误差 0.0014,每个预测模型都预测出 5 个特征。其中,SVM 径向学习器的准确率最高,达 99.59% 。
  • 关键基因的确定:通过研究,确定了 COL10A1、MMP11、SDPR、FIGF、CD300LG、FXYD1、CLEC3B 等基因是乳腺癌存在的重要预测因子。比如 COL10A1 编码 X 型胶原蛋白成分,在肿瘤基质中常过表达,与肿瘤侵袭和患者不良预后相关;MMP11 能降解细胞外基质,其高表达与肿瘤侵袭性增加和临床结局恶化有关 。
  • 特征重要性分析:利用 Shapley 值、LOCI 等方法对特征重要性进行分析。Shapley 值能展示特征对癌症预测的影响,但它存在计算复杂、对基线模型敏感、假设特征独立等问题。而 LOCI 方法则成功识别出 10 个预测乳腺癌的关键基因,通过评估这些基因在不同迭代中的排名一致性、对模型性能的影响以及与现有文献的交叉参考,验证了其可靠性 。
  • 可视化分析:借助 PDPS 和 ALE 图进行可视化分析。PDPS 展示了单个特征变化对预测结果的影响,ALE 图则在考虑特征间相互作用的情况下,展示单个特征变化对预测的影响。例如,对于 COL10A1 和 MMP11 基因,ALE 图和 PDPS 都显示出其表达值增加会使模型预测值上升,而 SDPR 和 CD300LG 基因则相反。

在研究结论与讨论部分,此次研究成功利用特征选择技术和可解释机器学习方法,提升了乳腺癌预测模型的可重复性、可解释性和可靠性。研究确定的关键预测因子,为深入了解乳腺癌生物学机制提供了重要依据。不过,研究也存在一些局限性,像 SWAG 算法可能会排除一些具有重要背景或解释价值的特征,运行该算法耗时较长,且研究仅在单一数据集上进行验证,缺乏与其他方法的比较。但总体而言,这项研究为乳腺癌研究和临床实践开辟了新方向,强调了在医学决策中纳入可解释机器学习框架的重要性,有望推动乳腺癌精准预测和个性化治疗的发展,让更多患者受益。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号