基于人工智能模型预测无细胞 DNA 样本中克隆性造血变异

【字体: 时间:2025年05月21日 来源:npj Precision Oncology 6.8

编辑推荐:

  在癌症诊断中,循环肿瘤 DNA(ctDNA)是关键生物标志物,但其准确解读受克隆性造血(CH)干扰。为此,研究人员开发开源机器学习框架 MetaCH,仅用血浆样本区分 cfDNA 变异来源,分类率超现有水平,助力精准癌症诊疗。

  
在癌症诊疗的 “战场” 上,液体活检凭借其无创、可纵向监测的特性,宛如一颗冉冉升起的新星,而循环肿瘤 DNA(ctDNA)作为其中的 “侦察兵”,在早期诊断、疗效评估等环节发挥着关键作用。然而,这颗 “新星” 却被一团阴云笼罩 —— 克隆性造血(CH)带来的干扰。CH 是造血细胞在生命周期中获得的体细胞变异,这些变异常出现在与衰老、血液肿瘤及实体瘤相关的基因(如 TP53)中。研究发现,在无癌个体中,超 75% 的 cfDNA 变异源于 CH;即便在癌症患者中,这一比例也常超过 50%。当医生试图通过 cfDNA 判断肿瘤突变时,CH 变异就像混入羊群的狼,可能掩盖真实的肿瘤信号,导致误诊或误判治疗效果。更棘手的是,传统依赖白细胞(WBC)配对测序的方法,因成本高、耗时长、样本易损耗等问题,难以在临床大规模应用;而仅靠血浆测序时,基于数据库匹配或变异等位基因频率(VAF)的传统分析,又因 CH 变异的个体特异性和信号重叠,显得力不从心。因此,如何在无需 WBC 配对的情况下,精准区分 cfDNA 中的 CH 变异与肿瘤来源变异,成为液体活检领域亟待攻克的 “堡垒”。

为突破这一困境,阿斯利康(AstraZeneca)的研究人员开展了一项具有创新性的研究。他们开发了开源机器学习框架 MetaCH(Metaclassifer for Clonal Hematopoiesis detection),旨在仅通过血浆样本实现 cfDNA 变异的准确分类。这项研究成果发表在《npj Precision Oncology》,为癌症液体活检的精准化迈出了重要一步。

研究人员采用了多阶段的机器学习策略。首先开发了突变富集工具包(METk),基于大规模泛癌数据集(如 TCGA、cBioPortal),利用自监督学习生成变异嵌入(Ev)、基因嵌入(Eg)和功能预测分数(Ef),这些特征涵盖了变异的序列背景、基因共现模式及功能影响。接着,构建了三类基础分类器:一是基于 cfDNA 数据的分类器,利用 Razavi 等人的数据集(含 124 例患者的配对血浆、肿瘤和 WBC 测序数据),结合 METk 特征、VAF 和癌症类型(Ct)训练而成;二和三是基于序列的分类器,依托纪念斯隆凯特琳癌症中心的 77,068 例肿瘤变异和 9,810 例血液变异数据,将 CH 变异分为致癌(CH-Oncogenic)和非致癌(CH-Non-Oncogenic)两类分别训练。最后,通过逻辑回归整合三类分类器的分数,形成最终的 MetaCH 评分(SMeta),实现变异来源的概率预测。

研究结果


  1. 模型性能验证:在 Razavi 数据集的交叉验证中,cfDNA 分类器与完整 MetaCH 框架表现相近,凸显 cfDNA 配对数据训练的重要性。在 Chabon、Leal、Chin、Zhang 等四个独立外部验证数据集(均含 WBC 配对测序)中,MetaCH 的 auPR(平均精度 - 召回曲线下面积)始终优于或接近各子分类器,且显著超越 Fairchild 等现有机器学习模型。例如在 Leal 的胃癌数据集(未纳入训练)中,MetaCH 的 auPR/auROC 达 0.89/0.84,远超 Fairchild(0.8/0.73)和 SSGAN(0.54/0.48)。

  2. 变异类型影响:CH-Oncogenic 分类器的 auROC 和 auPR 高于 CH-Non-Oncogenic 分类器,提示前者因具有与髓系和衰老相关的独特遗传特征,更易与肿瘤变异区分;而 CH-Non-Oncogenic 变异因信号与肿瘤重叠较多,分类难度更大。

  3. 模型鲁棒性分析:当移除 CH 相关高频基因(DNMT3A、TET2、ASXL1)时,MetaCH 性能仅下降约 6%,表明模型可通过其他特征维持预测能力;尽管对训练集基因存在一定偏向性,但在非训练集基因中仍优于随机分类。

  4. 特征重要性评估:置换重要性分析显示,基因嵌入(Eg)在训练和验证数据中均为最具信息量的特征,变异嵌入(Ev)和功能预测分数(Ef)在不同数据集间重要性波动,而 VAF 虽在训练数据中影响显著,但整体重要性低于 METk 特征。


结论与讨论


MetaCH 通过整合多源数据和多层次特征,构建了无需 WBC 配对的 cfDNA 变异分类框架,显著提升了 CH 变异的检测精度,为液体活检排除干扰、精准捕捉肿瘤信号提供了新工具。其优势在于:利用大规模泛癌数据学习变异的全局特征,结合 cfDNA 样本的特异性信息,突破了传统方法对配对测序的依赖;多阶段分类策略兼顾了变异的序列特征、功能影响和样本背景,增强了模型的泛化能力。

然而,研究也存在局限性。临床转化需建立 auROC、auPR 等指标与临床结局(如微小残留病假阳性率)的关联,未来可纳入年龄、化疗史等患者特征及 cfDNA 片段组学、甲基化等信息进一步优化模型。此外,训练集基因偏向性提示需扩大注释样本的基因覆盖范围,以适应临床靶向测序的需求。

总体而言,MetaCH 的问世为癌症精准诊疗注入了新动力。随着模型的不断优化和验证,其有望在临床实践中大幅提升液体活检的可靠性,助力实现个性化癌症医疗 —— 让每一份 cfDNA 样本都能更真实地 “诉说” 肿瘤的秘密,为患者争取更精准的治疗时机和方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号