利用集成机器学习模型预测循环肿瘤DNA高置信度体细胞变异

【字体: 时间:2025年05月27日 来源:Scientific Reports 3.8

编辑推荐:

  推荐 为解决循环肿瘤DNA(ctDNA)在癌症患者治疗监测中的准确检测问题,研究人员构建了两个随机森林模型,分别用于低深度和高深度全外显子组测序数据。结果显示,高深度模型在预测高置信度体细胞变异方面优于基于规则的过滤方法,提高了检测的精确性和召回率,对癌症患者的个性化治疗具有重要意义。

  

论文解读
循环肿瘤DNA(ctDNA)是由肿瘤细胞释放到血液中的游离DNA片段,因其微创性和快速反映肿瘤动态变化的特性,已成为癌症诊断和监测的重要生物标志物1-3。然而,ctDNA在总游离DNA(cfDNA)中的丰度通常较低,尤其是在疾病早期或复发监测时,这使得准确检测与癌症相关的体细胞变异变得极具挑战性8。传统的基于规则的变异过滤方法在去除假阳性变异的同时,往往会遗漏大量真实的ctDNA变异,或者在过滤后保留过多的变异,导致后续验证工作量巨大14-17

为了解决这一问题,利物浦大学健康数据科学系的研究人员开发了两种集成机器学习模型,分别用于低深度和高深度全外显子组测序(WES)数据中的高置信度体细胞ctDNA变异预测14-17。这些模型利用了来自四种变异检测工具(bcftools、FreeBayes、LoFreq和Mutect2)的15个特征,通过随机森林算法进行训练和优化。高置信度的真实变异集是从匹配的组织活检样本中获得的,确保了模型的准确性和可靠性。

研究人员首先对数据进行预处理,包括将FASTQ文件映射到人类参考基因组GRCh38,并使用GATK工具进行质量控制。接着,使用四种变异检测工具识别变异,并通过一系列过滤步骤去除可能的假阳性变异和非体细胞变异。为了构建训练和测试数据集,研究人员从公开的cfDNA WES样本中选择了低深度和高深度的数据,并使用匹配的组织样本作为真实变异的参考。

在模型训练过程中,研究人员采用了随机欠采样方法来平衡数据集中的正负样本比例,并通过嵌套循环优化模型的超参数。最终,两个随机森林模型分别在低深度和高深度数据上表现出色,其中高深度模型在测试数据上的精确率-召回率曲线下面积(PR-AUC)达到了0.71,显著优于基于规则的过滤方法。

研究结果表明,COSMIC数据库中的记录、dbSNP数据库中的缺失以及读深度是影响模型预测性能的关键特征。具体而言,COSMIC数据库中的变异和dbSNP数据库中的缺失变异显著提高了模型预测高置信度体细胞变异的概率,而读深度的增加也在一定程度上提高了预测的准确性。

此外,研究人员还评估了模型的普适性,发现模型在不同癌症类型之间的普适性有限,这可能与不同癌症类型的突变特征差异有关。因此,建议在实际应用中使用与训练数据相同癌症类型的样本进行模型训练和验证。

总之,这项研究表明,机器学习方法在过滤cfDNA数据中的变异方面具有显著优势,能够有效提高高置信度体细胞变异的检测精度。研究结果不仅为癌症患者的个性化治疗提供了新的工具,也为未来基于cfDNA的液体活检技术的发展奠定了基础。

研究方法
研究人员使用了四种变异检测工具(bcftools、FreeBayes、LoFreq和Mutect2)来识别cfDNA中的变异,并通过一系列过滤步骤去除可能的假阳性变异和非体细胞变异。为了构建训练和测试数据集,研究人员从公开的cfDNA WES样本中选择了低深度和高深度的数据,并使用匹配的组织样本作为真实变异的参考。模型训练过程中采用了随机欠采样方法来平衡数据集中的正负样本比例,并通过嵌套循环优化模型的超参数。

研究结论
研究表明,机器学习方法在过滤cfDNA数据中的变异方面具有显著优势,能够有效提高高置信度体细胞变异的检测精度。高深度模型在测试数据上的表现优于基于规则的过滤方法,COSMIC数据库中的记录、dbSNP数据库中的缺失以及读深度是影响模型预测性能的关键特征。研究结果为癌症患者的个性化治疗提供了新的工具,并为未来基于cfDNA的液体活检技术的发展奠定了基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号