循环肿瘤DNA中体细胞突变检测方法的全面基准测试研究
《Nature Communications》:Comprehensive benchmarking of methods for mutation calling in circulating tumor DNA
【字体:
大
中
小
】
时间:2025年12月20日
来源:Nature Communications 15.7
编辑推荐:
本研究针对ctDNA中体细胞突变检测因低VAF和cfDNA降解而面临的挑战,开发了基于结直肠癌和乳腺癌患者纵向样本的基准测试策略。研究通过构建包含~37,000个SNVs和~58,000个indels的参考数据集,系统评估了9种变异检测方法在不同ctDNA水平和测序深度下的性能。结果表明Strelka2和SMuRF在发现分析中表现最优,而VarScan在临床基因分型中灵敏度最高,为液体活检应用提供了实践指南。
在精准肿瘤学领域,利用下一代测序(NGS)分析循环肿瘤DNA(ctDNA)已成为一种革命性的非侵入性方法,能够通过简单的血液检测获取肿瘤的分子信息。这种方法在监测治疗反应、检测微小残留病变、对患者进行分子分层以进行靶向治疗以及识别治疗获得性耐药等方面展现出巨大潜力。然而,从血浆中准确识别癌症体细胞突变,特别是单核苷酸变异(SNVs)和短插入/缺失(indels),仍然面临重大挑战。这主要归因于ctDNA在血浆样本中的比例通常很低,导致突变等位基因频率(VAFs)极低,同时cfDNA存在高度降解以及覆盖深度不均匀等问题。此外,克隆性造血(CHIP)等生物因素进一步增加了突变检测的复杂性。尽管近年来出现了一些针对cfDNA突变检测的新方法,但大多数现有的体细胞变异检测方法并非为血浆样本设计,也缺乏在真实血浆样本上的系统性基准测试,这使得终端用户在方法选择上面临困难。
为了应对这一挑战,由Hanaé Carrié、Ngak Leng Sim、Pui Mun Wong等研究人员组成的研究团队在《Nature Communications》上发表了题为“Comprehensive benchmarking of methods for mutation calling in circulating tumor DNA”的研究论文。该研究旨在建立一个全面的基准测试框架,以评估和比较不同体细胞突变检测方法在cfDNA样本中的性能,为液体活检应用提供实践指导。
研究人员开展此项研究的关键技术方法包括:利用结直肠癌和乳腺癌患者的纵向血浆样本构建包含高和超低ctDNA水平的样本对,并通过体外数字混合创建保留cfDNA片段化模式及患者特异性背景的稀释系列;采用深度全基因组测序(150x)和超深全外显子组测序(2,000x)生成包含约37,000个SNVs和58,000个indels的大规模参考数据集;应用9种体细胞变异检测方法(包括7种为肿瘤组织设计的方法和2种为cfDNA设计的方法)进行分析;并利用机器学习方法对现有方法进行cfDNA特异性微调,分析提升准确性的关键特征。
A large-scale cfDNA somatic mutation reference dataset
研究团队首先创建了一个大规模cfDNA体细胞突变参考数据集。与肿瘤组织基准测试中常用的将肿瘤DNA与匹配正常DNA样本混合的策略不同,本研究创新性地采用了患者匹配的血浆样本进行体外数字混合。这种方法能够保留cfDNA的片段化模式以及患者特异性的种系和体细胞造血变异背景。研究人员从结直肠癌和乳腺癌患者队列中,通过低深度全基因组测序和深度靶向测序,筛选出4名患者(1名乳腺癌,3名结直肠癌),这些患者在不同时间点拥有高ctDNA水平(约40%)和超低ctDNA水平(约1%)的样本。通过深度测序,构建了两种类型的全基因组测序稀释系列:系列A在固定150x有效覆盖深度下逐步降低肿瘤分数(TF,从~25%降至~2%);系列B在固定高TF样本读数(70x)的同时,增加低TF样本的非ctDNA读数,从而将有效覆盖深度从70x提高至250x。这两个系列均包含了从高到低信噪比的样本。
Generation of ground truths labels using consensus calling
为了生成可靠的基准真相(ground truth)变异集,研究人员将9种SNV检测器和8种短INDEL检测器应用于每个患者的高TF样本。通过多数投票方案来定义基准真相集。研究验证了这种方法的可靠性:在一名拥有匹配肿瘤组织的患者中,高TF血浆样本中检测到的突变与原发性和转移性组织中检测到的突变存在高度显著的重叠,支持了基于血浆衍生基准真相的可靠性。在基准测试稀释系列中,基准真相突变的VAFs随着稀释水平的增加而线性下降。
Variant calling accuracy at 150x sequencing depth
在150x测序深度下,研究人员在两种应用场景下评估了突变检测器的性能:无偏见的全基因组/外显子组发现分析和临床靶向基因分型分析。在发现分析中,Strelka2和SMuRF在所有的ctDNA水平范围内都表现出最佳的SNV检测性能,其AUPRC(精确召回曲线下面积)大约是次优方法的两倍。对于INDEL检测,VarScan和SMuRF consistently demonstrated highest accuracy。在临床基因分型场景中,强调在固定精度水平下的灵敏度,VarScan、VarDict和Mutect2表现出最高的灵敏度。令人意外的是,两种针对cfDNA设计的检测器(ABEMUS和SiNVICT)在这些基准测试中表现不佳。
Variant calling accuracy at 2,000x sequencing depth
为了评估增加测序深度对变异检测准确性的影响,研究人员对一名结直肠癌患者的样本进行了超深(2,000x)全外显子组测序。在发现分析中,检测器的排名在150x和2,000x测序下基本相似,主要例外是ABEMUS的性能在超深测序环境下得到改善,与Strelka2和SMuRF表现相当。在临床分析场景中,VarScan和ABEMUS表现出最高的灵敏度,在所有ctDNA范围和噪声水平下 recall 均保持在50%以上。此外,研究还应用了统一的、与检测器无关的“正常样本panel”(Panel-of-Normals, PoN)后过滤器,发现PoN过滤改善了VarScan和VarDict的性能,但对其他方法影响甚微。
Fine-tuning tumor tissue-designed callers for cfDNA
研究进一步探讨了将为肿瘤组织设计的变异检测器进行微调以优化其在cfDNA上性能的潜力。利用生成的基准数据集,研究人员为每个变异检测器训练了随机森林分类器,结合其预测的变异分数和VCF输出中的其他辅助特征。结果显示,这种微调方法显著提高了Mutect2的精确度,使其在150x测序深度下的AUPRC排名升至首位。cfDNA微调版的FreeBayes也显示出改善,但仍在方法排名中处于中游。然而,对于其他方法,微调主要只带来了灵敏度的提升。通过特征重要性分析发现,对于大多数检测器,标准预测分数是最重要的特征,但微调后的Mutect2和Strelka2等整合了来自匹配正常样本的多个特征(如NALOD特征,有助于过滤潜在的CHIP变异),而VarDict和VarScan则未依赖辅助特征。
Guidelines for accurate whole genome somatic variant calling in cfDNA
基于全面的性能分析,研究提出了针对cfDNA样本进行体细胞变异检测的实践指南。对于无偏突变发现分析(约100x覆盖深度),Strelka2和SMuRF能提供最准确的SNV调用,而VarScan能产生最准确的INDEL调用。对于强调灵敏度的临床分析(通常在高深度>1,000x下进行),VarScan和ABEMUS实现了最高的灵敏度。Mutect2和VarDict在所有cfDNA实验中的检测器排名中处于中游,并且Mutect2在低ctDNA浓度下的全基因组分析中也表现出优越性能,并在cfDNA特异性微调后显示出提高精确度的潜力。
综上所述,这项研究通过创建大规模、基于真实患者cfDNA样本的基准测试数据集,系统地评估了当前主流体细胞突变检测方法在液体活检应用中的性能。研究不仅揭示了不同方法在不同应用场景和测序深度下的优劣,还通过机器学习方法探索了优化现有工具的潜力。所提出的实践指南和深入的分析为研究人员和临床医生选择和使用变异检测方法提供了关键依据,将有力推动cfDNA分析在精准肿瘤学中的标准化和应用。此外,所构建的数据集和基准测试策略也为未来评估其他分子变异(如结构变异和拷贝数变异)的检测方法以及开发新的突变检测器提供了宝贵的资源。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号