《Nature Methods》:ClairS: a deep-learning method for long-read tumor–normal pair somatic small variant calling
编辑推荐:
肿瘤体细胞变异的发现对于临床分析至关重要,然而现有的大多数方法都是为短读长测序设计的,专门为长读长开发的方法很少。本研究提出了Clair-Somatic(ClairS),这是一种基于深度学习的、专为长读长肿瘤-正常配对设计的体细胞小变异检测工具。该模型在具有不
肿瘤体细胞变异的发现对于临床分析至关重要,然而现有的大多数方法都是为短读长测序设计的,专门为长读长开发的方法很少。本研究提出了Clair-Somatic(ClairS),这是一种基于深度学习的、专为长读长肿瘤-正常配对设计的体细胞小变异检测工具。该模型在具有不同测序深度和变异等位基因分数(VAF)的合成体细胞变异上进行训练,能够准确检测广泛的体细胞变异。在使用Nanopore Q20+ HCC1395–HCC1395BL数据集(肿瘤/正常覆盖深度为50/25×)进行测试时,ClairS在单核苷酸变异(SNV)和插入缺失(indel)上分别取得了89.83%和73.38%的F1分数;通过使用真实癌细胞系进行增强训练,其性能分别提升至96.19%和79.67%。研究结果表明,长读长测序带来的改进型读段定相(phasing)是实现准确单核苷酸变异检测的关键,尤其是在低VAF条件下。通过在不同的覆盖深度、纯度、污染水平、多种平台以及真实癌细胞系中进行实验,研究人员证明了ClairS是一种稳健且可靠的检测工具。ClairS是开源的,可在 https://github.com/HKU-BAL/ClairS获取。
肿瘤基因组分析通过识别和表征体细胞变异,促进了对肿瘤进展的更好理解,并推动了精准肿瘤学的发展。然而,由于肿瘤内和肿瘤间的异质性,识别体细胞变异仍然具有挑战性,这往往导致低变异等位基因分数(VAF)以及包括测序伪影、测序覆盖度不足和正常组织污染在内的混杂因素。尽管下一代测序(NGS)短读长技术在此方面做出了努力,但受限于读长,短读长在同源多聚物和节段重复等难以定位的基因组区域中,发现种系变异的能力有限。这一问题有望通过长读长测序得到缓解。Pacific Biosciences(PacBio)和Oxford Nanopore Technologies(ONT)是两种广泛使用的长读长测序平台。PacBio HiFi测序提供高度准确的环形一致性测序读长,其本底错误率通常低于0.2%,可与短读长相媲美。ONT是另一项突出的长读长技术,提供了微型化测序设备和快速的从样本到数据的周转时间。ONT原始读长的错误率在过去报道为3–15%,但使用ONT最新的Q20+化学试剂后,这一比例降低至1%或更低。然而,与平均错误率为0.1%的NGS短读长相比,差距仍然显著,这使得曾经为短读长设计的体细胞变异检测工具在实践中无法适用于ONT长读长。
虽然ONT长读长种系变异检测已有解决方案,但ONT长读长体细胞小变异检测工具却寥寥无几。然而,一些对ONT长读长种系变异检测至关重要的设计并不适用于体细胞变异检测。首先,在网络输出方面,Clair3和DeepVariant都应用了强二倍体基因组假设,它们是分类模型,使用观察到的替代等位基因观测等位分数作为网络输入,并输出代表变异预期等位分数的类别;然而,体细胞变异的VAF在0到1之间连续变化,没有确定的倍性,因此体细胞变异候选者没有可供模型测试的预期等位分数,这就需要新的设计。其次,七个标准的GIAB参考样本提供了约2500万个真实种系变异,这对于最先进的、基于深度学习的种系变异检测工具模型训练至关重要;然而,在已知的真实体细胞变异方面,只有由SEQC2(Sequencing Quality Control Phase II)联盟体细胞突变工作组发布的HCC1395–HCC1395BL肿瘤-正常配对,它仅包含39,560个单核苷酸变异(SNV)和1,922个插入缺失(indel),比可用的真实种系变异少几个数量级,远不足以进行深度神经网络模型训练。
在缺乏足够的真实肿瘤-正常样本的情况下,合成生成的肿瘤数据是一个潜在的解决方案。Bamsurgeon被开发用于通过将体细胞变异植入现有的种系比对中来生成合成肿瘤数据集,这对短读长来说是一种成功的方法,但由于两个原因,它对长读长面临困难:(1)Illumina短读长是一次读取一个碱基,而ONT长读长是以滑动的五聚体或六聚体窗口的信号读取的(植入的变异也会改变相邻碱基的信号)。碱基可以从信号中进行碱基识别,但无法真实地转换回信号,因此植入方法无法应用于长读长;(2)Bamsurgeon没有考虑到体细胞变异通常只存在于一个单倍型(母系或父系)中,而在另一个单倍型中缺失这一点。只有利用了长读长单倍型分型(也称为定相)的优势,才更偏好使用长读长而非短读长进行体细胞变异检测。综上所述,需要一种新的方法来合成长读长数据,为模型训练提供丰富的、合理的体细胞变异。
在本研究中,研究人员提出了Clair-Somatic(ClairS),这是一种用于ONT长读长的肿瘤-正常配对体细胞小变异检测工具,其名称来源于其前身种系变异检测工具。ClairS借鉴了Clair系列的成功经验,并使用新的网络输出以及新的工作流程设计来解决体细胞变异的连续VAF空间问题。研究人员设计了一种数据合成策略,该策略仅使用具有已知种系变异的GIAB参考样本的真实长读长数据,但可以模拟任何所需的肿瘤纯度、测序覆盖深度(最高可达源数据的覆盖深度)和正常组织污染水平。该方法将两个不同的GIAB样本A和B分别视为肿瘤和正常组织,当与样本B比对时,样本A特有的种系变异则充当模拟的体细胞变异。与DeepSomatic不同,后者是在一组真实的癌细胞系上进行训练的,该策略理论上可以为模型训练产生无限数量的体细胞变异。研究人员展示了定相如何提高长读长体细胞变异检测性能的结果。为了利用更远程的比对信息(由于计算不切实际而无法包含在网络输入中),研究人员设计了一个后处理步骤,用于搜索任何体细胞变异候选者的祖先单倍型支持。这一步在实验中消除了相当数量的假阳性调用。为了进行基准测试,研究人员总共测序了75×的HCC1395和45×的HCC1395BL ONT Q20+ 4 kHz长读长,并使用了SEQC2联盟提供的真实体细胞变异。在50/25×肿瘤/正常条件下,针对VAF ≥ 0.05,ClairS在SNV上达到了93.01%精确度/86.86%召回率,在indel上达到了78.26%精确度/69.07%召回率。2024年底,Park等人发布了五种真实癌细胞系样本的Illumina、PacBio和ONT读长。其中,除了具有SEQC2已知真实值的HCC1395外,Park等人使用多种测序平台和多个体细胞变异检测工具生成了HCC1397、HCC1954、H1437和H2009的基准测试变异调用格式(VCF)文件,ClairS是其中之一,用于ONT长读长体细胞变异检测。这四个真实癌细胞系样本的VCF文件使我们能够增强ClairS模型训练,以更好地适应真实肿瘤中的肿瘤特异性特征。增强后的模型在使用最新ONT Q20+ 5 kHz化学试剂的50/25× HCC1395/BL上,SNV达到了97.83%精确度/94.60%召回率,indel达到了91.57%精确度/70.50%召回率。研究人员还展示了ClairS在不同肿瘤/正常覆盖深度、肿瘤纯度和正常组织污染下的性能。ClairS优于其他方法,尤其是在肿瘤纯度低于20%时。ClairS专为ONT长读长设计,但整个方法也适用于PacBio平台和Illumina短读长。这种多功能性使我们能够对ClairS与最先进的短读长体细胞变异检测工具进行基准测试。结果表明,在来自癌细胞系的基准短读长数据上,ClairS的表现与当前的基于启发式和基于深度学习的检测工具相当。
主要技术方法
研究人员采用了几项关键技术来开发ClairS。首先,为了解决真实体细胞变异训练数据匮乏的问题,研究人员创新性地设计了基于GIAB种系变异数据的合成数据策略,通过混合不同个体的长读长比对数据来模拟不同肿瘤纯度和污染水平的场景。其次,在模型架构上,ClairS采用了双通道神经网络设计,分别处理基于堆叠(pileup)和基于全比对(full-alignment)的输入特征,并针对SNV和indel分别训练独立的模型。第三,研究充分利用了长读长测序的单倍型定相(phasing)优势,通过LongPhase等工具进行相位分组,并在网络输入中加入定相信息通道,显著提升了对低VAF变异的检测灵敏度。最后,引入了祖先单倍型支持过滤的后处理步骤,利用远程种系变异信息进一步剔除假阳性。样本队列方面,研究使用了GIAB标准样本(如HG001、HG002)进行合成数据训练,并使用HCC1395/BL、COLO829/BL等真实癌细胞系以及SEQC2、Park等人发布的多平台基准测试数据进行模型评估与增强训练。
结果
ClairS方法
ClairS的新颖性在于其训练数据合成和工作流程设计。鉴于GIAB拥有七个带有约2500万个真实种系变异的参考样本,而可用于基准测试的真实体细胞变异极为稀缺,ClairS通过将两个生物学上无关的个体样本(如HG002和HG001)相互视为肿瘤和正常组织,将个体特异的种系变异转化为模拟的体细胞变异,从而在理论上生成任意覆盖深度、肿瘤纯度和正常污染水平的合成数据。ClairS的工作流程分为三个步骤:第一步使用Clair3和LongPhase进行种系变异检测、定相和读段单倍型标记;第二步进行基于堆叠和基于全比对的变异检测,两个神经网络平等地做出集体决策,并分别计算SNV和indel的概率;第三步搜索祖先单倍型支持,利用相对远程的种系变异寻找正确的祖先单倍型,若未找到支持则过滤掉该变异,从而利用网络输入无法涵盖的远程比对信号来提高精确度。此外,为了覆盖真实肿瘤样本中特有的特征(如癌症特异性indel长度分布),ClairS提供了使用真实癌细胞系进行增强模型微调的方案。
ONT数据上的性能表现
研究人员使用HCC1395/BL肿瘤-正常配对进行基准测试。结果表明,在正常覆盖深度固定为25×时,随着肿瘤覆盖深度从25×增加到75×,ClairS的精确率-召回率曲线下面积(AUPRC)分别达到0.9342、0.9538和0.9544。在偏向F1分数的模式下,50/25×条件下SNV的F1分数为89.83%;在偏向召回率的模式下,召回率达到96.10%。提高正常样本覆盖深度也能持续提升性能。在50/25×条件下,ClairS在VAF 0.2–0.5范围内的表现与0.5–1范围内一样好,但在极低VAF(0.05–0.1)范围内精确度显著下降。
不同肿瘤纯度和正常污染下的性能表现
在50×肿瘤和25×正常覆盖深度下,评估了不同肿瘤纯度(1.0至0.2)和正常纯度(1.0至0.90)的组合。结果显示,在偏向F1分数的模式下,随着肿瘤纯度降低,精确度保持在90%以上,但召回率下降;在偏向召回率的模式下,精确度变化而召回率在低纯度下得到提升。总体而言,建议在较高肿瘤纯度下使用偏向F1分数模式,在较低纯度下使用偏向召回率模式。较低的正常纯度会损害性能,尤其是召回率,因此建议使用高纯度正常样本。
假阳性和假阴性调用分析
对300个随机选取的假阳性和假阴性调用进行手动分析发现,假阳性主要与极低VAF(0.05 ≤ VAF < 0.1)有关,其次是由重复序列或参考基因组序列不完美引起的比对伪影。假阴性则主要是由于真实变异的VAF < 0.1、正常VAF较高或肿瘤中支持变异等位基因的读段少于3条,比对伪影同样是主要原因,特别是在同源多聚物、低复杂度区域和串联重复区域。
体细胞Indel检测性能
由于SEQC2真实集中indel数量较少,单独进行了基准测试。在50/25×条件下,偏向F1分数模式下indel的F1分数为73.38%,偏向召回率模式下为54.48%。排除复杂基因组区域后,性能平均提高了13.54%的F1分数,表明复杂区域对准确indel检测构成更大挑战。
其他癌细胞系分析
除了HCC1395/BL,研究还在COLO829/BL、HCC1937/BL等多个癌细胞系上进行了基准测试。结果显示,使用Q20+ 5 kHz化学试剂和Dorado碱基识别的数据集表现出更低的错误率和更高的读长质量。ClairS合成模型在这些数据集上取得了优异的性能,肺癌细胞系的F1分数普遍高于乳腺癌细胞系,这凸显了不同癌症类型对体细胞变异检测的影响。
排除复杂基因组区域的分析
排除GIAB定义的困难基因组区域(包括重复序列、低可定位性等)后,变体检测性能在多个覆盖深度上平均提升了SNV 1.43%和indel 16.58%的F1分数,再次证实了在复杂基因组区域内准确检测变异的挑战。
在第2步输入中添加定相信息的性能表现
重建单倍型(定相)显著提高了性能,特别是在低VAF时。在VAF 0.1–0.15时,可定相的体细胞变异F1分数为57.9%,而不可定相的仅为27.3%。禁用ClairS中的定相功能导致整体F1分数下降了2.48%。
第2步中两个各自网络的性能表现
与Clair3中堆积网络处理大部分候选者不同,ClairS平等地使用堆积网络和全比对网络。单独使用堆积网络时F1分数下降7.87%,单独使用全比对网络时下降2.00%,证明了两者结合的必要性。
第3步:搜索祖先单倍型支持的性能表现
利用远程比对信号的后处理步骤将精确度从67.14%提高到70.21%(在50/25× HCC1395/BL和偏向召回率模式下),并且在不同的数据集、碱基识别器和测序化学试剂中均显示出持续的优势。
使用真实癌细胞系增强模型训练进一步增强ClairS
虽然合成数据提供了广泛的覆盖范围,但无法涵盖真实癌症特有特征。研究人员训练了仅使用真实样本(ClairS RS)和合成与真实结合(ClairS SSRS)的模型。结果显示,ClairS SSRS在50/25× HCC1395/BL上SNV和indel的F1分数分别达到96.19%和79.67%,优于ClairS RS和DeepSomatic,证明了结合合成样本和真实肿瘤数据进行增强训练的重要性。
PacBio数据上的性能表现
尽管最初为ONT设计,ClairS在PacBio数据上也表现出与DeepSomatic相当的性能,平均F1分数为96.16%对95.77%,并且在某些覆盖深度组合下优于DeepSomatic。PacBio数据上的性能优于ONT长读长,显示了该方法在使用低错误率数据时的优势。
Illumina数据上的性能表现
在Illumina短读长数据上的基准测试表明,ClairS始终表现出与最先进的短读长工具Strelka2和Mutect2相当或更优的性能,在六个数据集上的F1分数在96.41%到97.88%之间。
长短读长在基因组分层中调用的体细胞变异差异
长读长测序能够识别短读长方法遗漏的变异。研究发现,在GIAB困难基因组区域,ONT和PacBio长读长一致地比Illumina短读长调用更多的变异。在HCC1395/BL和COLO829/BL中发现了数千个被两种长读长检测到但被短读长遗漏的“假阳性”变异,这些变异有可能被进一步实验验证为真。
拷贝数变异 prone 区域的性能分析
在拷贝数变异(CNV) prone 区域的分析表明,体细胞变异检测的准确性在拷贝数丢失区域比在获得区域受到更不利的影响,等位基因丢失对准确检测体细胞变异构成比拷贝获得更大的挑战。
讨论
在本研究中,研究人员提出了ClairS,一种用于ONT长读长的体细胞小变异检测工具。在基准测试中,研究人员证明其在不同的样本覆盖深度、肿瘤纯度和正常污染下都是可靠的。通过精心设计的数据合成方法,ClairS可以针对不同测序平台进行训练。ClairS借鉴了其前辈的经验,同时使用了重新设计的工作流程、网络架构、网络输出和后处理程序来应对更具挑战性的体细胞变异检测任务。与依赖于多种技术测序数据建立真实值进行模型训练的真实癌症样本训练的DeepSomatic相比,ClairS依赖于精心设计的合成样本、可靠的训练标签以及结合定相以增强泛化能力。与专为仅有肿瘤样本设计的ClairS-TO不同,ClairS受益于配对的正常对照,使其能够专注于区分具有挑战性的体细胞变异与测序伪影,并在肿瘤-正常配对检测中实现了卓越的准确性。
长读长用于体细胞结构变异(SV)检测已经揭示了短读长无法检测的复杂SV。随着长读长覆盖重复基因组区域的前所未有的能力,研究人员期望使用长读长进行体细胞小变异检测能够揭示以前短读长无法触及的更多体细胞变异,并更好地理解不同癌症类型中体细胞变异的突变过程和功能后果。
体细胞VAF在真实肿瘤中受多种因素影响。ClairS并未单独建模这些因素,而是将VAF简化为0到1之间的值。未来研究的一个关键方向是量化每个因素的影响以提高准确性。
研究有几个局限性。首先,模型训练和分析是在癌细胞系上进行的,这些细胞系提供高质量的DNA,但缺乏真实肿瘤样本中典型的异质性和污染。该流程在临床相关标本(如DNA降解的福尔马林固定石蜡包埋组织)上的性能仍有待评估。其次,在相似成本下,长读长技术的当前较低测序覆盖深度与短读长测序相比,可能会限制检测低纯度样本中克隆亚群突变的灵敏度。未来的工作将集中于优化各种真实临床癌症样本的方法,并探索覆盖深度与长读长测序独特变异检测能力之间的成本效益权衡。