ClairS-TO：基于深度学习的单样本长读长肿瘤体细胞小变异检测新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Nature Communications》：ClairS-TO: a deep-learning method for long-read tumor-only somatic small variant calling

【字体：大中小】 时间：2025年11月01日 来源：Nature Communications 15.7

编辑推荐：

　　本研究针对肿瘤样本缺乏配对正常组织时体细胞变异检测的难题，开发了深度学习工具ClairS-TO。该方法通过集成两个功能相反的神经网络（AFF和NEG），结合合成样本训练和真实肿瘤样本微调，在ONT、PacBio和Illumina平台上均表现出优异性能，特别是在低肿瘤纯度和复杂基因组区域展现出强大优势，为临床肿瘤精准医疗提供了重要技术支撑。

在肿瘤基因组学研究领域，准确识别体细胞变异对理解肿瘤发生发展机制、开发靶向治疗方案至关重要。传统方法通常需要肿瘤组织与配对正常组织样本同时测序，通过对比分析来区分真正的体细胞变异与遗传性胚系变异。然而在实际临床场景中，配对正常样本往往难以获得，这给肿瘤基因组分析带来了巨大挑战。

现有适用于短读长测序数据的单样本体细胞变异检测工具，在面对新兴的长读长测序技术时表现不佳。牛津纳米孔（ONT）和太平洋生物科学（PacBio）的长读长测序技术能够跨越数千个碱基，更好地解析复杂基因组区域和结构变异，但同时也具有更高的测序错误率和独特的错误特征。随着长读长测序技术在癌症研究和临床诊断中的应用日益广泛，开发适用于单样本长读长测序数据的精准体细胞变异检测工具成为迫切需求。

香港大学研究人员在《Nature Communications》上发表了题为"ClairS-TO: a deep-learning method for long-read tumor-only somatic small variant calling"的研究成果，提出了一种基于深度学习的单样本长读长肿瘤体细胞小变异检测方法。该方法创新性地采用两个架构迥异的神经网络集成策略，通过合成样本训练与真实肿瘤样本微调相结合的方式，在多个测序平台和不同条件下均展现出优越性能。

关键技术方法包括：集成两个功能互补的神经网络（基于CvT的AFF网络和基于Bi-GRU的NEG网络）进行变异检测；使用合成肿瘤样本生成训练数据，将不同样本的胚系变异互为"体细胞变异"进行模型训练；应用九种硬过滤器、四个面板正常数据库（包括专门针对长读长数据的CoLoRSdb）和Verdict统计模块进行变异过滤；利用COLO829和HCC1395癌细胞系进行多平台性能评估。

性能分析：不同测序覆盖度

研究团队在25×、50×和75×覆盖度下评估了ClairS-TO在ONT数据上的表现。在COLO829数据集中，ClairS-TO SSRS模型在SNV检测方面的AUPRC（精确召回曲线下面积）分别达到0.6489、0.6634和0.6685，显著优于DeepSomatic等其他工具。随着覆盖度增加，性能提升幅度逐渐减小，表明50×覆盖度已能提供较好的检测效能。

不同VAF范围的性能

在50×覆盖度的COLO829数据中，ClairS-TO在低VAF（0.05-0.2）、中低VAF（0.2-0.5）和中高VAF（0.5-1.0）范围内均保持稳定性能。特别是在低VAF区间，F1分数达到32.85%，展现了在检测低频变异方面的优势。值得注意的是，中高VAF区间的精确度有所下降，主要原因是部分胚系变异被误判为体细胞变异。

不同肿瘤纯度的性能

研究人员通过计算机模拟将正常样本混合到肿瘤样本中，评估了肿瘤纯度分别为1.0、0.8、0.6、0.4和0.2时的检测性能。ClairS-TO SSRS在五个纯度水平下的AUPRC值从0.6634降至0.4797，但始终优于DeepSomatic。特别是在低纯度（0.4和0.2）条件下，Verdict模块的应用使F1分数分别提升4.38%和7.81%，显著减少了胚系变异的误分类。

不同基因组环境的性能

研究还评估了ClairS-TO在复杂基因组区域的性能，包括低复杂度区域、片段重复区域、低可比对性区域等。尽管在复杂同聚物和串联重复区域的表现（F1分数分别为65.63%和69.09%）仍低于全基因组基准（76.83%），但ClairS-TO在所有基因组环境中均优于DeepSomatic，特别是在复杂同聚物和串联重复区域分别领先11.11%和13.69%。

PacBio和Illumina数据上的性能

在PacBio Revio数据上，ClairS-TO SSRS实现了0.6667的AUPRC和78.64%的F1分数，优于DeepSomatic 3.99%。在Illumina短读长数据上，ClairS-TO在50×覆盖度下达到76.99%的F1分数，显著超过Mutect2、Octopus、Pisces和DeepSomatic等现有工具。

Indel检测性能分析

与SNV相比，Indel检测面临更大挑战。ClairS-TO在ONT、PacBio和Illumina平台上的AUPRC分别为0.2019、0.1972和0.2334，虽然优于其他工具，但召回率仅约50%，表明肿瘤单样本Indel检测仍有改进空间。分析显示，ClairS-TO对较长Indel（≥5 bp）的检测准确性（35.35%）优于短Indel（26.80%），主要原因是1-3 bp间隙的测序伪迹影响。

假阳性和假阴性分析

对300个假阳性和假阴性的人工分析显示，假阳性中61%为杂合胚系变异，14%为纯合胚系变异。其余假阳性主要分布在复杂基因组区域，如片段重复区域（18%）、串联重复区域（12%）等。假阴性中35%被面板正常数据库过滤，18%被"变异簇"硬过滤器过滤，其余主要位于复杂区域或具有低肿瘤VAF或支持读长不足。

模型可解释性分析

通过集成梯度分析发现，AFF和NEG网络学会了关注输入中的不同位置和特征。中央基因组位置对模型输出的贡献最显著，侧翼碱基也对预测置信度有可测量影响。两个网络的集成有效利用了它们的互补性，提升了预测准确性。

本研究开发的ClairS-TO方法在长读长肿瘤单样本体细胞变异检测方面设立了新的性能标准。该方法通过创新的神经网络集成策略和综合的后过滤方案，有效解决了缺乏配对正常样本时的变异检测难题。研究证明了合成样本训练结合真实肿瘤样本微调的有效性，为深度学习在体细胞变异检测领域的应用提供了新思路。

尽管在Indel检测和复杂基因组区域仍存在挑战，但ClairS-TO在当前条件下已展现出显著优势。随着长读长测序技术的不断进步和面板正常数据库的日益完善，肿瘤单样本测序在临床中的应用前景将更加广阔。未来整合单倍型解析结构变异信息，有望进一步提升体细胞变异检测的准确性，推动精准肿瘤学的发展。

联系信箱：

粤ICP备09063491号

热点排行