-
生物通官微
陪你抓住生命科技
跳动的脉搏
《Nature Methods》:SAVANA: reliable analysis of somatic structural variants and copy number aberrations using long-read sequencing
【字体: 大 中 小 】 时间:2025年05月29日 来源:Nature Methods 36.1
编辑推荐:
为解决长读长测序数据中体细胞结构变异(SV)和拷贝数变异(SCNA)检测特异性不足的难题,研究人员开发了SAVANA算法。该研究通过99组肿瘤-正常配对样本的多平台测序分析,证明SAVANA在灵敏度(86%短读长SV检出率)和特异性(较次优算法提升13-82倍)方面显著优于现有工具,并创新性地采用机器学习模型和Mondrian conformal prediction(MCP)实现可靠性评估。发表于《Nature Methods》的这项成果为癌症基因组进化研究和临床检测提供了高精度分析工具。
在癌症基因组研究中,体细胞结构变异(SV)和拷贝数变异(SCNA)是驱动肿瘤进化的关键因素。然而传统短读长测序技术(如Illumina)因读长限制,难以准确检测重复区域或复杂重排的变异断点。尽管牛津纳米孔(ONT)和太平洋生物科学(PacBio)的长读长测序技术理论上能解决这一问题,但现有算法存在特异性不足的缺陷——部分研究报道的"数千个新发现SV"可能只是算法假阳性产物。这种现状严重阻碍了长读长测序在癌症研究和临床转化中的应用。
为突破这一技术瓶颈,由Isidro Cortes-Ciriano领衔的国际团队在《Nature Methods》发表了SAVANA算法。研究人员收集了99组匹配的肿瘤-正常样本(57例软组织肉瘤、28例骨肉瘤和14例胶质母细胞瘤),同时进行纳米孔(中位深度51×)和Illumina(118×)全基因组测序。通过创新性地整合机器学习分类器与Mondrian conformal prediction(MCP)框架,SAVANA实现了四大突破:1)单倍型分辨率下的SV检测;2)肿瘤纯度和倍性评估;3)无需匹配正常样本的分析模式;4)全基因组水平的可靠性验证体系。
关键技术方法包括:1)使用99对匹配样本构建训练集(52,464个真实SV vs 14,282,014个假阳性);2)开发基于随机森林(RF)的机器学习模型(70个特征参数);3)建立复制分析和读段支撑分相(read-backed phasing)验证体系;4)整合circular binary segmentation(CBS)进行SCNA分析;5)采用1000 Genomes Project SNP数据集实现肿瘤纯度计算。
【SAVANA算法设计】
SAVANA采用模块化流程:首先通过聚类分析(插入事件250bp窗口,其他SV 10bp窗口)识别候选断点;随后利用机器学习区分真实SV与测序错误,其中RF模型在留一法验证中AUC达0.98;最后通过CBS划分基因组区域,结合等位基因频率(BAF)计算肿瘤纯度。创新性地,算法采用MCP框架为每个预测提供可靠性评分,确保即使在数据不平衡情况下(真实SV仅占0.37%)也能保持校准精度。
【性能基准测试】
在COLO829黑色素瘤细胞系中,SAVANA对PCR验证SV的召回率显著优于6款主流工具(P<0.0001)。通过模拟复制分析发现,SAVANA在双复制中检出的SV一致性达92%,而其他工具仅为15-67%。特别值得注意的是,在微卫星区域(MSI),SAVANA检测到的假阳性indel比其他算法低2-3个数量级(P<0.00001),证明其能有效过滤由重复序列导致的系统误差。
【临床应用验证】
与Illumina数据对比显示,SAVANA可检出86%的短读长SV,同时发现大量短读长无法检测的驱动变异(如NF1、COL2A1断点)。在肿瘤抑制基因CDKN2A、TP53的染色体碎裂(chromothripsis)事件检测中,SAVANA重构的复杂重排模式与短读长结果高度一致。肿瘤纯度估计与PURPLE算法相关性达0.97,在无匹配正常样本模式下仍保持85%的驱动变异检出率。
这项研究的意义在于:1)建立了长读长SV检测的金标准,证明既往部分"新发现SV"实为算法假阳性;2)开发的复制分析和读段分相验证体系为基因组变异检测提供了新范式;3)临床兼容性设计(如肿瘤专属模式)推动了长读长测序的转化应用。SAVANA已开源(https://github.com/cortes-ciriano-lab/savana),其VCF兼容输出格式便于整合到现有分析流程,为癌症进化研究和精准医疗提供了可靠工具。
研究同时揭示了长读长测序在临床应用中需注意的技术细节:1)需过滤纳米孔数据特有的fold-back inversion假象(Supplementary Fig.1);2)建议使用≥51×测序深度以保证低频SV检测;3)在MSI阴性肿瘤中,高频indel信号可能提示算法特异性问题。这些发现为后续方法学开发提供了重要指导。