ZIPcnv:基于累积和控制的零膨胀sWGS数据拷贝数变异检测新方法
《Bioinformatics》:ZIPcnv: accurate and efficient inference of copy number variations from shallow whole-genome sequencing
【字体:
大
中
小
】
时间:2025年10月26日
来源:Bioinformatics 5.4
编辑推荐:
本刊推荐:针对浅层全基因组测序(sWGS)数据存在的零膨胀现象和固定窗口策略适应性差的问题,研究人员开发了ZIPcnv工具。该方法通过片段滑动窗口将零膨胀分布转换为近似正态分布,利用累积和(CUSUM)控制图动态识别候选CNV区域,在0.1-5X超低覆盖度下仍保持高灵敏度(0.903)和精确度(0.744),为NIPT、肿瘤监测等临床场景提供更可靠的CNV分析解决方案。
在基因组学研究的临床实践中,科学家们常常面临一个两难困境:既要保证检测的准确性,又要控制成本和技术难度。特别是在一些特殊场景下,比如孕妇外周血中微量的胎儿游离DNA(cfDNA)检测,或者肿瘤患者体液中的循环肿瘤DNA(ctDNA)分析,样本量极其有限,使得高深度测序技术难以实施。浅层全基因组测序(sWGS)技术应运而生,以其快速、经济的特点成为遗传诊断和临床实践中的常规技术。
然而,sWGS数据通常只有0.1-5X的基因组覆盖度,这导致了一个棘手的问题——零膨胀现象。大量基因组区域出现零读深,使得真实的拷贝数缺失信号被背景噪声淹没,而随机波动又容易被误判为拷贝数增益。更复杂的是,CNV的尺度差异巨大,从几千碱基到数百万碱基不等,传统的固定窗口策略难以同时有效检测不同大小的CNV事件。这些因素严重制约了sWGS数据在CNV分析中的准确性和可靠性。
为了突破这一技术瓶颈,西安交通大学与华大基因的研究团队在《Bioinformatics》上发表了他们的最新研究成果——ZIPcnv。这项研究针对sWGS数据的特殊性,提出了一种创新的CNV检测方法,在超低覆盖度条件下依然保持优异的性能。
研究人员采用了三个关键技术策略:首先通过片段滑动窗口平滑原始读深信号,利用中心极限定理将零膨胀分布转换为近似正态分布;然后基于累积和(CUSUM)控制图构建统计过程模型,有效识别高背景噪声下的持续偏移;最后采用动态滑动窗口策略,根据CNV区域大小自适应调整窗口尺寸,实现一次性检测不同长度的CNV。
研究团队在模拟数据和真实数据上对ZIPcnv进行了全面评估。模拟数据包含3X、1X和0.1X三个覆盖度级别,每个队列1000个样本。真实数据来自华大基因的190个全基因组测序样本(BGI-WGS),涵盖20-75岁的汉族人群,包含89名男性和101名女性,这些样本于2023年7月至2024年1月期间收集,每个样本使用5mL外周血进行测序。
实验结果显示,随着测序覆盖度的降低,所有CNV检测工具的灵敏度、精确度和F1分数都呈现下降趋势。在0.1X超低覆盖度下,传统CNV工具的平均灵敏度仅为0.608,平均精确度为0.447。而ZIPcnv在这一极端条件下仍保持0.903的灵敏度和0.744的精确度,显著优于其他工具。
在BGI-WGS数据集上,ZIPcnv的整体灵敏度达到0.935,精确度为0.778,F1分数为0.849。特别值得注意的是,对于大于1Mb的大片段CNV,ZIPcnv的检测灵敏度高达0.959,精确度为0.913,仅产生674个假阴性结果。在10kb-1Mb的中等尺度CNV检测中,虽然性能有所下降,但仍保持0.923的灵敏度和0.721的精确度,显著优于其他对比方法。
ZIPcnv的成功开发标志着sWGS数据CNV检测技术的重要突破。该方法通过创新的统计建模策略,有效解决了零膨胀数据下的信号检测难题,为非侵入性产前检测(NIPT)、肿瘤监测和液体活检等临床应用提供了更可靠的分析工具。动态窗口策略的引入使工具能够自适应检测不同尺度的CNV事件,从局部小片段变异到大规模染色体异常都能准确识别。
尽管ZIPcnv表现出色,研究团队也指出了其局限性。该方法目前仅依赖读深(RD)信号,对于复杂结构变异如倒位和易位的检测能力有限。此外,参考基线的质量直接影响检测精度,未来需要进一步优化数据标准化流程。随着临床应用的不断扩展,ZIPcnv有望在精准医疗和遗传诊断领域发挥重要作用,为低质量样本的基因组分析开辟新的可能性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号