VaRaPS:基于混合测序数据的SARS-CoV-2变异株比例估计工具——精准追踪病毒演化的新突破

《BMC Bioinformatics》:Varaps: a python package for estimating SARS-CoV-2 lineages proportions from pooled sequencing data (ANRS0160)

【字体: 时间:2025年11月25日 来源:BMC Bioinformatics 3.3

编辑推荐:

  本研究针对废水流行病学中SARS-CoV-2变异株比例估计的精准性与计算效率瓶颈,开发了Python工具包VaRaPS。该工具重新优化了Freyja、LCS和VirPool等核心算法,引入定制化变异识别模块与误差率校正模型,在模拟和真实数据中显著提升估计精度(RMSE降低0.027–0.087),并将计算速度提升最高687倍。其支持BAM/CRAM多格式输入与长读长数据扩展,为大规模病毒变异监测提供了高效、可扩展的解决方案。

  
随着全球进入后疫情时代,对SARS-CoV-2变异株的动态监测仍是公共卫生领域的核心挑战。废水基因组流行病学(Wastewater-Based Epidemiology, WBE)通过分析污水中的病毒RNA,可低成本、无创地追踪社区感染趋势。然而,废水样本本质是不同感染者病毒基因组的混合体,如何准确“反卷积”出各变异株的比例,成为方法学上的关键难题。现有工具如Freyja、LCS和VirPool虽有一定效果,但在计算效率、 indel(插入/缺失突变)处理、结果归一化等方面存在局限,尤其难以应对大规模测序数据的需求。
为此,由法国索邦大学等机构联合开发的VaRaPS(Variant Ratios from Pooled Sequencing)应运而生。这一Python工具包重新实现了主流反卷积算法,通过优化数据存储结构(稀疏矩阵)、引入测序错误率校正模型(α=0.01–0.04),并添加Bootstrap重采样功能,在保证精度的同时大幅提升运算速度。研究团队利用真实刺入混合样本(383个BAM文件)和模拟数据(6个变异株,2×106读长)进行验证,成果发表于《BMC Bioinformatics》。
关键技术方法
VaRaPS核心创新包括:(1)定制化变异识别模块,直接从BAM/CRAM文件中提取读长级别突变信息,支持Illumina和纳米孔数据;(2)重新实现Freyja(加权L1范数最小化)、LCS(二项似然最大化)和VirPool(读长级别混合模型)算法,增加比例总和为1的约束;(3)通过Expectation-Maximization(EM)算法优化参数估计,并引入下行采样(最低1000读长)降低计算负载;(4)利用GISAID数据库构建包含31个变异株、438个突变的特征矩阵,支持用户自定义扩展。
研究结果
1. 反卷积精度显著提升
在真实刺入数据中,VaRaPS重实现版本均显著降低变异株比例估计的均方根误差(RMSE)。其中LCS改进最显著(中位RMSE降低0.0867),VirPool与Freyja精度相当(p=0.31),且三者估计值更紧密分布于理论对角线周围。
2. 计算效率突破性优化
VaRaPS将VirPool处理200万读长数据的时间从247.15秒压缩至0.36秒(加速687倍),LCS加速58倍,且内存占用降低73%(峰值RAM从6.98GB降至1.90GB)。其近乎线性的时间复杂度使百万级读长样本可在秒级完成反卷积。
3. 下行采样策略可行性验证
即使将读长数从200万降至1万,RMSE仅轻微上升;对低丰度变异株(比例5%)的估计仍保持稳定,证明下行采样可兼顾效率与精度。
结论与展望
VaRaPS通过算法优化与工程创新,解决了混合测序数据反卷积中的精度与速度矛盾。其模块化设计支持自定义变异株矩阵,可扩展至诺如病毒、流感病毒等其他病原体监测。未来结合纳米孔长读长数据(当前研究受限于151bp短读长),VirPool的突变共现分析潜力将进一步释放。该工具已应用于法国OBEPINE废水监测网络,输出结果与临床样本GISAID数据高度一致,为全球新发传染病预警提供了可靠技术支撑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号