VaRaPS:基于混合测序数据的SARS-CoV-2变异株比例估计工具——精准追踪病毒演化的新突破
《BMC Bioinformatics》:Varaps: a python package for estimating SARS-CoV-2 lineages proportions from pooled sequencing data (ANRS0160)
【字体:
大
中
小
】
时间:2025年11月25日
来源:BMC Bioinformatics 3.3
编辑推荐:
本研究针对废水流行病学中SARS-CoV-2变异株比例估计的精准性与计算效率瓶颈,开发了Python工具包VaRaPS。该工具重新优化了Freyja、LCS和VirPool等核心算法,引入定制化变异识别模块与误差率校正模型,在模拟和真实数据中显著提升估计精度(RMSE降低0.027–0.087),并将计算速度提升最高687倍。其支持BAM/CRAM多格式输入与长读长数据扩展,为大规模病毒变异监测提供了高效、可扩展的解决方案。
随着全球进入后疫情时代,对SARS-CoV-2变异株的动态监测仍是公共卫生领域的核心挑战。废水基因组流行病学(Wastewater-Based Epidemiology, WBE)通过分析污水中的病毒RNA,可低成本、无创地追踪社区感染趋势。然而,废水样本本质是不同感染者病毒基因组的混合体,如何准确“反卷积”出各变异株的比例,成为方法学上的关键难题。现有工具如Freyja、LCS和VirPool虽有一定效果,但在计算效率、 indel(插入/缺失突变)处理、结果归一化等方面存在局限,尤其难以应对大规模测序数据的需求。
为此,由法国索邦大学等机构联合开发的VaRaPS(Variant Ratios from Pooled Sequencing)应运而生。这一Python工具包重新实现了主流反卷积算法,通过优化数据存储结构(稀疏矩阵)、引入测序错误率校正模型(α=0.01–0.04),并添加Bootstrap重采样功能,在保证精度的同时大幅提升运算速度。研究团队利用真实刺入混合样本(383个BAM文件)和模拟数据(6个变异株,2×106读长)进行验证,成果发表于《BMC Bioinformatics》。
VaRaPS核心创新包括:(1)定制化变异识别模块,直接从BAM/CRAM文件中提取读长级别突变信息,支持Illumina和纳米孔数据;(2)重新实现Freyja(加权L1范数最小化)、LCS(二项似然最大化)和VirPool(读长级别混合模型)算法,增加比例总和为1的约束;(3)通过Expectation-Maximization(EM)算法优化参数估计,并引入下行采样(最低1000读长)降低计算负载;(4)利用GISAID数据库构建包含31个变异株、438个突变的特征矩阵,支持用户自定义扩展。
在真实刺入数据中,VaRaPS重实现版本均显著降低变异株比例估计的均方根误差(RMSE)。其中LCS改进最显著(中位RMSE降低0.0867),VirPool与Freyja精度相当(p=0.31),且三者估计值更紧密分布于理论对角线周围。
VaRaPS将VirPool处理200万读长数据的时间从247.15秒压缩至0.36秒(加速687倍),LCS加速58倍,且内存占用降低73%(峰值RAM从6.98GB降至1.90GB)。其近乎线性的时间复杂度使百万级读长样本可在秒级完成反卷积。
即使将读长数从200万降至1万,RMSE仅轻微上升;对低丰度变异株(比例5%)的估计仍保持稳定,证明下行采样可兼顾效率与精度。
VaRaPS通过算法优化与工程创新,解决了混合测序数据反卷积中的精度与速度矛盾。其模块化设计支持自定义变异株矩阵,可扩展至诺如病毒、流感病毒等其他病原体监测。未来结合纳米孔长读长数据(当前研究受限于151bp短读长),VirPool的突变共现分析潜力将进一步释放。该工具已应用于法国OBEPINE废水监测网络,输出结果与临床样本GISAID数据高度一致,为全球新发传染病预警提供了可靠技术支撑。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号