VaRaPS：基于混合测序数据的SARS-CoV-2变异株比例估计工具——精准追踪病毒演化的新突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BMC Bioinformatics》：Varaps: a python package for estimating SARS-CoV-2 lineages proportions from pooled sequencing data (ANRS0160)

【字体：大中小】 时间：2025年11月25日 来源：BMC Bioinformatics 3.3

编辑推荐：

　　本研究针对废水流行病学中SARS-CoV-2变异株比例估计的精准性与计算效率瓶颈，开发了Python工具包VaRaPS。该工具重新优化了Freyja、LCS和VirPool等核心算法，引入定制化变异识别模块与误差率校正模型，在模拟和真实数据中显著提升估计精度（RMSE降低0.027–0.087），并将计算速度提升最高687倍。其支持BAM/CRAM多格式输入与长读长数据扩展，为大规模病毒变异监测提供了高效、可扩展的解决方案。

随着全球进入后疫情时代，对SARS-CoV-2变异株的动态监测仍是公共卫生领域的核心挑战。废水基因组流行病学（Wastewater-Based Epidemiology, WBE）通过分析污水中的病毒RNA，可低成本、无创地追踪社区感染趋势。然而，废水样本本质是不同感染者病毒基因组的混合体，如何准确“反卷积”出各变异株的比例，成为方法学上的关键难题。现有工具如Freyja、LCS和VirPool虽有一定效果，但在计算效率、 indel（插入/缺失突变）处理、结果归一化等方面存在局限，尤其难以应对大规模测序数据的需求。

为此，由法国索邦大学等机构联合开发的VaRaPS（Variant Ratios from Pooled Sequencing）应运而生。这一Python工具包重新实现了主流反卷积算法，通过优化数据存储结构（稀疏矩阵）、引入测序错误率校正模型（α=0.01–0.04），并添加Bootstrap重采样功能，在保证精度的同时大幅提升运算速度。研究团队利用真实刺入混合样本（383个BAM文件）和模拟数据（6个变异株，2×10⁶读长）进行验证，成果发表于《BMC Bioinformatics》。

关键技术方法

VaRaPS核心创新包括：（1）定制化变异识别模块，直接从BAM/CRAM文件中提取读长级别突变信息，支持Illumina和纳米孔数据；（2）重新实现Freyja（加权L1范数最小化）、LCS（二项似然最大化）和VirPool（读长级别混合模型）算法，增加比例总和为1的约束；（3）通过Expectation-Maximization（EM）算法优化参数估计，并引入下行采样（最低1000读长）降低计算负载；（4）利用GISAID数据库构建包含31个变异株、438个突变的特征矩阵，支持用户自定义扩展。

研究结果

1. 反卷积精度显著提升

在真实刺入数据中，VaRaPS重实现版本均显著降低变异株比例估计的均方根误差（RMSE）。其中LCS改进最显著（中位RMSE降低0.0867），VirPool与Freyja精度相当（p=0.31），且三者估计值更紧密分布于理论对角线周围。

2. 计算效率突破性优化

VaRaPS将VirPool处理200万读长数据的时间从247.15秒压缩至0.36秒（加速687倍），LCS加速58倍，且内存占用降低73%（峰值RAM从6.98GB降至1.90GB）。其近乎线性的时间复杂度使百万级读长样本可在秒级完成反卷积。

3. 下行采样策略可行性验证

即使将读长数从200万降至1万，RMSE仅轻微上升；对低丰度变异株（比例5%）的估计仍保持稳定，证明下行采样可兼顾效率与精度。

结论与展望

VaRaPS通过算法优化与工程创新，解决了混合测序数据反卷积中的精度与速度矛盾。其模块化设计支持自定义变异株矩阵，可扩展至诺如病毒、流感病毒等其他病原体监测。未来结合纳米孔长读长数据（当前研究受限于151bp短读长），VirPool的突变共现分析潜力将进一步释放。该工具已应用于法国OBEPINE废水监测网络，输出结果与临床样本GISAID数据高度一致，为全球新发传染病预警提供了可靠技术支撑。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号