基于参考病毒数据库(RVDB)优化的高通量测序(HTS)病毒检测生物信息学分析技术革新

【字体: 时间:2025年06月24日 来源:mSphere 3.7

编辑推荐:

  这篇研究报道了参考病毒数据库(RVDB)的全面升级,通过Python 3代码重构、语义管道更新、噬菌体分类学剔除及SARS-CoV-2基因组质控等创新策略,显著提升了高通量测序(HTS/NGS)在生物制品外源病毒检测中的分析效能。研究解决了公共数据库序列冗余和错误注释导致的假阳性问题,为替代传统体内/体外检测方法提供了更精准的计算生物学工具。

  

ABSTRACT
生物制品生产需确保无外源病毒(Adventitious Viruses, AVs)污染,传统体外/体内检测方法存在检测范围有限、耗时长等缺陷。高通量测序(HTS)技术能同时检测已知和新型病毒,但其分析效能高度依赖数据库质量。研究团队对参考病毒数据库(RVDB)进行系统性优化:将Python 2脚本升级至Python 3,通过语义管道剔除错误注释的非病毒序列,基于分类学ID精准移除噬菌体,并对SARS-CoV-2基因组实施≥1%模糊碱基(Ns)的质控标准。新版RVDB显著降低计算负担,提升病毒检测特异性,其网站新增序列检索工具和自动注释管道,为生物制品安全评估提供可靠支持。

INTRODUCTION
HTS技术在疫苗安全事件中展现出独特价值——曾发现轮状病毒疫苗中的猪圆环病毒1型(PCV1)和昆虫Sf9细胞系中的新型弹状病毒。然而公共数据库存在严重缺陷:NCBI RefSeq仅含完整基因组,而nr/nt库混杂大量宿主序列。早期研究检测Sf-弹状病毒时,因宿主序列干扰几乎遗漏关键结果。这促使国际病毒检测技术工作组(AVDTWG)创建低冗余、高多样性的RVDB,其特点包括:囊括所有病毒相关序列(含内源性逆转录病毒)、减少宿主序列污染、排除噬菌体以降低假阳性。

MATERIALS AND METHODS
数据资源
RVDB持续整合GenBank新序列,从v10.2至v29.0版本特性详见附表。自v18.0起纳入SARS-CoV-2序列,v19.0启动系统性优化。

管道重构
将16个Python 2脚本转换为Python 3,经v24.1和v26.0并行测试验证输出一致性。新代码已在GitHub开源。

序列过滤策略

  1. 噬菌体剔除:扩展负关键词列表,新增34类噬菌体分类单元(如Caudoviricetes、Microviridae),通过BBTools过滤,v22.0版本额外剔除3,210条漏网序列。
  2. SARS-CoV-2质控:自定义C程序筛选基因组长度和Ns比例,剔除≥1%Ns的序列,使数据库体积从159GB压缩至3.1MB。
  3. 冗余序列处理:先以Minimap2比对武汉株(NC_045512.2),保留<98%相似度的变异株再用MMseqs2聚类,较传统CD-HIT-EST提速近百倍。

非病毒序列注释
建立自动管道识别ribosomal RNA、线粒体等污染物,生成可下载的注释清单。

RESULTS
代码升级验证
Python 3脚本在v24.1和v26.0版本中与旧版输出完全一致,自v25.0投入生产。

噬菌体过滤效能
分类学筛选补足了关键词检索的漏洞,如Mycobacterium virus等命名特殊的噬菌体被精准识别。

SARS-CoV-2优化效果

  1. 低质量序列清除:v23.0中约15%的SARS-CoV-2序列因高Ns比例被剔除。
  2. 变异株保留:新聚类法在压缩5000倍数据量的同时,完整保留Delta、Omicron等关键变异株(表3),如BA.1代表序列从120万条精简至27条。
  3. 序列特征保持:MMseqs2与CD-HIT-EST的聚类结果在病毒科分布(表4)和长度谱(图2)上高度一致,但处理时间从数月缩短至3天。

非病毒注释突破
v27.0实现自动生成非病毒区域注释文件,涵盖质粒、叶绿体等12类污染物,通过BLAST确认后提供下载。

DISCUSSION
随着HTS成本下降,公共数据库序列呈指数增长,但错误注释(如将宿主基因标记为POL病毒)和污染物(如测序接头)严重干扰分析结果。RVDB通过三重革新解决该问题:

  1. 动态负筛选:结合关键词黑名单和分类学ID,应对命名不规范问题;
  2. 疫情响应机制:针对SARS-CoV-2数据爆炸式增长,开发分级聚类方案;
  3. AI辅助审核:正在测试大型语言模型(LLM)加速序列描述文本分类。

未来将扩展对内源性逆转录病毒宿主侧翼序列的注释,进一步降低假阳性。目前RVDB已服务全球5000用户,数据传输量达21.97TB,持续为疫苗安全和大流行病监测提供计算基础。

ACKNOWLEDGMENTS
感谢美国国家生物制药制造创新研究所(NIIMBL)和盖茨基金会(OPP1204996)的资助,以及特拉华大学生物信息学核心设施的技术支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号