SGV-caller:构建SARS-CoV-2基因组变异本地数据库的生物信息学新工具

【字体: 时间:2025年02月19日 来源:Heliyon 3.4

编辑推荐:

  编辑推荐:面对GISAID数据库共享政策限制及SARS-CoV-2变异监测需求,日本研究人员开发了SGV-caller生物信息学流程。该工具通过比对输入数据集与参考基因组(如Wuhan-Hu-1/NC_045512.2),生成包含核苷酸、氨基酸和密码子水平变异的本地数据库(SGV-database),支持非GISAID数据源,为病毒变异追踪提供高效、透明且可溯源的解决方案,发表于《Heliyon》。

   研究背景与意义 自2019年底COVID-19大流行以来,SARS-CoV-2基因组已积累大量突变,形成数千种变异株。全球流感共享数据库(GISAID)作为SARS-CoV-2基因组数据的核心来源,存储了超过1700万条序列(截至2025年1月)。然而,GISAID严格的数据共享政策限制了突变信息的公开获取,现有平台如Outbreak.info仅提供氨基酸替换的统计摘要,缺乏核苷酸和密码子水平的详细变异数据。例如,刺突蛋白中的T23599G和T23599A突变均导致N679K氨基酸替换,但核苷酸差异对病毒进化的影响可能不同。此外,非编码区突变和同义突变对病毒适应性演化的作用亦不可忽视。因此,开发能够本地化构建基因组变异数据库的工具成为迫切需求。

研究方法与技术 日本国立遗传学研究所与东海大学的研究团队开发了SGV-caller,包含14个Perl脚本,依赖多序列比对软件MAFFT。其核心流程包括:(1)通过输入ID列表(如GISAID的EPI_ISL_XXX编号)与参考基因组比对;(2)利用MAFFT进行序列对齐,识别单核苷酸变异(SNV)、插入缺失(indel)及未确定碱基(如N);(3)基于CDS和非编码区注释文件(如NC_045512.cds.anno.txt)映射氨基酸和密码子变异;(4)支持多线程并行处理,每日可分析50万-60万条序列(单线程)。工具兼容非GISAID数据(如GenBank)和蛋白质序列直接输入。

研究结果

  1. 高效变异检测:SGV-caller可识别全基因组范围的SNV、indel及非编码区突变,输出文件(如snp.txt)以单倍型分类统计变异频率。例如,在Omicron和Delta株中分别检测到T23599G和T23599A的刺突蛋白突变。
  2. 质量控制:通过NO_Diff(总变异数)、NO_BadBase(未确定碱基数)和S_BadBase(刺突蛋白未确定碱基数)评估序列质量,解决GISAID中约50%序列含N碱基的问题。
  3. 灵活性与扩展性:支持自定义参考基因组(如Omicron BA.1株)及基因区域提取(如S_RBD区),适用于其他线性病毒基因组(如HIV)。

结论与讨论 SGV-caller填补了GISAID数据二次分析的空白,提供可追溯、透明的本地数据库构建方案。其模块化设计(如Pipeline#1初始建库与Pipeline#2增量更新)平衡了计算效率与数据时效性。尽管MAFFT比对速度逊于Nextclade(100,000序列处理需4.25小时/单线程),但SGV-caller的内存占用更低(<500 MB),且支持长期数据维护。未来可通过适配环形基因组(如HBV)和分段病毒(如流感病毒)进一步扩展应用场景。该工具已助力多项研究,如发现Lambda株的免疫逃逸突变(Cell Rep, 2022)和Omicron BA.1的S375F特征突变(iScience, 2022),为病毒进化研究与公共卫生决策提供关键技术支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号