
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SGV-caller:构建SARS-CoV-2基因组变异本地数据库的生物信息学新工具
【字体: 大 中 小 】 时间:2025年02月19日 来源:Heliyon 3.4
编辑推荐:
编辑推荐:面对GISAID数据库共享政策限制及SARS-CoV-2变异监测需求,日本研究人员开发了SGV-caller生物信息学流程。该工具通过比对输入数据集与参考基因组(如Wuhan-Hu-1/NC_045512.2),生成包含核苷酸、氨基酸和密码子水平变异的本地数据库(SGV-database),支持非GISAID数据源,为病毒变异追踪提供高效、透明且可溯源的解决方案,发表于《Heliyon》。
研究方法与技术 日本国立遗传学研究所与东海大学的研究团队开发了SGV-caller,包含14个Perl脚本,依赖多序列比对软件MAFFT。其核心流程包括:(1)通过输入ID列表(如GISAID的EPI_ISL_XXX编号)与参考基因组比对;(2)利用MAFFT进行序列对齐,识别单核苷酸变异(SNV)、插入缺失(indel)及未确定碱基(如N);(3)基于CDS和非编码区注释文件(如NC_045512.cds.anno.txt)映射氨基酸和密码子变异;(4)支持多线程并行处理,每日可分析50万-60万条序列(单线程)。工具兼容非GISAID数据(如GenBank)和蛋白质序列直接输入。
研究结果
结论与讨论 SGV-caller填补了GISAID数据二次分析的空白,提供可追溯、透明的本地数据库构建方案。其模块化设计(如Pipeline#1初始建库与Pipeline#2增量更新)平衡了计算效率与数据时效性。尽管MAFFT比对速度逊于Nextclade(100,000序列处理需4.25小时/单线程),但SGV-caller的内存占用更低(<500 MB),且支持长期数据维护。未来可通过适配环形基因组(如HBV)和分段病毒(如流感病毒)进一步扩展应用场景。该工具已助力多项研究,如发现Lambda株的免疫逃逸突变(Cell Rep, 2022)和Omicron BA.1的S375F特征突变(iScience, 2022),为病毒进化研究与公共卫生决策提供关键技术支撑。
生物通微信公众号
知名企业招聘