新型IRMA模块助力人偏肺病毒全基因组分析:突破遗传多样性限制的基因组监测新工具

《Microbiology Resource Announcements》:A new IRMA module for analyzing whole-genome sequences from human metapneumovirus

【字体: 时间:2025年10月22日 来源:Microbiology Resource Announcements 0.6

编辑推荐:

  本刊推荐:人偏肺病毒(HMPV)遗传多样性极高,为基于参考基因组的比对分析带来巨大挑战。本研究成功开发了迭代优化元组装器(IRMA)的新型HMPV模块,该模块无需预先分型即可完成比对和共有序列生成,并能有效处理糖蛋白(G基因)的重复序列(如111/180 nt duplication),显著提升了HMPV全基因组监测的可行性,对呼吸道病毒研究和公共卫生防控具有重要意义。

  
ABSTRACT
人偏肺病毒(Human Metapneumovirus, HMPV)巨大的遗传多样性使得基于参考序列的比对分析困难重重。研究人员为迭代优化元组装器(Iterative Refinement Meta-Assembler, IRMA)创建了一个新模块,该模块能够在不需预先进行病毒分型的情况下执行比对和共有序列(Consensus Sequence)生成,并且可以处理糖蛋白(Glycoprotein)中的重复序列(Duplications)。这一模块显著提高了基因组监测(Genomic Surveillance)的可行性。
ANNOUNCEMENT
人偏肺病毒(HMPV)是导致呼吸道感染的重要病原体,每年引发大量病例,尤其在儿童中影响显著。该病毒在遗传上呈现高度多样性,存在两个抗原性不同的谱系(Lineages)A和B,并且这两个谱系共同流行(Cocirculate)。每个谱系又进一步划分为亚谱系(Sublineages):A1、A2、B1和B2,其中A2谱系还进一步分化为A2.1和A2.2。不同亚型间的大部分遗传差异集中在G基因(糖蛋白)上。G基因在亚型内部也具有高度变异性,目前在A2.2亚型中流行的毒株就包含111核苷酸或180核苷酸的重复序列。
尽管基因组监测具有潜在的公共卫生效益,但HMPV的全基因组测序(Whole-Genome Sequencing)仍然有限。全基因组测序的障碍之一在于,由于巨大的遗传多样性,高效分析测序数据存在困难。当前的建库方法(Library Preparation Methods)本身并不需要预先分型,然而,HMPV的遗传多样性阻碍了使用单一参考序列来准确组装所有样本的基因组。
为了解决这一问题,研究团队开发了针对HMPV的IRMA模块。IRMA最初是为组装高度变异的RNA病毒而开发的。虽然IRMA是基于参考序列的,但它通过迭代方式(Iteratively)收集测序读段(Reads)并编辑参考基因组,从而最大限度地减少了与初始参考序列距离所造成的影响。同时,它允许为每个亚型使用不同的参考基因组,这使得预先分型变得不再必要。为了创建参考序列,研究人员从GenBank下载了所有可用的HMPV全基因组序列(检索日期:2024年10月18日,关键词:"Metapneumovirus hominis")。使用MAFFT v7进行多序列比对,并利用IQ-TREE 2构建系统发育树(Phylogeny)。结合已有的分型样本信息和系统发育树,研究人员将样本划分到A1、A2.1、A2.2、A2.2 +111 nt duplication、A2.2 +180 nt duplication、B1或B2等亚型中。对于每个亚谱系,研究团队使用EMBL共识序列生成器(EMBL Consensus Generator)创建了一个多数一致性序列(Plurality Consensus Sequence),并利用IRMA构建了隐马尔可夫模型(Hidden Markov Model)。
为了测试该IRMA流程的性能,研究人员对来自“急性病患者呼吸道病毒调查(Investigating Respiratory Viruses in the Acutely Ill, IVY)研究”(2024年11月至2025年4月)和“家庭流感疫苗有效性(Household Influenza Vaccine Effectiveness, HIVE)研究”(2011年至2022年)的181份样本进行了测序。鼻拭子样本使用呼吸道病毒Oligo Panel v2在Illumina NextSeq 2000测序仪(2 × 300 bp,P1化学)上进行测序。
测试结果表明,IRMA模块生成的共有序列是完整或近乎完整的基因组。检测到的谱系包括A2.1、A2.2、B1和B2,这与之前的qPCR分型(A或B)结果一致。研究人员成功在一部分A2.2样本中检测到了111核苷酸(42个样本)和180核苷酸(11个样本)的插入序列,证明IRMA模块能够有效处理含有或不含重复序列的样本。在比对中没有发现系统性的问题。该IRMA模块适用于Illumina和Nanopore测序平台。对于Nanopore测序,需要修改配置文件(可参考IRMA中的流感模块示例)。对于Illumina测序,若读长(Read Lengths)短于300 bp,则会影响重复序列检测的准确性。
DATA AVAILABILITY
该IRMA模块和相关的共有序列可在GitHub上获取:https://github.com/lauringlab/HMPV_IRMA_module。使用时,请将文件置于IRMA的modules文件夹内,并遵循https://wonder.cdc.gov/amd/flu/irma/index.html上的说明进行操作。测序数据可在BioProject PRJNA1304962下获取。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号