
-
生物通官微
陪你抓住生命科技
跳动的脉搏
公共数据库中IncP-1质粒RK2复制起始蛋白TrfA相关序列的系统分析与进化研究揭示复制子分型的局限性
【字体: 大 中 小 】 时间:2025年09月20日 来源:Plasmid 2.2
编辑推荐:
本研究针对利用复制起始蛋白TrfA进行IncP-1质粒分型存在可靠性不明的问题,通过系统分析NCBI非冗余数据库中TrfA同源序列的分布与进化特征,发现TrfA广泛存在于不同分类群和复制子类型中,揭示单基因复制子分型可能高估IncP-1质粒存在风险,为质粒群体识别提供了重要方法论参考。
在微生物世界中,质粒作为染色体外的遗传元件,能够赋予宿主菌抗生素抗性、毒力因子和代谢功能等特性,尤其是广宿主范围的IncP-1质粒,可在不同细菌类群间水平转移基因,对环境中耐药基因的传播起到关键作用。IncP-1质群的典型代表RK2(又称RP4)含有一个关键的复制起始蛋白基因trfA,该基因编码两种不同长度的蛋白变体TrfA1(TrfA-44)和TrfA2(TrfA-33),分别调控质粒在不同宿主中的复制效率。长期以来,研究者利用trfA基因序列进行复制子分型(replicon typing),在基因组和宏基因组数据中检测IncP-1质粒。然而,公共数据库中这些同源序列的真实分布和特性从未被系统评估,导致人们难以判断:检测到trfA同源序列是否就一定意味着存在完整的IncP-1型质粒?
为此,Suzuki等人开展了一项系统性的生物信息学研究,旨在揭示NCBI非冗余数据库中与IncP-1质粒RK2的TrfA蛋白相似的序列究竟分布何处、具有怎样的特性,进而评估基于TrfA的复制子分型方法在识别IncP-1质粒中的可靠性。该研究近期发表于《Plasmid》杂志。
为全面探索TrfA同源序列的分布与特性,研究团队采用了多种生物信息学方法:首先利用BLAST(Basic Local Alignment Search Tool)对NCBI非冗余核酸(nr-nt)和氨基酸(nr-aa)数据库进行同源搜索,获取与TrfA高度相似的序列;通过blastdbcmd和taxonkit工具提取序列并注释分类信息;进一步利用LS-BSR(large-scale blast score ratio)流程分析候选质粒与RK2的基因内容相似性;最后选取代表性TrfA相关蛋白序列,基于多序列比对和邻接法(neighbor-joining)构建系统发育树,揭示其进化关系。
通过tblastn搜索,共获得1,675条TrfA匹配的核苷酸序列。长度分析显示,这些序列长度差异极大(171 bp–7.9 Mbp),其中884条标注为“质粒”,171条属于“染色体”,其余则分布于克隆载体、环境样本和病毒序列中。更重要的是,这些序列在分类上覆盖了细菌(主要为Pseudomonadota)、真核生物甚至病毒序列。例如,某些序列来自淋病奈瑟菌(Neisseria gonorrhoeae)或真核生物(如大豆克隆序列),但它们很可能是实验构建载体(如农杆菌双元载体)的残留。这一发现表明,trfA基因并非IncP-1质粒所独有,它可能通过水平转移进入其他复制子,甚至染色体区域。
从上述序列中,研究人员筛选出757条trfA携带质粒(排除了部分基因序列和染色体来源数据)。为评估它们与IncP-1质粒RK2的遗传相似性,研究团队以RK2的76个蛋白质为参考,通过LS-BSR分析计算每个质粒的BSR值。结果显示,这些质粒中与RK2同源的基因数量为2–76个(中位数42),平均BSR值介于0.067–0.98(中位数0.33)。根据既往标准(同源基因数超过半数即38个),共有387个质粒被认定为候选IncP-1质粒,其中包括此前未明确归类为IncP-1的质粒(如来源于Eikenella exigua和部分淋病奈瑟菌的质粒)。值得注意的是,所有757个质粒均与TrfA2匹配,但IncP-1δ亚群质粒(如pAKD4、pEST4011和pIJB1)缺乏TrfA1特有的N端区域,这与文献中它们仅编码TrfA2的结论一致。
从nr-aa数据库中,研究人员共提取4,633条TrfA匹配蛋白序列,长度分布广泛(23–687 aa), annotations多样,包括“假设蛋白”、“复制起始蛋白”和“转座酶”等。选取21条代表性序列(来源于质粒、染色体和病毒)进行系统发育分析。邻接树显示,IncP-1质粒(包括α、β、γ、δ、ε、ζ亚型)的TrfA蛋白形成一个高支持度的单系群(100% bootstrap),表明它们垂直起源于共同祖先。然而,其他一些序列(如来源于Eikenella exigua质粒、Thiomonas质粒及某些Gammaproteobacteria染色体的TrfA同源蛋白)虽与IncP-1质粒群相近,却未形成严格意义上的IncP-1分支。例如,此前被归为IncP-1β的质粒pTHI在本研究中并未与IncP-1核心群聚在一起,说明单纯依靠序列相似性可能误导分型结果。
本研究通过大规模数据库挖掘和系统发育分析,揭示出TrfA同源序列广泛存在于不同复制子(染色体、质粒、病毒)和分类群中,它们不仅来源于IncP-1质粒,还可能通过水平基因转移进入其他遗传背景。因此,仅凭trfA序列相似性就断定IncP-1质粒的存在是不充分的,复制子分型方法在复杂环境样本(如宏基因组)中的应用需格外谨慎。
未来,该分析框架可扩展至其他Inc群(如IncP-2–IncP-14)以及肠杆菌科的质粒分型。准确识别介导抗生素耐药性传播的关键质粒群体,对于制定针对性的阻控策略具有重要意义。尽管复制子分型在初步筛查中具有高效、快速的优点,但若要精确鉴定质粒身份,仍需结合系统发育分析、平均核苷酸一致性(ANI)或松弛酶分型(MOB typing)等多重方法。
生物通微信公众号
知名企业招聘