细菌中原基因涌现倾向的跨物种比较研究揭示新基因起源的保守机制

《Genome Biology》:Propensity for proto-gene emergence in bacteria

【字体: 时间:2025年10月23日 来源:Genome Biology 9.4

编辑推荐:

  本研究针对细菌中从非编码序列起源的新基因(de novo gene evolution)是否普遍存在以及原基因(proto-gene)是否真正作为功能基因前体这一关键问题,整合转录组学、蛋白质组学和比较基因组学方法,系统鉴定了大肠杆菌、结核分枝杆菌等物种中数百个未被注释的新型蛋白质编码基因。研究发现尽管不同细菌类群基因组特征差异显著,但原基因以相似速率在各类群中持续产生;然而这些新型蛋白质在序列特性上与基因组非编码区无显著差异,且仅发现一个明确由de novo机制产生的原基因,表明细菌中大多数原基因可能为中性进化产物而非新基因的直接前体,对理解细菌基因组进化机制具有重要启示。

  
在生命演化历程中,新基因的起源一直是进化生物学研究的核心谜题。传统观点认为,新基因主要通过已有基因的复制与分化产生。然而,近年来越来越多的研究表明,基因还能从基因组中原本不编码蛋白质的非编码序列"无中生有"地产生,这一过程被称为de novo基因起源(de novo gene evolution)。尽管在真核生物中已发现大量de novo起源的基因,但在基因组结构紧凑、非编码DNA含量极低的细菌中,这一过程是否普遍存在仍存在激烈争议。
理论上,de novo基因的诞生可能经历一个"原基因"(proto-gene)的过渡阶段——这些序列能被转录和翻译成蛋白质,但尚未表现出明确的功能特征。前期研究提示,细菌基因组中可能存在大量此类未被注释的蛋白质编码基因(即"ORFans"或谱系特异性基因),但它们是否真正扮演着新基因前体的角色,以及它们在自然种群中的涌现频率如何,仍是悬而未决的关键科学问题。细菌基因组面临着特殊的挑战:其一,它们缺乏大量非编码DNA作为新基因产生的"原材料";其二,基因组存在普遍的缺失偏向(deletional bias),会快速清除非功能性序列;其三,短小的原基因很难通过传统的同源性搜索方法进行准确识别。
为了解开这些谜团,Md. Hassan uz-Zaman和Howard Ochman在《Genome Biology》上发表了最新研究,通过整合多维组学数据,对细菌中原基因的产生倾向进行了系统评估。研究人员聚焦于一个核心问题:在不同基因组特征的细菌类群中,原基因是否以相似速率产生?它们的序列特性是否显示出向功能基因过渡的迹象?
为了回答这些问题,研究团队建立了一套创新的分析流程,将转录组学、核糖体图谱分析(Ribo-seq)和质谱技术(MS)数据进行整合,克服了单一技术平台的局限性。例如,质谱检测虽然能全局评估蛋白质组,但对短小、低表达或疏水性强的蛋白质灵敏度不足;而核糖体图谱分析虽然敏感,但可能将随机表达或翻译通读(translation readthrough)产生的假阳性误判为真实蛋白质。通过多层次的数据交叉验证,研究人员在大肠杆菌(Escherichia coli)、肠道沙门氏菌(Salvia enterica)和结核分枝杆菌(Mycobacterium tuberculosis)中鉴定出数百个此前未被注释的蛋白质编码基因。
关键技术方法包括:利用多物种多生长条件下的质谱数据集进行非标注蛋白质筛选;建立转录指导的缩减数据库提高检测灵敏度;通过比较基因组学方法鉴定谱系特异性ORFans;采用合成性分析和同源序列追踪确定de novo起源事件;结合密码子适应指数(CAI)和氨基酸组成分析评估序列特性。

新型非注释蛋白在大肠杆菌中的质谱检测

研究首先对大肠杆菌多个菌株(包括REL606、K-12 MG1655以及ECOR收集株中的11、27、37号菌株)进行了深入的质谱分析,涵盖了242个不同的样品条件。通过手动验证每个在错误发现率(FDR)q值<0.0001阈值下检测到的非注释肽段的碎片谱图,研究人员排除了反向蛋白质序列(decoys)的干扰,最终确认了39个新型蛋白质存在高质量肽段-谱图匹配(PSM)。
这些新型蛋白质平均长度为59个氨基酸,绝大多数(38/39)仅能检测到一个可靠肽段,且只有两个蛋白质能在多个数据集中被重复检测到。这种低重复检测率与许多已注释蛋白质(61.2%仅基于单个高质量PSM被鉴定)的情况相似,反映了质谱技术在检测短小蛋白质方面的固有局限性。

新型细菌基因与基因组非编码区的相似性

为了更全面评估新型蛋白质的特性,研究团队整合了此前多个基于核糖体图谱分析和质谱技术的研究数据,最终在大肠杆菌、沙门氏菌和结核分枝杆菌中分别获得了492、108和588个经过严格筛选的新型蛋白质序列。
对这些新型基因的基因组定位分析显示,在大肠杆菌中,大多数新型基因(63.4%)位于已注释基因的内部(同一链上),而严格意义上的基因间区或反义链编码的蛋白质只占少数。然而,结核分枝杆菌则表现出不同的模式:基因间区、反义链和同链嵌入式ORF的出现比例相近。
尽管新型基因的表达水平介于已注释基因和完全非编码ORF之间,但它们的序列特性(如氨基酸组成、密码子使用偏好性)与基因组非编码区没有显著差异,甚至在某些特性上比非编码ORF更偏离已注释基因的模式。

原基因涌现的类群特异性趋势

研究将功能不明确且分类学范围受限的新型基因定义为"原基因",并重点分析了各类群中专属于属或种水平的ORFans。在大肠杆菌和结核分枝杆菌中,分别有48.3%和34.5%的新型基因被鉴定为属特异性或种特异性ORFans,而沙门氏菌中这一比例仅为16.7%,这可能与沙门氏菌中大多数新型基因(92.6%)嵌入已注释基因内部、限制了其分化有关。
通过比较外类群基因组,研究发现尽管大肠杆菌和结核分枝杆菌在基因组GC含量、非标准翻译机制(如无前导翻译,leaderless translation)等方面存在显著差异,但两者具有相似数量的ORFans(238 vs 203),且能追溯到外类群同源非编码序列的比例也相近(14.4% vs 15.4%)。这表明原基因在不同细菌类群中以相对均匀的速率产生,暗示存在类群特异性机制调控其产生和维持。

原基因在泛基因组中的涌现与分布

研究人员进一步利用代表大肠杆菌物种多样性的450个基因组数据集,分析了原基因在泛基因组中的分布模式。与注释的ORFan基因(分布受限)不同,原基因显示出更广泛的分布特征:48个种特异性原基因中,超过一半存在于所有(或几乎所有)系统发育群中。
尽管相当比例的原基因能追溯到非编码序列,但研究仅发现一个符合de novo起源严格标准(即在多个外类群中存在共享的失活突变)的原基因。该基因编码一个17个氨基酸的蛋白质,其外类群同源序列因缺乏起始密码子或存在终止密码子而保持非编码状态。

研究结论与讨论

本研究通过系统分析表明,细菌基因组确实包含大量新型未被注释的蛋白质编码基因,其中10-30%为分类学范围受限的原基因,提示它们在物种历史中近期产生。然而,这些原基因的密码子和氨基酸组成特性与基因组非编码区没有显著区别,且大多数蛋白质仅能被间歇性检测到,表明它们可能以低水平翻译,为自然选择提供的底物有限。
研究最令人意外的发现是,尽管大肠杆菌和结核分枝杆菌在基因组特征上存在显著差异(如GC含量、非标准翻译机制的使用等),但原基因的涌现速率在两类群间保持相对恒定。这提示原基因的产生和保留并非完全由突变驱动的中性过程,而是受到某种形式的调控。可能大肠杆菌中大部分非注释蛋白质表达属于"噪音",对细胞适应度影响微弱,因而易于通过中性过程快速进化;而结核分枝杆菌则可能存在调控新型基因表达的机制。
尽管在实验进化研究中观察到原基因在数千代时间内频繁产生并持续存在,但在自然种群中,明确由de novo机制产生的原基因极为罕见。本研究仅鉴定出一个确凿的de novo起源案例,凸显了在细菌中追踪新基因起源事件的困难性,这可能与细菌基因组快速清除非编码序列以及高水平基因交换干扰系统发育推断有关。
总体而言,这项研究揭示了细菌中原基因持续涌现的普遍现象,但它们的序列特性提供的证据表明,大多数可能并非新基因的直接前体,而是代表编码或非编码序列的趋异成员。这一认识对理解细菌基因组进化动力学具有重要意义,并为未来研究细菌新基因起源提供了新的理论基础和方法学框架。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号