
-
生物通官微
陪你抓住生命科技
跳动的脉搏
生成模型探索自复制核酶序列空间:揭示RNA世界起源的多样性基础
【字体: 大 中 小 】 时间:2025年08月23日 来源:Nature Communications 15.7
编辑推荐:
研究人员为解析RNA自复制在生命起源中的关键作用,采用生成模型(DCA/VAE)结合高通量测序技术,系统探索了Group I Introns核酶的中性网络。发现自复制核酶序列空间超过1039种,突变距离达65个位点,远超传统深度突变扫描(DMS)的10个突变限制。该研究为RNA世界假说提供了定量数据支持,并为人工设计功能性RNA开辟了新途径。
在探索生命起源的奥秘中,RNA世界假说认为早期生命系统可能由具有催化能力的RNA分子主导。这一假说的关键证据在于RNA既能存储遗传信息又能像酶一样催化化学反应,尤其是自复制反应。然而,自复制核酶的发现犹如大海捞针——天然存在的自复制核酶极其稀少,且其序列空间的多样性从未被系统评估。传统深度突变扫描(DMS)技术仅能探索参考序列附近约10个突变的区域,而197个核苷酸长度的Azoarcus核酶理论序列空间高达10118种,两者之间存在巨大的认知鸿沟。
为突破这一限制,由Camille N. Lambert领衔的国际团队在《Nature Communications》发表创新研究。研究人员整合了统计物理学与人工智能方法,首次定量描绘了自复制核酶的"中性网络"——即保留催化功能的所有可能序列组成的多维空间。研究以工程化改造的Azoarcus Group I Introns核酶为模型,该核酶可通过两步自剪接反应实现自我复制:首先将外显子转移到灰色底物,再通过红色底物置换完成共价连接。
关键技术包括:(1) 开发高通量自剪接检测系统,通过深度测序分析24,220种独特RNA序列;(2) 构建815条Group I Introns的多序列比对(MSA)训练生成模型;(3) 采用直接耦合分析(DCA)、变分自编码器(VAE)等6种算法生成突变体;(4) 通过马尔可夫链蒙特卡洛(MCMC)采样探索序列空间;(5) 使用信息论方法计算有效支持规模(Ω)。
高灵敏度自剪接检测系统的建立
研究人员设计的两步自剪接检测系统巧妙模拟了自然条件下的自复制过程。核酶与携带黄色外显子的tRNA片段共转录后,与灰色、红色底物共同孵育。活性核酶会将红色底物S2连接到自身3'端,通过测序检测S2出现频率来量化活性。该系统灵敏度极高,可检测低至0.17%的参考核酶活性(z-score>3.09),且交叉催化效应可忽略(相关系数r=0.99)。
生成模型的性能比较
研究系统比较了7种生成模型的预测能力:
随机突变(RUM)在15个突变后完全失活
基础配对替换(BPR)模型通过保留碱基对将最大突变距离(Lmax)提升至20
直接耦合分析(DCA)在温度参数T=1时达到Lmax=60,有效支持规模ΩDCA≈1039
结合二级结构预测的DCA-SB模型进一步突破至Lmax=65

中性网络的定量描绘
通过信息论方法计算发现:
DCA生成的中性网络包含1041条序列(60突变时)
活性序列间平均距离达25个突变,最远相距99个突变
主成分分析(PCA)显示生成序列填补了自然嵌合体间的空白区域

自复制能力的实验验证
选取17个DCA设计的核酶进行片段自组装验证:
60%的活性核酶能实现二片段或四片段自复制
最大突变距离60的核酶仍保持自复制能力
镁离子浓度(5-60 mM)和温度(37-60°C)对中性网络规模影响有限

这项研究通过创新性的"生成模型+实验验证"范式,首次揭示了自复制核酶惊人的序列多样性。1039的中性网络规模远超预期,说明在生命起源的混沌环境中,功能性RNA的出现并非小概率事件。更值得注意的是,这些序列通过复杂的互作网络相连,为"RNA世界"向达尔文进化过渡提供了物质基础。该方法学突破不仅为生命起源研究开辟了新途径,其DCA-SB混合模型更为人工设计复杂RNA分子提供了通用框架。未来,将该方法应用于更小的自复制核酶(如20nt的随机寡聚体)或其它催化活性的RNA,有望揭示RNA分子从化学演化到生物演化的完整轨迹。
生物通微信公众号
知名企业招聘