受限玻尔兹曼机赋能:从头设计具有代谢物响应功能的新型RNA分子开关
《Nature Communications》:Designing molecular RNA switches with Restricted Boltzmann machines
【字体:
大
中
小
】
时间:2025年12月20日
来源:Nature Communications 15.7
编辑推荐:
本研究针对RNA分子开关从头设计的难题,开发了一种基于受限玻尔兹曼机(RBM)的生成模型。该模型通过学习SAM-I核糖开关同源序列数据,成功设计出与天然序列差异显著(20%-40%)但功能相似的新型RNA适配体。通过高通量化学探测(SHAPE-MaP和DMS)验证,高RBM评分的设计分子成功实现了约30%的构象转换成功率,显著优于传统协方差模型(CM)。该研究为理性设计功能性RNA提供了强大工具,并揭示了分子开关功能与结构元件精细能量特征之间的关联。
在生命科学的微观世界里,RNA不仅是遗传信息的信使,更是精密的分子机器。其中,核糖开关(Riboswitch)是一类神奇的调控元件,它们能像“分子传感器”一样,感知细胞内的特定代谢物浓度,并随之改变自身结构,从而开启或关闭下游基因的表达。这种“变构”能力使得核糖开关成为合成生物学和药物开发中极具潜力的工具。然而,如何从零开始,理性地设计出能够执行特定功能的RNA分子,一直是该领域面临的巨大挑战。
传统的设计方法往往依赖于复杂的物理模型来预测RNA的折叠,或者通过大规模的随机筛选来寻找功能性序列。前者难以精确模拟RNA复杂的三维结构,后者则效率低下且成本高昂。因此,开发一种能够直接从自然界中学习RNA设计“规则”的智能方法,成为了科学家们追求的目标。
近日,一项发表在《Nature Communications》上的研究,为我们展示了机器学习在RNA设计领域的强大威力。研究团队利用一种名为受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)的生成式神经网络,成功地从天然核糖开关序列中学习到了其功能“密码”,并设计出了大量与天然序列差异显著、但功能相似的新型RNA分子开关。这项研究不仅为理性设计功能性RNA提供了强大的新工具,也为我们理解RNA序列与功能之间的复杂关系提供了新的视角。
为了开展这项研究,研究人员整合了计算建模与高通量实验验证两大模块。在计算方面,他们利用Rfam数据库中的SAM-I核糖开关适配体家族(RF00162)的同源序列数据,训练了受限玻尔兹曼机(RBM)模型。该模型能够学习序列中的保守性、共变性和多样性特征,并生成具有高评分的新序列。作为对比,他们还使用了传统的协方差模型(Covariance Model, CM)进行序列生成。在实验验证方面,他们采用了高通量的化学探测技术,包括SHAPE-MaP和DMS,对总计677条序列(包括476条RBM设计序列、201条天然序列和58条CM设计序列)进行了测试。通过分析在有无SAM(S-腺苷甲硫氨酸)条件下RNA分子的反应性差异,他们开发了一套自动化的统计分析方法,以评估每个分子是否发生了预期的构象转换。
研究人员首先在SAM-I核糖开关适配体家族的同源序列数据上训练了RBM模型。该模型能够为任何RNA序列分配一个“RBM评分”,分数越高,表示该序列越符合模型从天然数据中学到的“好”序列特征。为了验证模型的有效性,他们将其与传统的协方差模型(CM)进行了比较。结果显示,RBM生成的序列不仅拥有与天然序列相当的RBM评分,还成功捕捉到了天然序列中存在的复杂变异模式,包括P4螺旋的缺失等。相比之下,CM生成的序列虽然也满足二级结构的约束,但其RBM评分普遍较低,且多样性受限,无法覆盖天然序列的完整变异范围。更重要的是,RBM模型能够自动识别出与RNA三级结构(如假结)相关的关键位点,而CM模型则无法做到这一点。
为了评估设计分子的功能,研究人员对天然序列和设计序列进行了化学探测。他们发现,天然SAM-I适配体在结合SAM后,确实会发生预期的构象变化,表现为关键位点(如SAM结合口袋、假结、P1螺旋等)的反应性降低(即“保护”效应)。基于此,他们建立了一个“反应性模板”,用于识别功能性的构象转换。对于RBM设计的序列,他们观察到两种典型的反应模式:一部分序列表现出与天然序列相似的全局构象转换,而另一部分则表现出局部的结合反应。重要的是,高RBM评分的序列,其平均反应性变化谱图与天然序列高度吻合,而低RBM评分的序列则存在明显差异。相比之下,CM设计的序列几乎无法重现天然序列的特征性保护模式。
为了对单个分子的功能进行客观、定量的评估,研究人员开发了一种基于“保护分数”的统计分析方法。该方法通过整合多个关键位点的反应性数据,来判断一个分子是否发生了构象转换。结果显示,在RBM设计的序列中,约有35%的高评分序列被归类为“响应性”序列,即能够像天然核糖开关一样,在SAM存在时发生构象转换。这一成功率显著高于CM设计的序列(0%)。此外,研究人员还发现,分子开关的功能与其结构元件的能量特征密切相关。例如,P1螺旋的形成能既不能太强(否则无法打开),也不能太弱(否则无法稳定闭合构象),而RBM设计的序列恰好倾向于生成具有这种“中间”能量的P1螺旋,从而具备了实现构象转换的物理基础。
为了进一步测试RBM模型的极限,研究人员进行了第二轮设计和验证。他们生成了与天然序列差异更大(高达46%的突变)的序列,以及一些缺乏P4螺旋的序列。实验结果表明,RBM模型依然能够设计出功能性的分子开关,而CM模型则无法做到这一点。这充分证明了RBM模型在生成功能性RNA序列方面具有强大的泛化能力和多样性生成能力。
本研究成功地将受限玻尔兹曼机(RBM)这一生成式机器学习模型应用于RNA分子开关的从头设计。研究结果表明,RBM能够从天然序列数据中学习到维持RNA功能所必需的复杂约束,包括二级结构、三级结构以及构象转换的动力学特性。通过高通量实验验证,研究人员证实了RBM设计的序列能够以可观的成功率实现预期的构象转换功能,且其功能与序列的结构能量特征密切相关。
这项工作的意义在于,它首次展示了生成式机器学习模型在设计和理解复杂生物分子(如具有变构功能的RNA)方面的巨大潜力。与传统的基于物理模型或随机筛选的方法相比,RBM提供了一种更高效、更智能的设计范式。它不仅能够生成功能性的分子,还能通过其可解释的“隐藏单元”揭示序列中与功能相关的关键“基序”,从而加深我们对RNA序列-功能关系的理解。
未来,这种方法有望被推广到其他RNA家族的设计中,甚至扩展到包含表达平台的全长核糖开关的设计,为合成生物学、基因治疗和药物开发等领域提供更强大的分子工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号