《Nature Methods》:RNAbpFlow: base pair-augmented SE(3) flow matching for conditional RNA 3D structure generation
编辑推荐:
尽管深度学习赋能的生物分子建模方法取得了突破性进展,但由于RNA分子高度灵活的特性以及进化序列或结构同源性数据的有限性,预测RNA的精确三维结构仍然具有挑战性。本文介绍RNAbpFlow,一种以序列和碱基对为条件的SE(3)等变流匹配模型,用于生成RNA三维结
尽管深度学习赋能的生物分子建模方法取得了突破性进展,但由于RNA分子高度灵活的特性以及进化序列或结构同源性数据的有限性,预测RNA的精确三维结构仍然具有挑战性。本文介绍RNAbpFlow,一种以序列和碱基对为条件的SE(3)等变流匹配模型,用于生成RNA三维结构集合。该模型利用核碱基中心表示法,无需显式或隐式使用进化信息或同源结构模板,即可实现全原子RNA结构的端到端生成。实验结果表明,在大规模基准测试中,与当前RNA拓扑采样和预测建模方法相比,碱基对条件化带来了广泛且可推广的性能提升。
**研究背景与问题**
RNA三维结构的确定已成为结构生物学中的一个关键挑战,这源于对基于RNA的疗法的日益增长的兴趣。高分辨率的RNA三维结构表征对于设计和理解具有特定治疗功能的RNA分子至关重要,从而扩展了RNA介导的药物发现范围。然而,RNA固有的构象灵活性给X射线晶体学、核磁共振(NMR)光谱学和冷冻电子显微镜等实验结构测定方法带来了重大挑战。因此,计算RNA结构预测正在成为一个有吸引力的替代方案,以填补RNA结构空间的空白,并阐明支撑多种细胞过程的RNA构象动力学。
传统的RNA三维结构预测方法包括基于模板的方法(如ModeRNA和RNAbuilder),它们依赖于同源结构信息;以及基于物理和/或知识的方法(如FARFAR2、3dRNA、RNAComposer和Vfold3D),它们利用生物物理势能和预构建的片段库来组装全长RNA结构。然而,这些方法受到蛋白质数据库(PDB)中RNA结构数据稀缺的限制,并且计算成本通常过高,使其不太适合预测具有复杂拓扑结构的大型RNA。尽管基于物理的方法结合专家人工干预已在社区范围的RNA-Puzzles和CASP挑战赛中取得了成功,但仍然迫切需要用于RNA结构计算建模的完全自动化、快速且准确的方法。
受AlphaFold 2在蛋白质结构预测方面的变革性影响启发,最近开发了越来越多基于深度学习的RNA结构建模方法,包括DRfold、trRosettaRNA、trRosettaRNA2、RoseTTAFoldNA、RhoFold+和NuFold,它们利用了基于注意力的Transformer架构。然而,除了DRfold之外,大多数方法高度依赖于从多序列比对(MSA)中获得的显式进化序列信息,或者隐式利用了由生物语言模型学习的同源信息。由于碱基对相互作用的等构特性阻碍了序列比对工作,为RNA序列获取可靠的MSA带来了显著挑战。此外,许多现有方法未能充分利用RNA碱基对(二维)信息,包括规范和非规范碱基配对相互作用,这些是RNA最终三维构象的关键决定因素。最后,这些方法做出的静态结构预测可能不足以捕捉RNA分子固有的构象灵活性,因为RNA分子通常采用构象状态的分布,而不是折叠成静态结构。因此,迫切需要开发改进的计算方法,能够在不显式或隐式使用任何进化信息的情况下,利用碱基配对信息直接从核苷酸序列生成全原子RNA三维结构的构象集合。
**研究方法概述**
本研究开发了RNAbpFlow,这是一个基于SE(3)等变流匹配的序列和碱基对条件化全原子RNA三维结构生成方法。其主要技术贡献包括:1)整合了来自三种互补碱基对注释方法的核苷酸序列和碱基配对信息作为条件,以全面捕获规范和非规范相互作用;2)采用核碱基中心表示法,能够优化核碱基所有可旋转键的角度,从而实现全原子RNA结构的端到端直接输出,绕过了在大规模样本生成背景下不切实际的后验几何优化模块;3)引入了以碱基对为中心的辅助损失函数,以最大限度地实现规范和非规范碱基配对相互作用。模型框架建立在FrameFlow的基础上,这是一个为SE(3)框架表示上的快速蛋白质骨架生成而设计的流匹配公式。对于RNA序列中的每个核苷酸,使用刚性体框架(由全局原点的平移和旋转矩阵定义)来表示。使用来自AlphaFold 2的结构模块作为预测向量场的参数化神经网络主干。模型训练过程使用了结合平移、旋转、扭转角以及碱基对三维和二维辅助损失的总损失函数。训练数据主要来自RNA3DB数据集,并针对CASPI15和CASPI16盲测基准进行了严格的数据划分和过滤,确保无数据泄露。对于CASPI16实验,还通过从bpRNA-1m数据集预测结构构建了交叉蒸馏集以进行数据增强。
**研究结果**
**1. 结构集合生成性能**
为了评估RNAbpFlow的采样性能,研究人员将其与RNAJP(一种最近基于粗粒度分子动力学模拟、明确考虑碱基对信息的方法)进行了比较。在包含三向连接的12个RNA目标基准集上,RNAbpFlow在全局拓扑采样(平均TM-score 0.38 对 0.32)和局部构象(平均lDDT 0.66 对 0.59)方面均优于RNAJP。RNAbpFlow在66.67%的RNA中找到了基于TM-score的正确折叠,而RNAJP为41.67%。在生成的所有12000个诱饵结构中,RNAbpFlow有13.4%达到TM-score > 0.45,而RNAJP仅有1.73%。
**2. 在CASP15目标上的表现**
在CASP15自然RNA的预测建模性能比较中,当提供准确(天然)碱基对时,RNAbpFlow实现了平均TM-score 0.48,全原子均方根偏差(RMSD)7.77,非沃森-克里克碱基对(NWC)的相互作用网络保真度(INF)0.62。当使用预测的碱基对时,性能有所下降(TM-score 0.40,RMSD 10.70,INF-NWC 0.48),但仍优于其他基于物理/知识和基于深度学习的方法。RNAbpFlow在建模涉及非规范相互作用和假结的挑战性基序方面也表现更优。对于合成CASP15 RNA,RNAbpFlow在四个目标中的三个上生成了TM-score ≥0.45的高质量集合。
**3. 在CASP16目标上的表现**
在28个CASP16盲测目标上,研究人员将RNAbpFlow与顶尖的自动化服务器方法(如使用MSA和/或模板信息的AF3-server和Yang-Server)以及其他最新方法(如AF3、NuFold、trRosettaRNA2、DRfold2)进行了比较。对于长度≤200个核苷酸的14个主要分析目标,RNAbpFlow在不使用任何MSA信息的情况下,在生成的结构集合中取得了比两个顶级CASP16服务器在其五次最佳提交中更高的平均最大TM-score和lDDT。特别是对于MSA深度较浅(Neff ≤130)的困难目标,RNAbpFlow在结构集合中 consistently 获得了更高的TM-score,显示了在进化信息稀缺时碱基对条件化结构建模的有效性。与所有竞争方法(包括AF3)相比,RNAbpFlow在平均最大TM-score和lDDT方面表现更好。对于长度大于200个核苷酸的目标,RNAbpFlow consistently 优于NuFold、trRosettaRNA2和DRfold2,但略微落后于AF3,这部分归因于对于较大RNA,预测的输入碱基对准确性较低。
**4. 数据增强、微调和碱基对准确性的贡献**
通过交叉蒸馏进行数据 augmentation 显著提升了RNAbpFlow的性能。使用蒸馏和预测碱基对条件化时,平均最大TM-score从0.50提高到0.57,平均最大lDDT从0.61提高到0.69。使用实验碱基对条件化时,性能进一步提升(平均最大TM-score 0.68,lDDT 0.77)。在蒸馏增强数据集的基础上,使用来自三个假结感知RNA二维结构预测器的预测碱基对进行微调,进一步提高了采样质量,缩小了预测与实验碱基对条件化之间的精度差距。分析表明,RNAbpFlow采样质量与输入碱基对准确性呈中度至强相关。当提供天然碱基对时,RNAbpFlow生成的结构与输入具有高度一致性(平均INF值0.93)。即使提供有噪声的预测碱基对,RNAbpFlow仍然以高保真度(平均INF 0.84)重现这些输入,显示了其紧密遵循输入条件的能力,无论其准确性如何。
**5. 消融研究**
为了评估碱基对信息在条件性流匹配公式中的重要性,研究人员在RNA3DB的非冗余训练-测试集上进行了消融实验。结果表明,当同时整合来自三种不同注释工具(RNAView、MC-Annotate、DSSR)的碱基对图作为条件时,RNAbpFlow取得了最佳性能(平均最大TM-score 0.51,lDDT 0.71)。与仅以序列为条件的基线变体相比,TM-score提高了41.7%,lDDT提高了54.3%。没有任何单个注释工具能优于它们的组合。此外,移除任何辅助损失都会降低采样质量,凸显了以碱基对为中心的监督的重要性。
**讨论与结论**
研究人员开发了RNAbpFlow,一种基于SE(3)等变流匹配模型的序列和碱基对条件化全原子RNA三维结构生成方法。实验结果表明,引入碱基对条件化带来了性能提升,且精度增益与碱基对的质量相关。不受序列和结构水平同源性的限制,RNAbpFlow能够以端到端的方式直接生成全原子RNA三维结构模型,从而为通过大规模结构集合生成在原子细节上研究RNA构象动力学开辟了有前景的途径。
尽管具有优势,RNAbpFlow的一个关键限制是其采样和预测性能严重依赖于输入碱基对信息的准确性。在这方面改进性能将需要提高碱基对预测的准确性,特别是对于较大的RNA目标。此外,RNAbpFlow当前的条件采样流程并非专门针对非常大的RNA进行优化,这可能需要 substantially 更多的长RNA训练数据,以及一个随序列长度呈次二次方扩展的模型架构,例如结合局部感知消息传递和稀疏注意力以促进高效的长程信息流。对于未来的工作,该方法可以扩展到碱基对信息之外,以纳入同源性信息(MSA)或额外的实验约束,例如作为每核苷酸信号的化学探测反应性(例如,SHAPE/DMS)以及作为稀疏成对约束的邻近连接或交联数据,这可能进一步提高挑战性目标的准确性。此外,可以探索在训练期间使用替代和开放获取的碱基对注释流程(例如,FR3D)进行实验三维结构标记,以进一步提高RNAbpFlow的鲁棒性和准确性。