
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:深度学习导航蛋白质-核酸序列-结构景观
【字体: 大 中 小 】 时间:2025年09月24日 来源:Current Opinion in Structural Biology 7
编辑推荐:
本综述系统评述了深度学习在预测蛋白质-核酸(NA)复合物结构及设计功能性核酸方面的前沿进展。文章深刻剖析了当前方法(如AlphaFold3、RoseTTAFoldNA)在应对核酸独特柔性、数据稀缺及进化保守性挑战时的局限性,并展望了整合高通量组学数据、开发更严谨评估基准及利用自监督学习发现调控信号等未来方向,为计算生物学领域研究者提供了极具价值的参考。
蛋白质与脱氧核糖核酸(DNA)或核糖核酸(RNA)分子之间的相互作用在众多生物学过程中扮演着核心角色,包括基因组复制与保护、基因表达、转录与剪接、蛋白质翻译以及免疫应答等。蛋白质-RNA相互作用网络更因其功能紊乱与多种疾病(如癌症、心血管疾病和神经退行性疾病)密切相关,加之高通量生化分析方法的飞速发展,已成为极具前景的治疗靶点。然而,与蛋白质-蛋白质复合物相比,我们对蛋白质-NA复合物的认知仍远远落后。
尽管过去几十年数据量大幅增长,但截至2025年6月,蛋白质数据库(PDB)中可用的蛋白质-NA复合物结构仅约14,750个,与蛋白质及同源蛋白质复合物的数量相比仍相去甚远。此外,已知的蛋白质-NA复合物缺乏多样性,例如约6,500个实验解析的蛋白质-RNA复合物仅涵盖少数短小且高度折叠的RNA家族,如tRNA、核糖开关和核酶。这种实验解析的困难性,催生了对高通量、高精度预测方法的迫切需求。
蛋白质结构预测领域的巨大成功,激发了将成功的深度学习架构扩展至建模核酸的强烈兴趣。RoseTTAFoldNA(RFNA)是首个专门为蛋白质-NA复合物预测设计的深度学习方法,其采用三轨神经网络处理蛋白质和NA的多序列比对(MSA)、几何信息和3D坐标,并堆叠了SE(3)-等变变换器进行 refinement。它很快被AlphaFold3(AF3)所跟进,后者相比AlphaFold2的进步,除了能处理核酸和其他分子外,还包括简化序列信息处理、引入去噪扩散框架精修3D坐标、偏好数据增强而非严格的SE(3)等变性,以及利用AF-Multimer蒸馏数据丰富训练集。随后出现了一些AF3的开源适配版本,如Boltz系列和HelixFold3。
然而,这些用于预测生物分子复合物的通用模型尚未达到科学界的期望。最近的蛋白质结构预测技术关键评估(CASP16)强调,基于深度学习的方法在预测蛋白质-NA相互作用结构方面存在局限,其表现未能超越无需人工干预的传统方法。AF3服务器在CASP16的蛋白质-NA界面和杂交复合物预测中总体排名分别为第16和第13位。所有表现优于该基线的深度学习预测因子,要么直接使用要么适配了AF和RFNA架构,并通过专家手动干预、更深入的序列搜索结合语言模型(LM)嵌入、更好的模板识别以及使用经典对接或分子动力学模拟进行精修来提升性能。但值得注意的是,对于PDB中缺乏模板的两个靶标,没有方法能识别出参与界面的残基,这凸显出蛋白质-NA复合物结构预测在很大程度上仍然依赖于同源实验结构作为模板。
聚焦于蛋白质-RNA复合物,AlphaFold3的作者报告称,在一个与已知模板结构同源性低的25个复合物的小测试集上,其成功率仅为38%,而RoseTTAFold2NA仅为19%。一项对超过一百个蛋白质-RNA复合物的综合基准研究进一步证实了这些结果:AF3优于RF2NA,但其预测准确性仍然一般,平均TM-score为0.381。AF3在建模其训练集之外的蛋白质-RNA复合物以及捕捉非经典接触和协同相互作用方面存在困难。
为了克服蛋白质-NA复合物实验数据的稀缺,研究人员试图利用从更丰富的蛋白质和蛋白质-蛋白质复合物结构中转移知识。然而,核酸表现出区别于蛋白质的特定属性。
首先,虽然蛋白质的氨基酸组成强烈影响其理化性质、3D几何结构和溶解性,但核酸展现出更层次化的结构组织。碱基组成主要决定二级结构(2D碱基配对模式),这进而很大程度上约束了整体的3D折叠。其次,磷酸骨架带有高度负电荷,并与碱基堆积相互作用协同驱动NA的折叠和稳定性。具体而言,RNA分子在盐水中溶解度很高,且在溶液中高度动态。其结构和动力学通常关键性地取决于溶液的价态和离子强度。第三,核酸骨架比蛋白质骨架灵活得多,每个核苷酸有6个可旋转键,而每个氨基酸只有2个,这极大地增加了它们的构象空间。特别是,这使得通常包含单链(未配对)核苷酸的RNA分子能够在多种3D构象之间切换,从而贡献于其功能多样性。因此,RNA 3D结构本质上比蛋白质结构更灵活且更依赖于环境。这种灵活性带来了重大挑战,同时也提供了计算建模的机会:虽然它使直接的3D结构预测复杂化,但强调了基于集合的方法的重要性以及二级结构作为稳定基础的价值。
灵活性的挑战在建模包含RNA单链(ss)区域的复合物时最为突出,例如那些由ssRNA结合基序介导的复合物,或涉及RNA适体的复合物(短的完全单链寡核苷酸,能以高亲和力和特异性结合蛋白质)。RoseTTAFoldNA仅能对其7个此类测试案例中的1个获得正确的界面模型,作者强调ssRNA的高灵活性是一个主要限制。此外,蛋白质的诱导契合效应产生的ssRNA构象与在游离ssRNA中实验观察到的构象不同,这加剧了结构数据稀缺的挑战。这一问题推动了特定方法的发展,旨在基于片段对接和组装方法,直接在蛋白质表面构建ssRNA构象。
当前蛋白质结构预测方法的成功,很大程度上源于其捕捉同源蛋白质序列间氨基酸共变的能力,这揭示了维持其3D结构的进化约束。同样,核酸序列分化模式编码了与其结构相关的信息,许多共变统计量,如互信息、G检验测量和基于Potts模型的直接耦合分析(DCA),已被探索用于识别保守的RNA结构接触。这些方法从输入的MSA中估计核苷酸在位置对间共同出现的计数或频率。然而,它们在RNA分析中面临特定挑战。进化压力通常作用于碱基配对模式而非单个位置,并且保守的RNA结构在不同物种间仍可能表现出重要差异。此外,RNA MSA能在多大程度上告知我们RNA结构,强烈依赖于RNA的类型,信使RNA中与结构相关的信号常常被密码子组织模式所混淆。另外,错误地将假基因纳入核酶或核糖体RNA比对中会破坏共变信号。这些困难,加之RNA序列数据的匮乏和质量低下,可能给依赖MSA的结构预测方法带来偏差和限制。这促使努力开发改进的、自动化和标准化的工具,用于RNA序列搜索、比对和质量评估。
在蛋白质-RNA复合物中,已在蛋白质界面内或RNA界面内识别出强共变对。然而,直接识别相互作用的核酸和氨基酸之间的进化配对耦合仍然困难。对大型耦合比对的要求限制了此策略仅适用于少数细菌复合物家族,并且在针对数十个复合物进行基准测试时,其预测性能仅略优于随机。尽管在检测直接进化耦合方面存在这些限制,对蛋白质-NA界面保守性的系统分析揭示了重要模式。蛋白质表面的功能性NA结合位点显示出独特的保守谱,与其生物学角色相关。而对蛋白质-RNA界面的详细分析发现了包含几何和化学特征的保守接触模式。即使在序列一致性低于20%的结构同源物之间,蛋白质-RNA中的距离依赖性和非极性接触也被发现是强烈保守的,其中非保守接触的比例低于蛋白质-蛋白质界面。这些发现可以告知哪些相互作用模式能够被深度学习方法在远缘结构同源物之间有效地转移。
除了3D结构预测,从头设计理想化的生物分子形状可以揭示仅分析天然蛋白质和核酸时可能隐藏的物理和结构约束的新见解。因此,提高我们设计功能性蛋白质-NA复合物的能力可以增进我们对其序列-结构关系的理解。近年来,已经开发了几种深度学习架构来应对这一挑战。
从简单地设计能折叠成特定目标3D结构的RNA序列向前迈进一步,CARD方法利用关于相互作用蛋白质的知识来指导设计。具体地,CARD首先使用几何向量感知图神经网络(GVP-GNN)编码目标RNA结构,这确保了SE(3)-等变性,然后通过关注与用预训练蛋白质LM转换为嵌入的相互作用蛋白质残基来增强此表示。与不依赖于结合蛋白质的逆向设计方法相比,它实现了更高的恢复率和宏观F1分数。将这一概念进一步推进,一些开创性工作探索了蛋白质条件化的NA序列和结构的协同设计,其中NA结构不是预先确定的,而是根据与目标蛋白的结合需求而涌现。RNAFlow利用流匹配的灵活性来执行此任务。与CARD类似,它使用GVP-GNN编码输入的蛋白质结构和与其结合的一个噪声版本的RNA,然后自回归地解码一个RNA序列。设计的序列使用RoseTTAFold2NA进行折叠,这有效地充当了去噪器并实现了联合序列和结构监督。该方法可选地利用在流匹配过程中插值的3D构象,此策略即使在远距离位置也能在基架设设计任务中实现高序列恢复率。然而,结构准确性仍然较低。最近的进展提出了基于能量的迭代精修与显式生物物理约束相结合以提高立体化学质量,但成功率有限。
替代方法避免了处理RNA 3D结构的复杂性,而是专注于根据不同级别的蛋白质结构数据生成序列。RNA双向锚定生成(BAnG)引入了新颖的锚定令牌,代表推定的RNA结合位点,从中它双向自回归地生成RNA序列。为了应对PDB中蛋白质-RNA复合物结构数据的有限性,RNA-BAnG通过包含DNA序列以及通过在RNAcentral上进行仅序列重建的预热训练阶段来利用数据增强。因此,它能够为任何具有已知或预测结构的蛋白质进行开箱即用的RNA序列生成。相比之下,RNAtranslator则完全避免依赖任何结构信息。它将蛋白质条件化RNA设计重新定义为序列到序列的自然语言翻译问题:它将输入的蛋白质序列端到端地翻译成一个新颖的RNA结合序列。RNAtranslator在RNAInter数据库中的数百万个实验和预测的蛋白质-RNA相互作用对上进行了预训练,然后在经过实验验证的配对上进行微调。
与这些设计导向架构的发展并行,一些工作旨在重新利用最先进的生物分子结构预测方法进行基于幻想的结合剂设计。通过优化目标的最近改进已经通过设计结合绿色荧光蛋白的适体展示出来。这些有希望的结果构成了迈向通用生物分子设计框架的第一步。
分析蛋白质和核酸之间相互作用的令人兴奋的最新进展,通过体外和体内实验方法生成了大量的蛋白质-NA相互作用数据。高通量组学方法,包括进化选择方法(SELEX)、直接结合 assays(RNAcompete, RNA Bind-n-Seq)和体内交联实验(CLIP-Seq),提供了RNA结合 motif 的MSA,可以丰富和补充可用的结构信息。
目前,大多数利用蛋白质-RNA组学数据的深度学习方法旨在建模序列水平的结合偏好,而不试图预测或整合结构信息。一组模型直接在实验RNA序列上训练,包括AptaDiff,它使用离散扩散过程来建模SELEX衍生数据。扩散过程以通过变分自编码器(VAE)与隐马尔可夫模型解码器学习的潜在表示为条件。其他方法不是从头训练,而是使用实验结合数据对预训练的基础模型或通用模型进行微调,使通用表示适应特定的蛋白质-RNA上下文。例如,GenerRNA是一个基于GPT-2架构的RNA语言模型,在RNAcentral数据上预训练,并在RNAcompete和CLIP数据集上微调。它利用字节对编码(BPE)标记化来压缩输入序列,但牺牲了分辨率。另一个例子是RNAGenesis,它首先在大型RNA序列集合(包括RNAcentral和Ensembl的非编码RNA子集)上预训练,然后在SELEX衍生的数据集上微调。RNAGenesis通过将编码器计算的嵌入映射到固定长度的潜在向量(在解码输出序列之前进行连续去噪扩散)来增强经典的编码器-解码器变换器架构。此外,它通过混合n-gram标记化方案与不同核大小的1D卷积神经网络(CNN)相结合,实现了高紧凑性和高分辨率。虽然这些方法通常无助于预测蛋白质-RNA结构本身,但核酸和氨基酸之间的注意力分数可能反映结合界面。
最后,一些模型结合来自其他预测因子的反馈来指导或精炼学习过程,将基于序列的学习与额外见解相结合。例如,FAFormer使用E(3)-等变帧平均变换器进行适体筛选,利用了分别用AlphaFold和RoseTTAFoldNA生成的蛋白质和RNA 3D模型。
尽管深度学习方法在生物分子结构预测方面取得了显著进展,但蛋白质-NA结构预测仍存在重大挑战。当前最先进的方法在预测其训练分布之外的结构时准确性有限,特别是对于RNA适体和新颖构象。虽然架构创新不断涌现,但我们的文献综述和自身经验表明,特定编码器和解码器设计的选择对预测成功的贡献可能低于最初的预期,大多数框架表现出大致相当的性能。
模型性能的主要决定因素似乎是数据质量和任务表述,而非仅仅是架构复杂性。蛋白质-RNA相互作用建模显著受益于高通量组学数据,这提供了对于其他系统(如蛋白质-肽相互作用)仍然稀缺的训练机会。然而,该领域将受益于更强大、标准化的实验基线来评估预测性能。当前蛋白质条件化RNA设计的评估框架严重依赖于计算预测,例如用深度学习评分模型估计的蛋白质-RNA亲和力。
深度学习方法对数据稀缺和质量问题特别敏感。对于蛋白质-配体相互作用,最大化训练数据多样性和质量同时最小化任务特定泄漏的策略已被证明对提升基于扩散的模型的性能有价值。同样,我们设想旨在为RNA结构和功能建模建立全面基准的倡议可能会带来实质性进展。一些最近的倡议已开始解决这一需求。例如,RNAGLIB提供了七个任务(带有数据集和划分)和一个深度学习库,以促进基于RNA 3D结构的建模。RNAGym评估了19个基线在三个核心任务上的零样本性能。对于蛋白质-RNA预测,它提供了一个中等规模的测试集(127个复合物),并量化了性能在多大程度上依赖于与训练集的相似性以及与用统计物理方法推断的共进化配对耦合的相关性。该基准将受益于纳入更多基线,因为目前此任务仅限于AlphaFold3和RosettaFold2NA。Ludaic和Elofsson另外在几十个复合物上评估了Boltz-1和HelixFold3。他们表明,对于所有方法,预测准确性随着与训练集中发现的 motif 的相似性增加而提高,证实了训练集相似性仍然是一个关键因素。
最近在大量未标记数据的自监督学习方面取得的技术突破,为发现生物序列中的功能和结构信号带来了希望。具体而言,经过训练以大规模重建基因组序列的DNA语言模型,能够有效捕捉代表RNA假结和三级结构接触的核苷酸间依赖性。这些模型相比传统方法具有几个关键优势。首先,通过输入单序列,它们提供了一种克服RNA分子高质量MSA稀缺的方法。例如,深度学习方法ProRNA3D-single结合了蛋白质和RNA序列嵌入与几何注意力,在低深度状态下比基于比对的 state-of-the-art 预测因子恢复了更多的天然接触。其次,LM独立于已知的3D模板,这使得它们易于发现以前未识别的结合模式和相互作用模式,有证据表明它们捕捉到的一些真阳性接触在监督微调后会丢失。尽管如此,这个方向上一个紧迫的挑战是能够捕捉非常遥远的基因组区域之间的结构和功能相互作用。的确,核酸序列需要比蛋白质序列更宽的上下文。虽然现在几种架构能够处理非常长的NA序列作为输入,但信号分辨率在超过10万个碱基对后仍然会下降。
生物通微信公众号
知名企业招聘