《Nature Biotechnology》:Predicting small molecule–RNA interactions without RNA tertiary structures
摘要
小分子能够与RNA结合以调控其命运和功能,为治疗人类疾病提供了广阔前景。然而,当前预测小分子–RNA相互作用(SRI)的工具需要已知RNA三级结构。本研究提出SMRTnet,一种深度学习方法,它利用多模态数据融合整合了两个大型语言模型、卷积神经网络和图注意力网络,仅基于RNA二级结构即可预测SRI。SMRTnet在多个实验基准测试中均表现出高性能,显著优于现有工具。SMRTnet针对十种疾病相关RNA靶点的预测,鉴定出40个具有纳摩尔至微摩尔解离常数(Kd)的RNA靶向小分子命中化合物。聚焦于MYC内部核糖体进入位点(IRES),SMRTnet预测的小分子结合得分与实验验证率密切相关。其中一个预测小分子在三种癌细胞系中下调了MYC表达、抑制增殖并促进凋亡。因此,通过消除对RNA三级结构的需求,SMRTnet扩展了可行RNA靶点的范围,并加速了RNA靶向治疗药物的发现。
引言
RNA近年来已成为药物发现中一个颇具吸引力的靶点,其复杂结构可被小分子选择性调控,从而影响多种生物学过程,包括前体mRNA剪接、mRNA翻译、RNA-蛋白质相互作用、非编码RNA加工以及RNA病毒的复制。靶向RNA的能力扩展了小分子药物的治疗靶点谱,即那些与疾病相关的“不可成药”蛋白的基因。一个显著的例子是Evrysdi(risdiplam),它是首个靶向RNA的药物,可促进SMN2 pre-mRNA剪接过程中外显子7的包含,用于治疗脊髓性肌萎缩症。然而,尽管前景广阔,RNA的探索程度仍远低于蛋白质,这源于几个关键挑战——其中最主要的困难在于确定RNA三级结构的难度,这制约了RNA靶向小分子的发现。
除了基于直接实验测量的方法外,计算方法的开发也旨在预测SRI。例如,分子对接工具,如AutoDock Vina、RLDOCK、NLDock和rDock,已被改进或开发用于执行小分子与核酸三级结构之间的对接。深度学习方法最近也被应用于预测SRI。其中,RNAmigos2使用变分自编码器和图神经网络来预测RNA的可能结合物,而RLaffinity引入了三维卷积神经网络来预测小分子与RNA靶点的结合亲和力。尽管取得了这些进展,但这些计算方法都需要已知的RNA三级结构,限制了它们的实用性,因为大多数疾病相关的RNA缺乏明确的三级结构,只有少数具有已知的活性位点。
结果
SMRTnet概述
SMRTnet是一种深度学习方法,它以RNA序列及其二级结构和小分子的SMILES作为输入,预测结合得分。SMRTnet的架构包括一个RNA编码器、一个小分子编码器、一个MDF模块和一个解码器。RNA编码器整合了一个内部开发的RNA语言模型(RNASwan-seq)和一个带有残差神经网络的两层CNN,以提取核苷酸和碱基配对信息作为输入RNA的表征。小分子编码器整合了一个已发布的化学语言模型(MoLFormer)和一个三层GAT,以捕获原子组成和化学结构作为输入小分子的表征。我们还开发了一个MDF模块,通过协同注意力和自注意力神经网络逐步整合成对的结合信息,以捕获RNA和小分子表征在定义SRI中的复杂相互作用,并输出一个相互作用表征,该表征被传递到一个全连接神经网络解码器以预测结合得分。
为训练SMRTnet,我们从蛋白质数据库(PDB)中收集了1,061个高质量三维结构,这些结构包含至少一个RNA和一个小分子。通过处理,我们获得了8,672个RNA片段与小分子的相互作用作为训练和测试的正样本。我们还随机配对RNA片段和小分子,在过滤掉已知相互作用后,创建非相互作用对作为负样本。为了评估模型的鲁棒性,我们以不同的比例(1:1, 1:2, 1:3, 1:4, 1:5 和 1:10)相对于正样本来采样负样本。我们将SMRTnet数据集按8:1:1的比例划分为训练集、验证集和测试集,并应用基于配体的数据拆分策略,确保测试集中的小分子不出现在训练集和验证集中。我们还应用了五折交叉验证来评估模型稳定性,并最终使用集成评分策略,基于五折交叉验证的五个模型计算中位数结合得分作为最终结合得分,以最小化单个模型中的随机预测误差。
评估SMRTnet在来自PDB的SRI数据上的性能
SMRTnet在SMRTnet数据集上,在五折交叉验证中,对不同正负样本比例(1:1至1:10)均表现出稳健的性能,平均受试者工作特征曲线下面积(auROC)在0.830至0.844之间。相比之下,RNAmigos2——唯一可应用于SMRTnet测试集的另一工具——获得的auROC值较低(0.567–0.596)。为评估小分子结构相似性可能造成的数据泄露,我们计算了训练集和测试集中分子之间的Tanimoto相似性,发现平均值始终低于0.75。我们进一步强制执行了0.7至1.0的最大Tanimoto相似性阈值,发现模型性能保持稳定,平均auROC值在0.844至0.855之间,表明即使没有小分子相似性约束,也未发生明显的数据泄露。
为了检查RNA结合位点相似性造成的数据泄露,我们排除了测试集中与训练集RNA共享相同多链结合位点的RNA。这导致平均auROC值从0.844降至0.798。此外,我们使用基于结构的数据拆分策略在SMRTnet数据集上重新训练了SMRTnet,将结构相似的结合口袋聚类到同一训练集或测试集中,得到的平均auROC为0.806。这些结果表明,虽然在RNA侧可能存在轻微的数据泄露,但即使在排除训练集和测试集之间相同或相似RNA结合位点的情况下,SMRTnet仍保持强大的预测性能。
我们进一步通过在RNAmigos2自身数据集上对SMRTnet进行基准测试来研究其鲁棒性,无论是在RNAmigos2数据集上重新训练和评估SMRTnet,还是在过滤掉具有相似配体和结合位点的数据后的RNAmigos2测试集上评估原始SMRTnet。在这两种测试中,SMRTnet都表现出与RNAmigos2高度竞争的性能,尽管其训练数据集小得多和/或在新的化学和结构空间中进行评估。这些结果强调了SMRTnet是用于RNA靶向药物发现的稳健且可推广的方法。
为了调查SMRTnet是否学习了特定的RNA-配体相互作用,而不是依赖于配体中心特征,我们创建了一个错配的RNA-配体对测试集。我们发现SMRTnet表现出性能急剧下降(auROC = 0.572)。当我们将这些错配对的标签从“阳性”改为“阴性”后,模型的性能完全恢复到auROC为0.830。这些结果证明SMRTnet已经学会了SRI的基本原理。
评估SMRTnet在已发表研究的SRI数据上的性能
除了从PDB生成的SMRTnet数据集,我们还从四个数据库和22篇新出版物中整理了一个经过实验验证的SRI数据集(连同非相互作用的小分子-RNA对)。在排除已出现在SMRTnet数据集中的SRI后,我们获得了1,665个SRI和346个非相互作用对,统称为SMRTnet-benchmark数据集。
我们提取了相关出版物中的RNA序列及其二级结构来运行SMRTnet,发现SMRTnet在SMRTnet-benchmark数据集上达到了0.720的平均auROC,性能范围从SMMRNA子集的0.684到NewPub子集的0.765。此外,我们根据RNA类型将这些数据分为八类,观察到SMRTnet对任何特定RNA类型没有明显偏好,除了核糖开关。这些结果强调了SMRTnet适用于多种RNA类型的广泛适用性及其在预测未见过的SRI方面的效用。
SMRTnet在诱饵评估任务中优于其他计算方法
我们使用诱饵评估对SMRTnet与现有方法进行了基准测试,这是评估对接工具判别能力的常用任务。在此任务中,对于每个RNA靶点及其真正的结合物,会设计一个诱饵库,这些诱饵在物理上相似但化学上区别于真正的结合物。然后,工具对真正的结合物在这些诱饵中进行排名。
SMRTnet在SMRTnet测试集上实现了92.6%的平均排名,优于四个对接工具(范围从27.3%到46.6%),并超过了两个深度学习工具(范围从16.0%到23.8%)。具体来说,SMRTnet在测试集的七个代表性案例中,始终将真正的结合物排在前五名之内。例如,对于茶碱结合适体,SMRTnet将茶碱排在首位,其后是共享相同官能团的诱饵,而缺乏该官能团的诱饵则排在底部。这些结果证明了SMRTnet从结构密切相关的小分子中识别真正结合物的卓越能力。
我们还通过测量预测不同数量SRI的推理时间来评估SMRTnet的计算效率。结果表明,SMRTnet比GPU加速的对接工具Vina-GPU 2.0提供了显著更高的计算效率。
RNA编码器和实验衍生的RNA二级结构数据对于准确的SRI预测至关重要
我们进行了消融研究以评估不同SMRTnet组件对其性能的贡献。SMRTnet的auROC从完整模型的0.844下降到移除MDF模块的变体7的0.812,并进一步略微下降到变体5和6的0.808和0.802。然后,对于变体1-4,它大幅下降到0.561, 0.552, 0.571 和 0.591。这些发现表明,RNA序列和结构信息都是最关键的,而MDF模块也有助于实现高预测性能。
接下来,我们专注于RNA二级结构,并研究了其对SMRTnet性能的贡献。我们训练了一个仅包含序列的SMRTnet版本(称为SMRTnet-seq),排除了RNA结构特征。这将SMRTnet数据集上的平均auROC从0.844降低到0.760,并将SMRTnet-benchmark数据集上的平均auROC从0.720降低到0.578。我们还在SMRTnet-benchmark数据集上用RNAstructure的预测替换了检索到的结构数据(其中超过80%的情况是实验衍生的)。这种替换将auROC值降低到0.664。这些发现强调了RNA二级结构——尤其是那些通过实验确定的——在获得高预测准确性方面的关键作用。
此外,我们评估了使用不同RNA LLM对SMRTnet性能的影响,比较了基于RNASwan-seq的实现与RNA-FM和RNAErine的实现。结果表明,与两种替代方案相比,SMRTnet在使用RNASwan-seq时表现略好。
SMRTnet识别RNA上的小分子结合位点
先前的研究表明,模型可解释性分析可以揭示各种分子相互作用的结合位点。遵循这种方法,我们将RNA靶点上的小分子结合位点识别为高度重要区域,称为高注意力区域(HAR)。具体来说,我们应用Grad-CAM算法来量化每个核苷酸对SRI预测结合得分的贡献。
我们通过将梯度信号与来自四个数据集的实验确定的结合位点进行比较来评估这种结合位点识别方法的准确性。首先,在结合位点信息完全可用的SMRTnet数据集上,SMRTnet在五折交叉验证中实现了0.695的平均auROC。其次,在来自先前提出专门结合位点预测工具RNAsite的研究的两个额外基准数据集上,在排除无效条目后,SMRTnet分别达到了0.741和0.770的auROC,与RNAsite的性能相当。
最后,聚焦于SMRTnet-benchmark数据集,我们检查了五个具有已知结合位点信息的代表性SRI:MYC-RiboTAC结合到MYC IRES的内部环、一个噻吩并吡啶衍生物结合到HIV-1 TAR RNA的凸起区域周围、洛蒙真菌素结合到高度结构化的r(CUG)重复扩展的内部环、一个苯并咪唑衍生物二聚体结合到pre-miR-18a的凸起区域、以及6-N-羟基氨基嘌呤结合到鸟嘌呤核糖开关的三向连接处。SMRTnet在这些相互作用上达到了0.793的平均auROC。我们通过计算梯度信号与实验确定的结合位点邻近度之间的Pearson相关系数(r)来进一步检查预测结合位点与实验确定的结合位点匹配的精确度。我们发现SMRTnet预测的HAR与所有这些位点紧密匹配(r值分别为0.550, 0.783, 0.214, 0.322 和 0.527)。这些发现共同凸显了SMRTnet在不同RNA结构中识别小分子结合位点的精确性。
SMRTnet预测结合疾病相关RNA靶点的化合物
我们应用SMRTnet筛选能够结合十种疾病相关RNA靶点的化合物,使用一个包含7,350个天然产物和代谢物化合物的精选库。除了MYC IRES,这些RNA靶点还包括在多种癌症中过表达的前体miR-155、抑制肿瘤和转移抑制剂的HOTAIR螺旋7、病毒复制关键决定因子HIV-1 Rev反应元件(RRE)IIB元件、引起亨廷顿病的HTT基因CAG重复扩展,以及SARS-CoV-2 5'非翻译区中的五个其他RNA结构元件:茎环1(SL1)、参与病毒复制的SL2/3、与亚基因组RNA合成相关的SL4、以及涉及病毒包装的SL5a和SL5b。
对于每个RNA靶点,我们使用SMRTnet预测了所有7,350个化合物的结合得分。然后根据结合得分(同时要求得分高于分类阈值0.704)为每个靶点选择前20个化合物, resulting in 190个预测的SRI用于实验验证。我们主要使用微量热泳动(MST)的结合检查模式,并结合SDS变性测试(SD-test)来验证可能干扰MST测量的固有荧光化合物。在190个预测的SRI中,有40个被实验验证,平均验证率为21.1%。每个靶点也显示出独特的已验证结合物谱,强调了SMRTnet辨别RNA结构和配体特异性细微差异的能力。
我们随后使用MST的结合亲和力模式测定了40个已验证SRI的解离常数(Kd),发现大多数SRI表现出微摩尔水平的亲和力,这是RNA靶向药物发现中初始命中物常见的范围。然而,有六个SRI表现出纳摩尔水平的亲和力。这些发现突出了SMRTnet在预测针对多种疾病相关RNA靶点的SRI方面的强大能力,并具有识别高亲和力结合物的潜力。
SMRTnet预测的结合得分与MYC IRES的实验验证相关
致癌转录因子MYC是许多人类癌症的标志,但通常被认为是“不可成药”的。然而,最近的研究表明,靶向位于MYC mRNA 5'非翻译区、负责MYC不依赖帽的翻译的MYC IRES,可能是控制该癌基因的可行策略。为了进一步探索这一点,我们进行了大规模实验验证,从一个包含7,350个化合物的天然产物库中,根据不同的预测结合得分和高化学结构多样性,随机抽样了一个包含376个化合物的子集。
来自该子集库的15个化合物通过MST被验证为MYC IRES的结合物,揭示了预测结合得分与验证率之间存在明显的正相关。具体来说,在0.9-1.0得分范围内的七个预测中有两个(28.6%)被验证为阳性,并且验证率随着结合得分的降低而稳步下降,在0.0-0.1范围内降至0/93(0%)。这些结果表明,SMRTnet能有效优先选择具有高预测得分的真正结合物。此外,对这15个化合物的Tanimoto相似性分析显示结构相似性普遍较低。我们进一步量化了这15个命中物的Kd,发现它们都表现出微摩尔水平的亲和力,且结合亲和力与结合得分之间没有相关性。
SMRTnet识别伊立替康盐酸盐三水合物(IHT)在MYC IRES上的结合位点
在鉴定出的15个MYC IRES结合物中,只有伊立替康盐酸盐三水合物(IHT)符合药物开发潜力的标准,包括理化性质和药物化学特性,如通过ADMETlab 3.0评估所示。为了进一步阐明其与MYC IRES相互作用的分子基础,我们使用SMRTnet预测了IHT的结合位点,HAR分析将相互作用定位到MYC IRES的内部环。这一预测得到了分子对接的进一步证实,分子对接将IHT精确定位在相同的内部环内。
为了验证这个预测的结合位点,我们设计了20个MYC IRES的突变变体,将其分为五类。分析显示,预测结合得分从2×2构型到1×1形式逐渐下降,在完全碱基配对的突变体中得分最低。有趣的是,当从2×2构型改变为3×3形式时,预测结合得分增加。这些预测结合得分的趋势与实验验证率高度一致,证实了IHT在MYC IRES上的结合位点,并强调了SMRTnet结合位点预测的可靠性。
一个MYC IRES靶向化合物抑制MYC表达和细胞增殖
我们检测了IHT与MYC IRES结合在多种癌细胞中的生物学后果。在HeLa细胞中,IHT处理导致MYC mRNA水平降低约56.9%,MYC蛋白水平降低约71.6%,超过了MYC-RiboTAC观察到的效果。此外,在三种已知需要MYC以实现最佳增殖的癌细胞系(HeLa、Jurkat和Raji)中,IHT使细胞增殖减少了19.6-48.4%,并使细胞凋亡增加了56.6-124.2%。再次值得注意的是,IHT对细胞增殖和活力的影响高于MYC-RiboTAC,这与IHT在降低MYC mRNA和蛋白水平方面的影响高于MYC-RiboTAC一致。
我们进一步研究了IHT对HEK293T细胞中MYC IRES荧光素酶报告基因的影响,使用完全碱基配对的MYC IRES作为对照荧光素酶报告基因。与MYC-RiboTAC的效果相似,IHT将MYC IRES报告基因的荧光素酶水平降低了约14.2%,但对对照报告基因没有