综述:长链非编码RNA结构测定的技术挑战与方法机遇

《Cell & Bioscience》:Challenges and opportunities in technologies and methods for lncRNA structure determination

【字体: 时间:2025年10月04日 来源:Cell & Bioscience 6.1

编辑推荐:

  这篇综述系统性地探讨了长链非编码RNA(lncRNA)结构研究的前沿挑战与新兴机遇。文章指出,尽管已鉴定出约95,000个人源lncRNA基因,但由于RNA固有的动态性、结构异质性及高浓度Mg2+实验条件带来的结构失真,其结构-功能关系研究仍面临瓶颈。作者重点强调了化学探测(如SHAPE、DMS)、冷冻电镜(cryo-EM)及原子力显微镜(AFM)等技术,结合机器学习算法,在解析生理条件下lncRNA构象景观方面的突破性潜力,为基于结构的药物发现和靶向治疗提供了新视角。

背景

与蛋白质相比,RNA由于其独特的化学组成、复杂的结构以及构建单元固有的阴离子特性,为结构生物学家带来了独特的挑战。作为一种聚阴离子聚合物,RNA通过碱基堆积和氢键等稳定相互作用与磷酸基团之间的库仑排斥等斥力之间的微妙平衡,折叠成复杂的三维结构。每个核苷酸贡献11个具有相当大旋转自由度的扭转角,这是RNA分子整体灵活性的起源。因此,较长的RNA链拥有更多的扭转自由度,导致构象变异性增加。一个含有内部凸起的小型29核苷酸RNA发夹中观察到的广泛灵活性生动地说明了RNA的灵活性。人们可以很容易地将这种现象外推到更大的RNA分子,包括长链非编码RNA(lncRNAs),本文的重点是通过强调RNA的构象异质性给结构测定带来的挑战以及它为增进我们对RNA结构和功能理解所带来的机遇。
X失活特异转录本(XIST),负责雌性哺乳动物的X染色体失活,是1991年最早鉴定的长链非编码RNA(lncRNAs)之一。随后的研究目前已在人类基因组中编录了大约95,000个lncRNA基因,这个数量超过了蛋白质编码基因的总数(<20,000)四倍多。在这些人类表达的lncRNA中,大约有1900个在灵长类物种中是保守的。lncRNA发挥广泛的调控功能,影响基因表达、染色质重塑、RNA稳定性和降解、RNA诱饵和支架机制、细胞周期调控和凋亡、核组织和动力学以及细胞发育和分化。这些例子强调了lncRNA在生物系统中的关键作用。尽管lncRNA研究取得了实质性进展,该领域仍然是RNA生物学中一个新兴的前沿,仍然存在显著的知识空白。特别是,结构-功能关系以及lncRNA调控机制的结构基础仍然难以捉摸,对阐明它们在细胞过程中复杂的角色和相互作用构成了相当大的挑战。几篇权威的综述先前已经讨论过lncRNA结构测定。这篇简短的综述聚焦于lncRNA结构测定当前的挑战和新兴的机遇,结合了近期方法学和技术进展及其影响。

二级结构景观

除了作为潜在功能和活动的指标外,lncRNA的二级结构及其理解是基础性的,因为它们为三维结构测定的构建设计提供信息,并且对于使用计算方法进行准确的三维结构预测至关重要。此外,它揭示了进化上保守且具有功能意义的结构 motif。二级结构通过许多实验技术、计算工具或结合两者的整合方法进行绘制。实验方法包括体外SHAPE(选择性2'-羟基酰化分析)、DMS(硫酸二甲酯)探测、Structure-Seq、SHAPE-Seq和DMS-MaPseq。这些高通量混合方法将化学探测与下一代测序相结合,以在转录组范围内(体外和活细胞内)实现核苷酸分辨率的结构洞察。与所有实验方法一样,这些技术存在固有的局限性。对高度结构化RNA的SHAPE导向分析显示出17%的假阴性率、21%的假阳性率,并且在某些区域置信度低于50%,这是由于SHAPE数据信息量不足、数据处理和归一化的限制以及螺旋区域的灵活性。值得注意的是,这些数据可能已经过时,因为近年来没有发布重大的更新。错误也可能源于对可及性数据的误解,其基于单一或有限构象的假设,而RNA可能表现出异质性折叠或动态探索广阔的构象景观。
与其他RNA类别类似,lncRNA包含多种结构元件——包括螺旋、末端和内部环、连接处、假结、三链体和G-四链体——它们折叠成独特的三维结构。转录后修饰可能进一步使lncRNA构象多样化,调节它们与结合伙伴的相互作用,并增加其结构-功能动态的复杂性。全基因组二级结构作图已经确定lncRNA是高度结构化的,其中许多被组织成具有重复结构 motif 的结构域,其结构复杂性与结构良好的RNA(如RNase P RNA和内含子)相当。
来自不同生物体的不到二十种lncRNA的二级结构已被实验绘制。这些包括类固醇受体RNA激活剂(SRA)、X失活特异转录本(XIST)、转移相关肺腺癌转录本1(MALAT1)、Hox反义基因间RNA(HOTAIR)、核富集丰富转录本1(NEAT1)、X上的RNA1和2(ROX1/ROX2)、Braveheart、COOLAIR、SPRIGHTLY、SRA样非编码RNA、P21、母源表达基因3(MEG3)、多聚腺苷酸化核RNA、NORAD#1-3、CRYANO、RepA和PAN。这些lncRNA的大小范围从0.4 kb(COOLAIR和SRA样非编码RNA)到17 kb(XIST)。全基因组作图表明lncRNA是高度结构化的,其结构复杂性超过mRNA,但不及核糖体RNA。一些作图还识别了蛋白质-RNA相互作用区域,强调了对这些界面进行三维结构测定的必要性。在SRA、XIST、MEG3和HOTAIR中鉴定出的假结可能在lncRNA中更为普遍。实验和理论证据都表明假结形成是RNA折叠、稳定性和功能的关键决定因素。假结在大型催化RNA、核糖开关和病毒调控元件的功能关键 motif 中比例过高。然而,当前的实验方法难以检测假结,这是长程二级结构相互作用的显著特征。在假结中,序列一个部分的环与初级序列中另一个遥远区域形成碱基对。当前方法在检测其他类型的长程相互作用方面也面临挑战。这个限制主要源于这些技术依赖于局部信号,那里的化学环境更干净,信号重叠低,空间冲突最小。
最近,人工智能模型已经出现在RNA二级结构预测中,旨在减少对主要关注最小化自由能的传统热力学模型的依赖。初步研究显示在克服经典方法面临的一些挑战方面取得了显著改进,特别是在预测更复杂的相互作用方面,如非经典碱基配对。然而,这些基于人工智能的方法在预测长RNA序列的结构时仍然存在不足。几个因素可能导致这种限制,包括可用于训练模型的相对较小的数据集、某些AI架构的潜在不足,或RNA折叠本身固有的复杂性和变异性。因此,实验方法受到来自异质样品数据的挑战,例如在生理相关的低Mg2+溶液中或体内,而计算方法则受限于数据稀缺、过拟合和模型复杂性,尽管最近在高通量测序结合改进分辨率的探测方面取得了进展。结合两种方法可能是一条可行的前进道路。
总体而言,缺乏证据表明涉及5'端和3'端的长程相互作用——这在大型良好折叠的RNA(如rRNA、I组和II组内含子以及RNase P RNA)中很常见。这可能是由于当前作图技术和计算算法在检测此类长程相互作用方面存在局限性。另一方面,这可能表明lncRNA主要由通过单链区域连接的模块化结构域组成,类似于串上的珠子。

三维结构

三维结构数据对于阐明生物大分子(包括lncRNA)的功能是不可或缺的,因为它们的生物学作用与其分子结构密切相关。结构域、结构元件和关键残基的空间排列控制着lncRNA与蛋白质、肽、DNA和其他RNA的相互作用,是它们对细胞过程功能贡献的基础。这样的三维洞察对于描绘相互作用界面至关重要,这对于理解多组分系统中的调控机制和功能特异性至关重要。例如,lncRNA可以作为支架,在特定基因组位点组织组蛋白修饰子和DNA甲基转移酶的组装以进行表观遗传调控,其空间构型和蛋白质相互作用决定了染色质的结合。此外,lncRNA经历表观遗传修饰,如m6A和m5C,从而发生构象变化,增强或抑制与表观遗传酶的结合。例如,XIST的m6A修饰通过采用紧凑构象,在X染色体失活过程中增强其与染色质重塑子的相互作用。此外,三维结构数据对于基于结构的药物发现和开发至关重要,揭示了精确的相互作用界面和可靶向区域,这些对于破坏疾病相关的lncRNA与生物大分子的相互作用或指导反义寡核苷酸设计至关重要。潜在靶点包括支架表观遗传复合物的lncRNA、指导DNA甲基化和组蛋白修饰,或癌症中的致癌lncRNA结构 motif。迄今为止,只有极少数lncRNA结构元件的高分辨率三维结构被实验确定,例如MALAT1中的一个三螺旋 motif。这种新颖的结构元件被认为能赋予稳定性。
与蛋白质和其他RNA类型相比,lncRNA或其结构元件的实验确定的三维结构仍然很少。最近采用低分辨率方法的努力取得了一些进展。RepA的化学探测、协变分析和UV交联数据表明它包含三个独立折叠的结构域,具有三级长程相互作用,提出了一个两个相互作用的子结构的初始结构模型。通过小角X射线散射(SAXS)和化学探测分析的Braveheart lncRNA,在升高的Mg2+浓度下表现出结构化的灵活性和压缩,并在结合蛋白质CNBP时发生结构重塑。直接可视化技术,如原子力显微镜结合二级结构化学探测,也已用于表征lncRNA三维结构。

挑战与机遇

计算方法和实验策略都已应用于RNA结构建模和测定。计算努力在第一个tRNA晶体结构报道近四年后出现,第一个RNA三维结构预测于1991年发表。最近的进展,特别是在蛋白质结构预测成功之后结合机器学习和深度学习的进展,显著推动了该领域的发展。然而,RNA结构预测是否能使用类似方法达到与蛋白质预测同等的水平仍不确定。虽然目前对小型RNA(<100核苷酸)进行合理准确的三维预测是可行的,但它们远远落后于蛋白质预测能力。几个因素告诫不要对使用蛋白质启发策略进行RNA三维结构预测过度乐观:(1)缺乏高质量、非冗余的RNA结构限制了深度学习应用;(2)与蛋白质不同,RNA缺乏清晰的序列到三维结构相关性;(3)单个RNA序列的多种构象,尤其是在生理Mg2+浓度下,使单结构预测复杂化;以及(4)RNA结构数据库未能捕捉完整的构象空间,通常反映非生理的Mg2+浓度(例如,数百mM),扭曲了结构表征。这些挑战引导本综述聚焦于实验方法及其机遇。

普遍挑战

全长lncRNA的三维结构尚未解析。它们的大尺寸——通常为千碱基或数万碱基——使得像NMR光谱这样的技术不切实际。此外,它们的构象异质性和灵活性对X射线晶体学和冷冻电子显微镜(cryo-EM)等方法构成了挑战。为了理解这些困难,有必要考虑RNA分子的一些基本性质及其溶液行为。
自1958年第一个蛋白质结构被阐明以来,单一初级序列在疏水相互作用和有限二级元件(如α-螺旋、β-折叠)驱动下折叠成确定的二级和三级结构的范式主导了蛋白质科学。然而,RNA在其化学和结构特性上显著不同,使实验和计算结构测定复杂化。RNA由四种核苷酸类型组成,具有统一的糖磷酸骨架,仅在碱基(腺嘌呤、鸟嘌呤、胞嘧啶、尿嘧啶)上不同,与蛋白质的二十种氨基酸形成对比。这种有限的多样性导致结构上不同的碱基配对排列具有相似的热力学稳定性(简并性),因为来自四个碱基的较少最近邻组合决定了跨构型的自由能。由这些碱基形成的结构 motif(例如,凸起、环、连接处)表现出最小的能量差异(例如,U-rich或A-rich环),阻碍了基于稳定能量的基于序列的三维预测。糖磷酸骨架在扭转角上的高旋转自由度有助于构象异质性和灵活性,降低构象体之间的能垒,并实现动态采样,这对功能至关重要。共存构象体之间的相互转换是准等能的,产生最小的能量损失。此外,亲水、带负电荷的骨架影响折叠和灵活性,响应离子条件,并采用延伸的动态构象以最小化磷酸基团之间的排斥力。总之,这些因素限制了依赖于信号平均的常规方法在lncRNA结构测定中的效用。
除了单个残基,RNA由多种依赖经典和非经典碱基配对的结构元件组成。折叠的RNA结构仅是亚稳态的,平衡碱基堆积、弱氢键和长程相互作用与带负电磷酸基团的库仑排斥。整个骨架和糖苷键周围的高度自由度产生的灵活性使这些结构易受环境变化(例如,温度、离子强度、pH)或结合配体、蛋白质、DNA或其他RNA时诱导契合触发的构象波动的影响。
总之,RNA的化学组成和结构排列是其动态行为和崎岖能量景观的化学和结构基础,具有许多近简并态共存。构象之间小的自由能差异允许多个共存构象体,在生理相关溶液中通过准等能过程(QIEP)相互转换,使RNA——尤其是在生理Mg2+浓度下——比蛋白质灵活和异质得多,甚至在人为升高的Mg2+浓度下也是如此。这种构象灵活性由最简单的RNA之一例证,即含有两个残基内部凸起的HIV Tar RNA的29-nt发夹,或大到417-nt的RNase P RNA。
Mg2+在RNA结构和构象动力学中的关键作用,特别是其对RNA结构测定的影响及随后的影响,值得详细讨论。RNA折叠和构象状态对离子环境高度敏感,Mg2+作为关键的二价离子用于折叠和稳定,同时其对催化和底物结合也有贡献。Mg2+与RNA的磷酸基团相互作用,减弱相邻负电荷之间的库仑静电排斥,并加强稳定和紧凑的结构。具体来说,Mg2+通过中和RNA骨架上的负电荷,对于维持亚稳态RNA结构至关重要,从而能够形成稳定和紧凑的结构。生理Mg2+浓度约为1 mM。Mg2+浓度的细微扰动会影响RNA的构象景观,这种敏感性在蛋白质中不太明显。因此,RNA结构测定通常依赖于升高的Mg2+水平,这部分是由于RNA结构固有的动态和异质性质。这种必要性支撑了大多数RNA结构在非生理Mg2+浓度下(高达500 mM)的测定。
现在我们转向当前方法学固有的技术限制,主要是核磁共振(NMR)、X射线晶体学和冷冻电子显微镜(cryo-EM)。NMR在阐明较小RNA片段的结构和动力学方面表现出色,但不适用于大的、千碱基规模的RNA,如lncRNA。相反,晶体学和cryo-EM受到检测弱X射线或电子信号的物理限制。晶体学需要来自数百万有序晶格的布拉格相干衍射,即使使用最先进的X射线自由电子激光(XFELs),而cryo-EM需要数万个颗粒进行稳健的体积重建。因此,两种方法都依赖于样品内 substantial 的构象均匀性。正如前面强调的,RNA表现出显著的动力性和异质性——特别是在生理相关的Mg2+浓度下——即使是结构良好的形式也是如此。因此,这些技术仅限于检查在升高的Mg2+浓度下稳定的相对均匀的样品。在这些非生理条件下捕获的结构,仅提供了最紧凑和最稳定构象体的快照。应该提到的是,这些结构与生理天然构象景观有很大不同,尽管在当代文献中经常被指定为“天然”状态。从根本上说,它们只代表静态描述,无法捕捉RNA在溶液中广泛的构象多样性,因为几项开创性研究已经揭示RNA结构比单构象体所能描述的动态和异质得多。

lncRNA特有的挑战

在解决长链非编码RNA(lncRNA)结构问题时,RNA结构生物学领域面临几个独特且重大的挑战,需要重大进展来克服这些障碍:(1)复杂性和大尺寸;(2)构象异质性;(3)缺乏关于不同结构域和模块之间长程相互作用的实验信息;(4)功能意义理解有限;(5)序列保守性低;前三个与结构测定直接相关。最主要的挑战——即它们的大尺寸和构象变异性——限制了已知常规策略和标准结构生物学工具用于结构测定的可行性。特别是,它们倾向于采用灵活的构象集合使得分离代表性状态变得复杂。确实,lncRNA被假定为动态和异质的结构群体,而不是很少的离散稳定折叠结构。克服这些障碍需要革命性的新思维和技术的变革性进步,以及能够解析单个构象体三维构型的方法,最好是在关于Mg2+浓度的生理相关条件下。

新进展与希望

冷冻电子显微镜(cryo-EM)已成为阐明稳定折叠蛋白质和RNA分子三维结构的强大工具。此外,最近在cryo-EM数据处理方面的进展,特别是对于构象动态系统,可能为捕获异质构象体的高分辨率结构快照提供有希望的途径。构象异质性可能源于连续运动和离散采样。cryo-EM分析工具正在逐步改进,特别是使用机器学习的新发展。对于离散和离散采样,可以使用从头重建生成3D模型,通过迭代对齐和分类过程解析数据集为离散构象类别。对于具有共识模型的异质构象体,可以实现3D分类,驱动分析以对数据中的不同构象体进行分类。此外,可以通过应用基于最大似然或贝叶斯推理的混合优化算法、无监督机器学习(如广泛使用的软件包RELION或cryoSPARC中实现的)进行分析。对于连续运动(主要挑战之一),像3D变异性分析(3DVA)或深度学习方法(如CryoDRGN和3D柔性细化(3DFlex)(3DVA和3D Flex在cryoSPARC包内)能够从数据中提取连续构象状态谱。然而,这些技术的有效性主要在用大型蛋白质复合物的情况下得到证明,其中颗粒对齐和分类相对简单。这些方法对大型RNA分子的适用性,其中几乎每个部分的结构都是灵活和异质的,因此呈现出显著的对齐挑战,仍有待最终证明。最终,任何基于信号平均的方法固有的更深刻挑战是,需要足够多的RNA构象体子集采用相同的构象,以实现稳健的体积重建,并且对于大型和复杂的RNA(如lncRNA)来说,这几乎成为一个棘手的问题。这种在众多构象体子集中的同质性可能需要在升高的Mg2+浓度下实现,但代价是捕捉真实的构象景观。
RNA的高度构象异质性需要在溶液中直接检查单个分子。
原子力显微镜(AFM)的最新发展使得能够进行这种直接可视化,具有几个明显的优势。它是一种真正的单分子方法,图像在真实空间中记录,不需要系综平均,这对于研究高度异质的构象体特别有用。与像cryo-EM这样的技术(对数千个颗粒的数据进行平均)不同,AFM可以被视为一种“霰弹枪”方法,通过可视化单个分子并捕获离散和连续构象,而无需平均。AFM图像数据在接近生理相关条件下记录,以捕捉RNA的真实溶液行为,而不是在升高的Mg2+浓度下。它检测离散和连续的构象变化。AFM实验只需要微升体积的纳摩尔浓度;并且分子可以在没有任何操作(例如,标记、冷冻、染色或结晶)的情况下观察。因此,溶液AFM方法非常适合在近天然条件下研究高度异质的分子系统。
AFM的有用性通过最近对腺苷钴胺素核糖开关适体域的研究得到证明。该RNA在500 mM Mg2+中确定的晶体结构显示出一个紧凑的结构。相比之下,在1 mM Mg2+溶液中的直接可视化显示该RNA采用多种构象和架构结构。通过颗粒分析评估的这种构象群体多样性得到了小角X射线散射(SAXS)和等温滴定量热法数据的证实。该研究还揭示,RNA多聚化源于特定相互作用——如接吻环和四环-小沟对接——而不是非特异性力(如随机碱基配对或静电效应),如果没有直接视觉证据,人们可能会怀疑这些非特异性力。然而,给定AFM颗粒图像的低分辨率(~13 ?)性质,确定异质RNA的明确结构并具有准确度估计仍然是一个未满足的重大挑战。这个问题在下一个进展中得到解决,其中使用无监督机器学习和深度神经网络(在程序HORNET中实现)从AFM颗粒图像确定构象体的单个RNA拓扑结构。应用原子力显微镜的高信噪比(SNR),该方法非常适合捕获处于不同构象的单个RNA分子结构,并且结构的准确度估计在3到6 ?之间,取决于计算迭代的次数。其能力通过对RNase P RNA和HIV-1 Rev响应元件(RRE)RNA的异质结构分析得到证明。通过绕过信号平均的需要——其他技术固有的限制——这种方法在阐明大型、柔性RNA分子结构方面标志着一个突破。
HORNET从单个RNA构象体的AFM图像推导拓扑结构的能力代表了在阐明RNA largely unexplored的三维构象空间方面的变革性进步,远远超过现有数据库中有限的静态结构。HORNET的效用立即在背靠背发表的第二篇论文中得到证明,其中报道了RNase P RNA在1 mM Mg2+中的完整构象空间映射。嗜热地芽孢杆菌(Gst)RNase P RNA是417-nt的反式作用核酶。Lee等人的研究表明,Gst-RNase P RNA表现出显著的灵活性和构象异质性,其外围结构元件在多个方向上以20-60 ?的幅度采样广泛的构型。值得注意的是,这种广泛的构象采样仅需最小的能量成本,这种现象被称为“准等能”运动。
尽管其超过85%的结构存在这种动态灵活性,Gst-RNase P RNA保留了一个约50个核苷酸的构象不变核心。与所有三界生物中的RNase P RNA的结构比较揭示,这种不变的核心结构严格保守,这一发现与其在容纳催化中心和辅助蛋白结合表面的关键作用一致。进一步分析揭示了空间灵活性和序列保守性之间的显著相关和反相关,表明初级序列固有地编码了关键区域的结构和动力学的功能角色。这些见解共同阐明了结构-动力学相互作用,使Gst-RNase P的RNA成分能够执行精确的酶活性和对不同底物的适应性。
使用HORNET映射构象空间展示了一种研究RNA结构和动力学的新通用方法。基于二级结构判断,417-nt的Gst-RNase P RNA与许多lncRNA中发现的结构域一样复杂,如果不是更复杂的话。由于许多lncRNA的二级结构已被实验确定,我们期望HORNET将被用于绘制溶液中lncRNA的全局和模块结构。

结论

RNA结构测定的未来有望通过尖端技术(如机器学习和原子力显微镜(AFM))的整合取得显著进展。深度学习算法正在迅速增强其预测RNA结构的能力,对相对较小的RNA具有更高的准确性。然而,纯计算方法是否能有效解决构象异质性和动态灵活性带来的挑战仍有待证明。这些AI算法处理大量数据集并综合多种信息源(包括实验数据)的能力,对于解析RNA折叠和分子间相互作用的复杂细节具有重要前景,这些细节历来难以精确表征。因此,AFM可能成为研究RNA动力学在单分子水平的独特强大工具,提供构象转变和结构变异性的高分辨率实时测量。其在不同环境中可视化RNA分子的能力可能实现对它们灵活性和适应性反应的全面检查,从而产生对其功能角色的关键洞察。随着这些技术的不断发展,它们有望极大地丰富我们对大型和柔性RNA(如lncRNA)结构复杂性的理解,并最终为靶向RNA的治疗应用提供更有效的策略。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号