
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Gibbs采样的RNA双链体动态建模显著提升碱基对预测精度并揭示结构活性特征
【字体: 大 中 小 】 时间:2025年07月19日 来源:NAR Genomics and Bioinformatics 4.0
编辑推荐:
本研究针对RNA二级结构预测中非经典碱基对和动态相互作用的关键难题,开发了MC-DuplexFold(mcdf)算法。通过Gibbs采样模拟RNA:RNA相互作用中碱基对的随机形成与解离过程,该方法不仅将碱基对预测准确率提升至94.3%,还能识别miRNA成熟效率调控位点和靶标结合动力学参数,为RNA干扰机制研究提供了全新计算工具。
在生命活动的分子舞台上,RNA分子如同灵动的舞者,其复杂多变的二级结构决定着基因调控的节奏。然而现有的RNA结构预测方法面临两大困境:一方面难以准确预测非经典碱基对(noncanonical base pairs),另一方面对RNA双链体动态相互作用的刻画严重不足。这些问题直接制约着对microRNA(miRNA)成熟过程及其靶标识别机制的理解——这些过程在癌症发生发展中扮演着关键角色。
蒙特利尔大学计算机科学与运筹学系的研究团队在《NAR Genomics and Bioinformatics》发表创新性研究,开发了MC-DuplexFold(mcdf)算法。该方法突破性地将统计物理学中的Ising模型思想引入RNA结构预测,通过Gibbs采样模拟碱基对的动态形成过程,不仅显著提升预测精度,更能捕捉传统方法无法检测的结构动态特征。这项研究为解析RNA干扰(RNAi)的分子机制提供了全新视角。
研究采用三大关键技术:1)基于PDB数据库的531个RNA结构训练能量参数;2)开发Gibbs采样算法模拟碱基对动态变化,每次迭代选择候选碱基对并根据MC-Fold能量参数计算形成概率;3)构建包含154个训练集和162个测试集的非冗余RNA双链体数据集进行基准测试。特别值得注意的是,研究采用模拟退火策略,将温度参数RT从初始值3逐步降至1/3,有效平衡探索与开发的矛盾。
【基准测试结果】
在包含200个测试双链体的评估中,mcdf展现出94.1%的全局精确度和94.5%的召回率,显著优于RNAcofold等传统方法。当仅考虑经典碱基对时,其性能进一步提升至96.8%精确度和96.3%召回率。研究还发现启发式方法如RIsearch(96.9%精确度)表现优于精确算法,暗示热力学模型的不完善使精确优化失去必要性。
【结构动态分析】
研究团队将mcdf应用于miR-34a:Sirt1双链体系统,成功识别出存在12.4%概率的激发态构象,与NMR实验观测到的"单碱基对滑动"现象高度吻合。这种构象动态变化可能通过改变Argonaute蛋白的helix-7构象影响RISC复合体的靶标识别效率。
【功能预测应用】
在miR-125a成熟效率预测中,基于mcdf产生的结构转换频率(f)和构象熵(e)构建的回归模型,对体内实验数据达到优异的相关性(R2=0.75)。相比之下,这些参数对体外数据预测能力较弱(R2=0.20),揭示体内外实验条件的本质差异。
【讨论与展望】
这项研究实现了三大突破:1)首次将Ising模型思想成功应用于RNA结构预测;2)开发出能同时处理经典和非经典碱基对的动态采样算法;3)证明结构动态参数可有效预测生物学功能。值得注意的是,mcdf的独特优势在于能修正其他算法的假阳性预测——当以RIsearch结果初始化时,可使全局精确度从96.2%提升至97.8%。
局限在于算法对长序列(<100nt)的计算效率仍有提升空间,且不适用于RNA相互作用位点的初始预测。未来工作可整合化学探针数据提升精度,或扩展至RNA-蛋白质复合物体系。这项研究为理解RNA调控的动态本质提供了全新工具,对RNA药物设计和基因治疗具有重要启示。
生物通微信公众号
知名企业招聘