
-
生物通官微
陪你抓住生命科技
跳动的脉搏
深度学习与结构上下文分析融合的RNA二级结构预测方法DSRNAFold
【字体: 大 中 小 】 时间:2025年06月19日 来源:Nucleic Acids Research 16.7
编辑推荐:
为解决RNA二级结构预测中数据稀缺和过拟合问题,西北工业大学团队开发了DSRNAFold模型。该研究整合序列与结构上下文信息,采用分阶段学习策略,在伪结识别和化学图谱活性预测中表现优异,为RNA功能研究和药物设计提供了新工具。
RNA分子在细胞中扮演着信使、催化剂和调控因子等多重角色,其复杂的三维构象往往由二级结构决定。传统实验方法如X射线晶体学和冷冻电镜虽能提供高分辨率结构,但存在通量低、成本高等局限。计算预测方法如Zuker算法依赖热力学模型,但难以处理非嵌套的伪结结构。近年来,SPOT-RNA、UFold等深度学习模型虽取得进展,仍面临参数过多、计算效率低等挑战。
西北工业大学的研究团队开发了DSRNAFold模型,通过整合序列表示与结构上下文分析,显著提升了预测精度。该模型采用分阶段学习策略:首先通过深度神经网络将RNA序列转化为位置特异性表征,结合局部加权回归分析碱基配对倾向;随后利用U-Net架构生成配对概率矩阵,并施加最小间距和单碱基配对限制等生物学约束。研究在RNAStralign、ArchiveII等基准数据集测试显示,DSRNAFold的F1分数达0.907,优于现有12种方法,尤其在伪结预测中F1分数达0.279,较传统方法ProbKnot提升25倍。
关键技术包括:1) 基于TS2Vec的随机采样策略构建序列嵌入;2) 融合氢键权重与高斯衰减函数的局部结构分析;3) 结合Dice损失和交叉熵损失的混合优化;4) 从Eterna"Cloud Labs"获取的24轮化学图谱数据验证。
序列表征的判别能力
t-SNE可视化显示,模型能将5S rRNA、16S rRNA按古菌、细菌等进化分支聚类,对tRNA、RNaseP等家族特异性结构的区分度达Spearman相关性ρ=0.860,证实嵌入空间保留了结构特征。
与现有方法比较
在RNAStralign-ArchiveII测试中,DSRNAFold的F1分数(0.907)接近Sincfold(0.923),但伪结预测精度提高11%。对未训练过的Rfam家族序列,其表现与整合热力学的MXfold2相当,证实泛化能力。
伪结预测
在bpRNA构建的测试集TSpdn上,模型对伪结碱基对的召回率达31.8%,显著高于SPOT-RNA(16.8%)。图示显示其能准确预测srp_Brad.spec._CU234118序列中的长程相互作用。
化学图谱反应性
与24轮SHAPE-MaP实验数据的Pearson相关系数均值达0.443,在Round 17最高达0.649,表明模型能有效解析RNA折叠动态。
核糖开关亲和力
对7107个设计的核糖开关,预测MS2衣壳蛋白结合亲和力的相关系数达0.338,验证了其在合成生物学中的应用潜力。
该研究通过深度学习框架突破了传统热力学模型的局限,首次实现不依赖能量参数的全数据驱动预测。模型对复杂结构的解析能力为RNA药物靶点识别和基因调控研究提供了新范式,相关算法已开源并在《Nucleic Acids Research》发表。未来与序列设计工具结合,可加速功能性RNA分子的理性设计。



生物通微信公众号
知名企业招聘