基于多源生物特征与混合深度学习架构的RNA N6-甲基腺苷修饰位点精准预测模型m6A-SPP

【字体: 时间:2025年05月30日 来源:International Journal of Biological Macromolecules 7.7

编辑推荐:

  为解决RNA表观遗传修饰中m6A位点预测精度不足的问题,研究人员开发了融合序列特征与理化特性的深度学习模型m6A-SPP。该模型通过DNABERT捕捉长程序列依赖,结合CNN处理局部特征,并整合电子-离子相互作用伪势(EIIP)等三种理化属性,在8种细胞系和3类组织数据中实现超越现有方法的预测性能,为疾病机制研究提供新工具。

  

在生命科学的微观世界里,RNA分子表面的化学修饰如同神秘的密码,其中N6-甲基腺苷(m6A)是最常见的修饰类型之一。这种修饰像"分子开关"一样调控着基因表达、RNA剪接和胚胎发育等关键生命活动,还与癌症、阿尔茨海默病等重大疾病密切相关。然而,传统实验技术如m6A-CLIP(甲基化RNA免疫共沉淀)虽能精确定位修饰位点,却面临成本高、通量低的瓶颈。尽管已有SRAMP等计算模型尝试预测m6A位点,但它们或依赖人工提取特征,或忽视组织特异性,难以全面捕捉RNA序列的复杂规律。

针对这一挑战,中国的研究团队开发了创新性的m6A-SPP深度学习框架。该模型巧妙地将语言模型的全局建模能力与生物物理特性相结合,在《International Journal of Biological Macromolecules》发表的研究中,实现了对m6A修饰位点的精准预测。

研究采用三项关键技术:首先利用预训练模型DNABERT解析RNA序列的语义特征,通过自注意力机制捕捉长程依赖关系;其次构建包含电子-离子相互作用伪势(EIIP)、核苷酸化学属性(NCP)和二核苷酸物理特性(DPP)的理化特征模块;最后采用卷积神经网络(CNN)进行多源特征融合。实验数据来自m6A-Atlas数据库,涵盖HEK293T等8种细胞系和脑、肝、肾3类组织样本。

性能评估指标
通过准确率(ACC)、精确率(PRE)、马修斯相关系数(MCC)等五项指标验证,m6A-SPP在跨细胞类型测试中均显著优于现有方法。例如在HEK293T细胞系中,其F1值达到0.812,比传统机器学习方法SRAMP提高12.3%。

消融实验
移除DNABERT模块使模型在肝组织数据中的召回率(REC)下降19.8%,证实语言模型对长序列模式捕捉的关键作用;而剔除理化特征模块则导致脑组织数据的MCC值降低0.15,显示生物物理特性对模型可解释性的贡献。

组织特异性分析
模型成功识别出不同组织中m6A修饰的偏好性模式,例如在肝脏样本中富集于3'非翻译区(3'UTR),而在神经元组织中更倾向出现在编码序列(CDS)区域。

这项研究的意义在于:首次将Transformer架构与RNA理化特性系统整合,突破传统方法对人工特征的依赖。DNABERT模块通过注意力机制解析的k-mer(k核苷酸片段)特征,与CNN提取的局部模式形成互补,而EIIP等特征则从电子分布层面揭示修饰位点的物理基础。这种多尺度建模策略不仅提升预测精度,更开辟了"序列-结构-功能"联动的分析新思路,为RNA表观遗传学研究提供普适性框架。

值得注意的是,m6A-SPP的跨组织预测能力使其在疾病分子标记物发现中具有独特优势。例如在神经退行性疾病相关基因如MAPT(微管相关蛋白tau)的mRNA中,模型预测的修饰位点与已知调控区域高度重合,暗示其可能参与tau蛋白异常磷酸化的调控过程。未来通过整合单细胞测序数据,该模型有望揭示m6A修饰在细胞异质性中的动态变化规律。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号