Rprot-Vec:基于深度学习的快速蛋白质结构相似性预测与同源检测新方法

【字体: 时间:2025年07月11日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对蛋白质三维结构数据稀缺(仅0.1%已知)的瓶颈,提出轻量化深度学习模型Rprot-Vec。该模型仅需蛋白质序列即可预测结构相似性TM-score,通过整合ProtT5编码、双向GRU(Bi-GRU)和多尺度CNN,在1.3GB数据集上实现65.3%同源区(TM-score>0.8)准确率,参数量仅7.2M(比TM-vec低59%)。其突破性在于:①首次实现小数据集高效训练;②超越主流TM-vec模型(平均误差0.0561 vs 0.0717);③开源三大数据集(CATH_TM_score_S/M/L)及代码,为药物重定位和蛋白功能推断提供新工具。

  

在蛋白质研究领域,三维结构相似性预测是揭示进化关系、推断未知蛋白功能的核心任务。传统方法如DALI、CE和TM-align依赖结构比对,但99.9%的蛋白质缺乏实验结构数据,成为难以逾越的障碍。虽然TM-vec等深度学习模型尝试从序列预测结构相似性,但其庞大参数量(17.3M)和高昂训练成本仍制约应用。更关键的是,现有模型在非相似蛋白区间的预测存在系统性偏差,且缺乏公开数据集阻碍领域发展——这些问题亟需轻量化、高精度解决方案。

东京大学研究生院(日本)与佛罗里达大西洋大学(美国)的研究团队开发出突破性模型Rprot-Vec。该模型仅需蛋白序列即可快速预测结构相似性TM-score,参数量锐减至7.2M,在《BMC Bioinformatics》发表的研究中实现三大创新:首先,首创"ProtT5编码+Bi-GRU全局特征提取+多尺度CNN局部捕获"架构,替代传统Transformer模块;其次,基于US-align工具构建并开源三大数据集(CATH_TM_score_S/M/L),填补领域空白;最终,模型在药物重定位场景成功验证应用价值。

核心方法

  1. 特征编码:用ProtT5-XL将氨基酸转化为1024维上下文向量(参数冻结)
  2. 特征融合
    • 双向GRU捕获序列长程依赖,辅以注意力机制增强关键位点识别
    • 多尺度CNN(核尺寸3/7)并行提取局部片段特征
  3. 相似性映射:自适应平均池化+全连接层输出向量,余弦相似度直接映射为TM-score

实验结果

  1. 全区间预测性能

    • 在TM-score 0-1全区间,Rprot-Vec平均误差0.0561,显著低于TM-vec-local的0.0717
    • 参数量仅7.2M(TM-vec的41%),但低误差(<0.05)数据占比提升23%
  2. 同源检测关键突破

    • 在TM-score>0.8的同源区,准确率达65.3%(TM-vec-local为60.1%)
    • 误判率(误差>0.2)降至2.1%,较TM-vec-remote降低63%
  3. 超越序列相似性

    • 预测TM-score与真实值皮尔逊相关系数达0.965
    • 预测误差与序列同一性(Sequence Identity)无相关性(r=-0.096),证明模型捕捉到超越序列的结构特征

应用验证
在DrugBank蛋白药物筛选中,Rprot-Vec快速识别出结构高度相似的药物对DB05311(Ecallantide)与DB06692(Aprotinin):

  • 两者均通过抑制丝氨酸蛋白酶起效,但作用谱不同
  • 热力图中红域精准定位潜在重定位药物群

结论意义
Rprot-Vec通过三大革新推动领域发展:其一,以轻量化架构(Bi-GRU+CNN)实现TM-score精准预测,同等性能下训练效率提升2.4倍;其二,开源亿级数据集破除领域数据壁垒;其三,在药物重定位场景验证其从序列直接推断结构-功能关系的可行性。该模型将加速未知蛋白功能注释、进化树构建及靶点发现,其应用代码库(https://github.com/SuperZyccc/RProt-vec)已开放,为结构生物信息学提供新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号