
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Rprot-Vec:基于深度学习的快速蛋白质结构相似性预测与同源检测新方法
【字体: 大 中 小 】 时间:2025年07月11日 来源:BMC Bioinformatics 2.9
编辑推荐:
本研究针对蛋白质三维结构数据稀缺(仅0.1%已知)的瓶颈,提出轻量化深度学习模型Rprot-Vec。该模型仅需蛋白质序列即可预测结构相似性TM-score,通过整合ProtT5编码、双向GRU(Bi-GRU)和多尺度CNN,在1.3GB数据集上实现65.3%同源区(TM-score>0.8)准确率,参数量仅7.2M(比TM-vec低59%)。其突破性在于:①首次实现小数据集高效训练;②超越主流TM-vec模型(平均误差0.0561 vs 0.0717);③开源三大数据集(CATH_TM_score_S/M/L)及代码,为药物重定位和蛋白功能推断提供新工具。
在蛋白质研究领域,三维结构相似性预测是揭示进化关系、推断未知蛋白功能的核心任务。传统方法如DALI、CE和TM-align依赖结构比对,但99.9%的蛋白质缺乏实验结构数据,成为难以逾越的障碍。虽然TM-vec等深度学习模型尝试从序列预测结构相似性,但其庞大参数量(17.3M)和高昂训练成本仍制约应用。更关键的是,现有模型在非相似蛋白区间的预测存在系统性偏差,且缺乏公开数据集阻碍领域发展——这些问题亟需轻量化、高精度解决方案。
东京大学研究生院(日本)与佛罗里达大西洋大学(美国)的研究团队开发出突破性模型Rprot-Vec。该模型仅需蛋白序列即可快速预测结构相似性TM-score,参数量锐减至7.2M,在《BMC Bioinformatics》发表的研究中实现三大创新:首先,首创"ProtT5编码+Bi-GRU全局特征提取+多尺度CNN局部捕获"架构,替代传统Transformer模块;其次,基于US-align工具构建并开源三大数据集(CATH_TM_score_S/M/L),填补领域空白;最终,模型在药物重定位场景成功验证应用价值。
核心方法


实验结果
全区间预测性能

同源检测关键突破

超越序列相似性

应用验证
在DrugBank蛋白药物筛选中,Rprot-Vec快速识别出结构高度相似的药物对DB05311(Ecallantide)与DB06692(Aprotinin):

结论意义
Rprot-Vec通过三大革新推动领域发展:其一,以轻量化架构(Bi-GRU+CNN)实现TM-score精准预测,同等性能下训练效率提升2.4倍;其二,开源亿级数据集破除领域数据壁垒;其三,在药物重定位场景验证其从序列直接推断结构-功能关系的可行性。该模型将加速未知蛋白功能注释、进化树构建及靶点发现,其应用代码库(https://github.com/SuperZyccc/RProt-vec)已开放,为结构生物信息学提供新范式。
生物通微信公众号
知名企业招聘