Rprot-Vec：基于深度学习的快速蛋白质结构相似性预测与同源检测新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月11日 来源：BMC Bioinformatics 2.9

编辑推荐：

　　本研究针对蛋白质三维结构数据稀缺（仅0.1%已知）的瓶颈，提出轻量化深度学习模型Rprot-Vec。该模型仅需蛋白质序列即可预测结构相似性TM-score，通过整合ProtT5编码、双向GRU（Bi-GRU）和多尺度CNN，在1.3GB数据集上实现65.3%同源区（TM-score>0.8）准确率，参数量仅7.2M（比TM-vec低59%）。其突破性在于：①首次实现小数据集高效训练；②超越主流TM-vec模型（平均误差0.0561 vs 0.0717）；③开源三大数据集（CATH_TM_score_S/M/L）及代码，为药物重定位和蛋白功能推断提供新工具。

在蛋白质研究领域，三维结构相似性预测是揭示进化关系、推断未知蛋白功能的核心任务。传统方法如DALI、CE和TM-align依赖结构比对，但99.9%的蛋白质缺乏实验结构数据，成为难以逾越的障碍。虽然TM-vec等深度学习模型尝试从序列预测结构相似性，但其庞大参数量（17.3M）和高昂训练成本仍制约应用。更关键的是，现有模型在非相似蛋白区间的预测存在系统性偏差，且缺乏公开数据集阻碍领域发展——这些问题亟需轻量化、高精度解决方案。

东京大学研究生院（日本）与佛罗里达大西洋大学（美国）的研究团队开发出突破性模型Rprot-Vec。该模型仅需蛋白序列即可快速预测结构相似性TM-score，参数量锐减至7.2M，在《BMC Bioinformatics》发表的研究中实现三大创新：首先，首创"ProtT5编码+Bi-GRU全局特征提取+多尺度CNN局部捕获"架构，替代传统Transformer模块；其次，基于US-align工具构建并开源三大数据集（CATH_TM_score_S/M/L），填补领域空白；最终，模型在药物重定位场景成功验证应用价值。

核心方法

特征编码：用ProtT5-XL将氨基酸转化为1024维上下文向量（参数冻结）
特征融合：
- 双向GRU捕获序列长程依赖，辅以注意力机制增强关键位点识别
- 多尺度CNN（核尺寸3/7）并行提取局部片段特征
相似性映射：自适应平均池化+全连接层输出向量，余弦相似度直接映射为TM-score

实验结果

全区间预测性能
- 在TM-score 0-1全区间，Rprot-Vec平均误差0.0561，显著低于TM-vec-local的0.0717
- 参数量仅7.2M（TM-vec的41%），但低误差（<0.05）数据占比提升23%
同源检测关键突破
- 在TM-score>0.8的同源区，准确率达65.3%（TM-vec-local为60.1%）
- 误判率（误差>0.2）降至2.1%，较TM-vec-remote降低63%
超越序列相似性
- 预测TM-score与真实值皮尔逊相关系数达0.965
- 预测误差与序列同一性（Sequence Identity）无相关性（r=-0.096），证明模型捕捉到超越序列的结构特征

应用验证
在DrugBank蛋白药物筛选中，Rprot-Vec快速识别出结构高度相似的药物对DB05311（Ecallantide）与DB06692（Aprotinin）：

两者均通过抑制丝氨酸蛋白酶起效，但作用谱不同
热力图中红域精准定位潜在重定位药物群

结论意义
Rprot-Vec通过三大革新推动领域发展：其一，以轻量化架构（Bi-GRU+CNN）实现TM-score精准预测，同等性能下训练效率提升2.4倍；其二，开源亿级数据集破除领域数据壁垒；其三，在药物重定位场景验证其从序列直接推断结构-功能关系的可行性。该模型将加速未知蛋白功能注释、进化树构建及靶点发现，其应用代码库（https://github.com/SuperZyccc/RProt-vec）已开放，为结构生物信息学提供新范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号