DeepHVI:基于多模态深度学习和蛋白质语言模型的人-病毒蛋白互作预测新框架

【字体: 时间:2025年07月16日 来源:Biosafety and Health 3.5

编辑推荐:

  为解决人-病毒蛋白互作(HV-PPI)预测中数据稀缺和模型泛化性不足的问题,研究人员开发了多模态深度学习框架DeepHVI。该研究整合ESM-2/LucaProt蛋白质语言模型(pLMs)与AAindex理化特征,通过跨模态融合实现SARS-CoV-2等病毒与人类蛋白互作的精准预测(AUC=0.88),并创新性开发条件序列生成任务,成功预测出IL17RA、PSMA4等关键互作蛋白,为抗病毒靶点发现提供了高效计算工具。

  

病毒与宿主的博弈从来都是分子水平的"间谍战"——病毒蛋白如同特工般劫持人类细胞机器,而宿主则不断进化防御机制。这场持续数亿年的战争中,新冠病毒(SARS-CoV-2)等病原体通过蛋白-蛋白相互作用(PPI)实现免疫逃逸和高效复制,但现有实验方法耗时费力,传统计算方法又难以捕捉病毒蛋白的结构动态性。更棘手的是,新发传染病暴发时,科学家往往面对大量功能未知的病毒蛋白,犹如在黑暗中摸索开关。

针对这些挑战,中国科学院上海营养与健康研究所的研究团队在《Biosafety and Health》发表研究,开发出名为DeepHVI的多模态深度学习框架。该研究创新性地将蛋白质语言模型与理化特征融合,不仅实现高精度互作预测,更能直接"设计"潜在互作伙伴,为破解病毒入侵密码提供了智能钥匙。

研究采用三大关键技术:1) 从UniProt和HVIDB数据库构建含45,427对阳性样本的HV-PPI数据集;2) 使用ESM-2和病毒特异的LucaProt模型提取序列特征,结合AAindex编码理化属性;3) 通过TMO-Net空间对齐框架实现跨模态特征融合,同步开发二元分类和条件生成任务。特别设计的相似性过滤机制确保生成蛋白均为天然序列,符合生物安全规范。

特征提取

t-SNE可视化显示,融合后的特征空间区分度显著提升(轮廓系数从0.4839增至0.539)。比较ESM-2-ESM2与ESM-2-LucaProt两种配置,发现病毒专用模型能更好捕捉RNA病毒蛋白的特殊性。

二元分类预测

在测试集上达到81.07%准确率(F1=0.7698),显著优于D-Script等基准模型。关键优势体现在7.6-20.34%的精度提升,大幅降低假阳性带来的验证成本。消融实验证实,去除多模态融合模块会导致性能下降9.92-18.86%。

条件序列生成

生成的候选蛋白与真实互作蛋白余弦相似度达0.788±0.006(人类蛋白)和0.771±0.008(病毒蛋白)。该创新方法避免了传统全库筛选的计算负担,效率提升显著。

SARS-CoV-2案例研究

对28个训练集未见的病毒蛋白预测发现:1)膜蛋白M与蛋白酶体亚基PSMA4的互作可能介导免疫逃逸;2)Nsp1与DNA修复蛋白RPA1的结合暗示宿主损伤修复抑制;3)AP-3适配体复合物亚基(AP3S1/M1/M2)与病毒包膜蛋白的相互作用可能调控内吞过程。STRING网络分析揭示预测蛋白形成内吞-膜运输功能模块,其中SEC23B等COPII组分可能协助病毒粒子组装。

这项研究通过"预测+生成"的双任务设计,突破了传统PPI研究的效率瓶颈。其价值不仅体现在88%的AUC性能,更在于建立了从序列直接推断功能的范式——这对新发病毒蛋白的功能注释尤为重要。研究者特别指出,当前模型对高同源蛋白的区分仍存局限,未来整合AlphaFold结构预测或能进一步提升精度。从转化应用角度看,DeepHVI预测的P2X4钙通道等靶点,为开发广谱抗病毒药物提供了新线索。

正如讨论部分强调的,这项工作的伦理设计值得关注:所有生成序列均限制为天然蛋白,避免人工设计可能带来的生物安全风险。这种负责任的研究态度,使得DeepHVI既能加速科学发现,又符合《Biosafety and Health》期刊的核心理念。随着病毒数据库的持续扩充,这个框架有望成为应对未来疫情的重要计算武器。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号