PLGDL:融合蛋白质语言与几何深度学习模型,实现疫苗抗原预测新突破

《Nature Communications》:Integrating protein language and geometric deep learning models for enhanced vaccine antigen prediction

【字体: 时间:2025年12月22日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对疫苗开发中候选抗原筛选效率低、传统方法依赖人工特征且忽略结构信息的瓶颈,开发了PLGDL框架,该框架通过整合蛋白质语言模型(ESM-2)与几何深度学习模型(NEGCN),实现了对病毒、细菌和真核病原体保护性抗原的高精度预测。在Mpox病毒的实际应用中,该模型不仅成功复现了多个已知抗原,还发现并实验验证了新型保护性抗原G10R,为快速应对新发传染病提供了强大的计算筛选工具。

  
在人类与传染病的漫长斗争中,疫苗始终是预防和控制疾病最有效的武器。然而,疫苗研发的“万里长征”往往始于一个关键而艰巨的步骤:从成千上万的病原体蛋白中,精准地筛选出能够激发保护性免疫反应的“靶点”——即保护性抗原。传统的实验方法耗时耗力,而基于生物信息学的反向疫苗学(Reverse Vaccinology, RV)则提供了一条捷径,它利用计算机算法对病原体基因组进行系统性分析,从而预测候选抗原。
尽管反向疫苗学已取得显著进展,但现有方法大多依赖于从蛋白质序列中提取的、经过人工设计的特征,如分子量、等电点、疏水性等。这些“手工特征”虽然有效,但受限于先验知识,可能无法捕捉到序列与抗原性之间更深层次、更复杂的关联。此外,蛋白质的三维结构是其功能,尤其是抗原性的最终决定因素,因为它决定了抗原表位如何被呈递给免疫系统。然而,当前的主流预测模型主要聚焦于一维序列特征,而忽略了宝贵的结构信息。
为了突破这些局限,来自北京生物技术研究所和国防科技大学的研究团队在《Nature Communications》上发表了一项研究,他们开发了一个名为PLGDL的计算框架,首次将蛋白质语言模型与几何深度学习模型相结合,旨在从序列和结构两个维度,更全面、更准确地预测保护性疫苗抗原。
关键技术方法
为了构建PLGDL模型,研究人员首先建立了一个包含600个保护性抗原和6000个非保护性抗原的高质量数据集。随后,他们利用蛋白质语言模型ESM-2从序列中提取特征,并开发了一种名为NEGCN的几何深度学习模型,从AlphaFold3预测的蛋白质三维结构中提取特征。通过特征选择,最终将255维的序列特征和27维的结构特征融合,并采用XGBoost算法训练分类器,从而构建出最终的抗原预测模型。
研究结果
1. 构建高质量抗原数据集
研究人员从Protegen数据库和PubMed文献中严格筛选,最终构建了一个包含600个保护性抗原(病毒119个、细菌386个、真核生物95个)和6000个非保护性抗原(病毒481个、细菌4493个、真核生物1026个)的数据集,正负样本比例为1:10,以反映保护性抗原在自然界中的稀缺性。利用AlphaFold3对所有蛋白质进行了结构预测,并评估了预测质量,为后续研究提供了可靠的数据基础。
2. 建立PLGDL框架并验证其性能
研究团队系统性地评估了多种蛋白质嵌入方法,最终选择ESM-2用于序列特征提取。同时,他们开发了NEGCN模型,通过对比学习策略,从蛋白质的三维结构中学习特征表示。在模型训练阶段,他们比较了多种机器学习分类算法,发现XGBoost在综合性能上表现最佳,其准确率(Accuracy)达到0.949,F1分数为0.683,马修斯相关系数(MCC)为0.663,显著优于其他算法。此外,与Vaxign、VaxiJen等现有主流方法相比,PLGDL在标准第三方数据集上也展现出了最高的精确度(Precision)、F1分数和MCC,证明了其优越的预测能力。
3. 预测Mpox候选抗原并发现新型保护性抗原G10R
为了验证PLGDL模型在真实世界中的应用价值,研究人员将其应用于正在流行的Mpox病毒。模型对Mpox病毒的190个蛋白质进行了预测,并输出了抗原概率评分。在排名前十的候选抗原中,包含了B6R、M1R、A35R等6个已被实验验证的保护性抗原,证明了模型的有效性。同时,模型还预测了J3R、G10R等4个尚未被报道为疫苗靶点的候选抗原。
4. 候选抗原的免疫学评价
为了验证模型预测的准确性,研究人员选取了已知抗原M1R、高评分候选抗原J3R和G10R,以及低评分抗原B9R进行小鼠免疫实验。结果显示,所有候选抗原均能诱导产生高水平的特异性结合抗体,其中G10R和B9R的抗体水平甚至远超阳性对照M1R。然而,在关键的攻毒保护实验中,只有G10R能够诱导产生中和抗体,并在致死性正痘病毒攻击模型中提供部分保护,而B9R则未能提供保护。这一结果不仅证实了G10R作为新型保护性抗原的潜力,也验证了PLGDL模型能够有效区分“免疫原性”和“保护性”抗原。
研究结论与讨论
本研究成功开发了PLGDL框架,通过整合蛋白质语言模型和几何深度学习模型,实现了对保护性抗原的高精度预测。该模型不仅超越了现有方法,更重要的是,在应对Mpox病毒的实际应用中,它成功地从复杂的病原体蛋白组中筛选出了新型保护性抗原G10R,并得到了实验验证。这一发现为开发更安全、有效的Mpox亚单位疫苗提供了新的候选靶点。
该研究的意义在于,它代表了反向疫苗学领域的一次重要范式转变。PLGDL不再依赖于人工设计的特征,而是利用深度学习模型自动从序列和结构中学习与保护性相关的深层模式。这种“通才”模型能够跨越病毒、细菌和真核病原体的界限,识别出与保护性相关的通用结构特征,为快速应对新发传染病威胁提供了强大的计算工具。未来,随着更多高质量数据的积累和算法的不断优化,这种整合多模态信息的计算框架有望在疫苗研发中发挥越来越重要的作用,加速精准疫苗学的到来。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号