基于大语言模型与深度超图学习的MHC II类分子-肽相互作用解析工具pMHChat的开发与应用

【字体: 时间:2025年07月08日 来源:Briefings in Bioinformatics 6.8

编辑推荐:

  本研究针对MHC II类分子-肽结合预测的三大挑战——伪序列建模不足、残基特异性特征缺失及相互作用解析局限,开发了整合ESM-MSA-1b和ESM-2大语言模型与超图卷积网络(HyperConv)的pMHChat框架。该模型在五折交叉验证中AUC达0.8744,独立测试PCC提升40.02%,首次实现结合反应性、亲和力与残基接触图谱的联合预测,为疫苗设计和免疫治疗提供新工具。

  

在免疫系统的精密调控中,MHC II类分子如同"分子展示台",通过呈递外来肽段激活CD4+ T细胞。然而这类分子的结合沟槽两端开放,可结合13-25个氨基酸的长肽段,其多态性导致结合特异性预测成为免疫学研究中的"高难度动作"。现有NetMHCIIPan等工具虽取得进展,却受限于神经网络简单、缺乏结构感知能力,犹如"雾里看花"难以捕捉残基级相互作用细节。

中国矿业大学信息与控制工程学院联合澳大利亚莫纳什大学的研究团队,在《Briefings in Bioinformatics》发表研究,开发出pMHChat深度学习框架。该工作创新性地将蛋白质语言模型与超图学习结合:首先用ESM-MSA-1b和ESM-2生成结合感知的嵌入表示,通过BiLSTM捕捉MHC长程依赖关系;继而构建基于接触图的超图网络(HyperConv),模拟残基间高阶空间相互作用;最终融合特征预测结合参数并解析接触图谱。关键技术包括:1)基于BD2016数据集微调LLMs;2)利用50%接触阈值构建肽段超图;3)采用"节点-超边-节点"信息传递机制;4)独立测试集BD2024验证泛化性。

性能验证结果
五折交叉验证中,pMHChat的AUC(0.8744)和AUPR(0.8390)显著优于DeepMHCII等模型(P<0.0001)。特征可视化显示其能清晰区分结合/非结合簇,而对比模型存在特征重叠。独立测试时,对全新MHC分子(LOMO设置)仍保持0.8405±0.0770的稳定AUC,55/61个分子预测优于基准方法。

技术创新解析
相比传统GNN,HyperConv通过超边建模多残基相互作用,使GIN等模型在短肽预测中的过平滑问题迎刃而解。ESM-MSA-1b产生的进化感知嵌入,较CBOW编码提升AUPR达8.92%。在BC2015数据集测试中,模型预测的9肽结合核心与实验数据重合率达68.6%(35/51完全匹配),如2Q6W复合体中准确识别"EA"片段与MHC沟槽QLDYCELFLWMIA区的氢键网络。

生物学意义
该研究突破了三重技术壁垒:1)首次实现MSA优化架构与结构感知特征的协同建模;2)通过超图跨越序列-结构鸿沟;3)无需实验标注即可生成残基接触图谱。对3PDO等复合体的分析显示,模型能识别MRM-PLL肽段与MHC疏水口袋(V42/A52等)的特异相互作用,这种"分子显微镜"般的能力为肿瘤新抗原设计提供了新维度。

局限在于当前仅适用于MHC II类分子,且预测精度受ESM-2接触图质量制约。未来整合冷冻电镜等结构数据,或将使模型成为"全息免疫图谱"构建的关键技术。正如作者所言,这项研究"不仅提升了预测精度,更开辟了理解MHC-肽结合机制的新途径",为个性化癌症疫苗开发埋下伏笔。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号