
-
生物通官微
陪你抓住生命科技
跳动的脉搏
HLAIIPred:基于交叉注意力机制预测HLA II类分子与多肽相互作用的新型深度学习模型
【字体: 大 中 小 】 时间:2025年08月01日 来源:Communications Biology 5.1
编辑推荐:
本研究针对HLA II类分子(HLAII)抗原呈递预测的三大挑战——缺乏阴性样本、多等位基因数据复杂性及结合核心预测困难,开发了基于Transformer架构的HLAIIPred模型。该模型通过交叉注意力机制模拟pHLAII相互作用,在单等位样本中预测性能较现有最佳模型提升16%,能准确识别治疗性抗体免疫原性片段并优先筛选肿瘤新抗原,为疫苗设计和抗体工程提供重要工具。
在免疫系统的精密防御网络中,HLA II类分子(HLAII)如同"分子展示柜",将外源蛋白片段呈递给CD4+ T细胞,启动适应性免疫应答。然而科学家们长期面临三大难题:实验检测方法耗时昂贵、多等位基因数据难以解析、结合核心预测缺乏结构指导。这些瓶颈严重制约了癌症疫苗开发和治疗性抗体的免疫原性评估。
来自Pfizer的研究团队在《Communications Biology》发表的研究中,开发了革命性的HLAIIPred深度学习模型。该研究整合597,508条质谱鉴定的多肽数据,创新性地采用交叉注意力机制模拟pHLAII相互作用,在三大应用场景中展现出卓越性能:单等位样本预测准确率提升16%,治疗抗体免疫原性预测F1值达0.83,新抗原疫苗候选肽筛选准确率85.3%。
关键技术包括:1) 基于质谱的免疫肽组学数据集构建,涵盖172个HLAII等位基因;2) Transformer架构的双编码器设计,分别处理多肽序列和HLAII假序列;3) 交叉注意力交互编码器捕捉分子间相互作用;4) 基于序列相似性的数据聚类加权策略;5) 使用单等位数据验证模型泛化能力。
模型架构创新方面,研究团队设计了三个核心模块:多肽编码器通过滑动窗口提取所有可能的9聚体核心,等位基因编码器处理α/β链假序列,交互编码器则通过交叉注意力实现9聚体与HLAII分子的"虚拟对接"。这种设计使模型无需依赖结构数据即可预测结合核心,注意力图谱与真实接触图谱的重合度达20-50%。
在单等位样本验证中,HLAIIPred对42个低频等位基因的预测显著优于现有工具。如图3所示,在训练数据占比不足1%的10个稀有等位基因中,HLAIIPred对8个的预测准确率领先。整体F1-score达0.77,较次优模型Graph-pMHC提升8.5%。特别值得注意的是,模型对HLA-DQ等位基因的结合核心预测错误率最低,展现了出色的泛化能力。
在治疗性抗体评估方面,研究团队建立了创新分析流程:通过滑动窗口扫描抗体序列,过滤人类抗体种系序列,预测非人源表位数量与临床免疫原性相关性。如图4所示,HLAIIPred在210个抗体数据集上PR-AUC达0.598,最佳cutoff值(35个表位)下的F1-score较次优模型提升2%。以临床失败的bococizumab抗体为例,模型准确识别出重链和轻链可变区中的免疫原性热点,与实验数据高度一致。
在新抗原优先筛选中,HLAIIPred对125个黑色素瘤疫苗候选肽的预测显示,高评分肽(>0.95)的疫苗接种后T细胞应答率(77.8%)显著高于低评分肽(61.0%)。如图6所示,模型还能解析不同HLAII基因座的结合偏好:DR等位基因在1、4、6、9位显示强选择性,DP等位基因偏好1、9位,DQ等位基因则在3位呈现独特结合模式。
该研究的突破性在于:首次实现不依赖结构数据的结合核心预测,交叉注意力机制部分重现了真实分子接触;通过数据聚类加权有效缓解了优势表位过拟合;在抗体工程和疫苗设计两个关键应用场景验证了临床转化价值。局限在于结合核心预测仍依赖序列特征,未来整合AlphaFold等结构预测工具可进一步提升性能。
这项研究为免疫原性风险评估建立了新范式,其开源模型(HLAIIPred)已应用于Pfizer的抗体开发管线。正如作者在讨论中指出,结合T细胞受体(TCR)识别预测将是下一阶段研究方向,最终目标是实现从抗原呈递到免疫应答的全链条预测,为肿瘤免疫治疗和传染病疫苗设计提供智能解决方案。
生物通微信公众号
知名企业招聘