编辑推荐:
该研究针对人类白细胞抗原(HLA)多样性及数据稀缺问题,开发分层渐进学习框架(HPL)提升零样本 HLA - 肽结合预测性能,零 - shot 经典等位基因预测提升 60.8%,非经典达 1414%;并开发自动化工具 APMS 设计高亲和力肽,成功率 38.1%,助力疫苗与免疫治疗开发。
准确预测肽与人类白细胞抗原(HLA)等位基因的结合对疫苗开发和免疫治疗中识别启动免疫反应的表位至关重要。现有硅基(in silico)预测工具仅能对 1% 的 HLA I 类等位基因的结合肽进行预测,对缺乏表位的等位基因预测仍具挑战。
研究开发了分层渐进学习(HPL)框架用于零样本 pHLA 结合预测。框架核心是蛋白语言模型(PLM)和渐进学习方法,先通过 PLM 学习 pHLA 复合序列的通用模式,再根据生物注释、蛋白序列和潜在表征,用与目标等位基因性质相似的 HLA 等位基因结合记录对模型进一步微调,形成簇特异性预测模型,最后通过集成不同簇模型得到等位基因特异性模型。与先进方法 TransPHLA 相比,HPL 框架使零 - shot HLA 等位基因预测性能提升 60.8%,非经典等位基因提升 1414.0%。
进一步开发了自动化肽突变搜索程序(APMS)用于抗原肽设计,在 HPL 模型指导下,能自动识别目标 HLA I 类等位基因的结合肽,并对弱结合或非结合肽进行突变以增强结合亲和力。在公共数据集测试中,21.4% 的 APMS 生成的前 1 候选肽与高亲和力突变肽完全匹配,考虑前 5 候选时成功率达 38.1%。
研究还探讨了泛特异性 pHLA 结合预测方法在零样本 HLA 等位基因上的泛化问题,发现现有方法训练数据仅覆盖 1% 的 HLA 等位基因,且存在严重偏差。通过可视化 HLA 等位基因分布,发现同一基因的 HLA 等位基因聚类明显,泛化关键在于将知识从常见等位基因转移到训练数据中代表性不足的孤立簇,尤其是非经典 HLA 等位基因。
HPL 框架通过多层面模型(泛特异性、簇特异性、等位基因特异性)逐步提升预测能力,蛋白语言模型使 HPL-Pan 在零样本和常见等位基因预测中均优于 TransPHLA,不同簇特异性模型和等位基因特异性模型进一步提升性能。APMS 通过动态负采样和多轮搜索,能高效生成高亲和力结合候选肽,整个突变搜索过程全自动,10 秒内可完成 4 轮搜索,展示了强大的效率和硬件适应性。
该研究为零样本 pHLA 结合预测和抗原肽设计提供了有效工具,有助于理解 HLA 等位基因与肽的复杂相互作用,为免疫研究和靶向治疗开发提供了有价值的见解,但也存在数据集质量和一致性问题,未来需进一步优化。