基于预训练模型的HLA-肽段结合与免疫原性预测方法PHLA及其在肿瘤疫苗设计中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月25日 来源：Neurocomputing 6.5

编辑推荐：

　　本文推荐：研究者提出PHLA框架，创新性地将自然语言处理（NLP）编码技术与深度学习结合，同时考量人类白细胞抗原（HLA）-肽段结合概率（binding model）与复合物免疫原性（immune model）。实验表明，该模型在外部数据集上超越现有基准，并通过生物信息学分析证实其预测结果与肿瘤高度相关，为肿瘤疫苗设计提供新思路。（符号保留：HLA、MHCI/II）

亮点

本研究突破传统仅关注HLA-肽段结合的局限，首创融合结合模型与免疫模型的双路径框架，为肿瘤新抗原筛选提供更全面的生物信息学视角。

相关研究

现有方法可分为两类：基于序列评分函数（如PSSM、BLOSUM矩阵）和机器学习算法（如SVM）。近期，自然语言处理（NLP）技术（如TAPE预训练模型）为肽段语境解析带来新突破，但免疫原性预测仍是空白。

PHLA架构

如图1所示，PHLA包含四大模块：

1.
输入数据：整合多源结合/免疫数据集（图1A）；
2.
数据编码：采用ProtBERT预训练模型解析肽段"语言特征"，结合BiLSTM捕捉HLA序列动态模式；
3.
结合模型：通过集成学习预测HLA-肽段结合概率；
4.
免疫模型：筛选具有临床免疫潜力的复合物。

数据描述

验证集涵盖81种HLA等位基因（44,089阳性/3,251阴性样本），IEDB基准数据集包含87种HLA-I类基因（60,430阳性/60,002阴性样本），经严格平衡处理确保模型鲁棒性。

结论与讨论

当前肿瘤免疫治疗的瓶颈在于：①过度依赖HLA结合预测而忽视免疫原性，导致假阳性率高；②肽段编码缺乏生物语言学理解。PHLA通过双重建模显著提升预测精度，其癌症相关基因富集结果暗示该方法在个性化疫苗开发中的巨大潜力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号