编辑推荐:
为解决准确预测 T 细胞受体(TCR)与抗原结合对的难题,研究人员开展 ConTCR 模型预测 TCR 与肽 - MHC(pMHC)结合的研究。结果显示该模型预测效果佳、泛化能力强。这为改进 pMHC-TCR 结合预测提供新方案,推动 TCR 免疫疗法发展。
研究背景
在人体的免疫系统中,T 细胞就像一群训练有素的 “卫士”,时刻守护着身体的健康。它们能够精准识别并消灭被感染的细胞以及癌细胞,在适应性免疫反应中发挥着至关重要的作用。T 细胞的激活,源于 T 细胞受体(TCR)与主要组织相容性复合体(MHC)分子呈递的抗原表位相结合。然而,通过实验去识别那些能被 T 细胞识别且具有免疫原性的抗原,是一项既耗费资源又极具挑战性的工作。在众多候选抗原中,大部分最终被证明不具备免疫原性,这使得寻找有效的预测方法变得迫在眉睫。
随着科技的发展,单细胞 TCR 测序技术让获取成对的 αβ TCR 序列成为可能,同时,IEDB、McPAS、VDJdb 和 PIRD 等数据库的不断扩充,为相关研究提供了丰富的数据资源。基于这些,深度学习和迁移学习等计算方法也被应用到 TCR - 抗原结合特异性的研究中。但即便如此,预测对特定抗原表位可能产生反应的 TCR 分子组成,依旧是一个尚未完全攻克的复杂计算难题。
许多现有的模型存在各种各样的问题。比如 DLpTCR、PanPep 和 TEIM 等模型,无法充分利用 MHC 信息和未标记的 TCR 序列数据;ERGO-II 和 pMTnet 虽然考虑了 MHC 亚型信息,却常常忽略关键的 pMHC 结合特征,或者容易对已见过的肽段过拟合,导致在对未见肽段的零样本测试中泛化能力较差;基于 Transformer 的双向编码器表征(BERT)模型,如 TABR-BERT,虽然利用未标记的肽段和 TCR 数据来捕捉复杂的序列依赖关系,以改进 pMHC-TCR 的预测,但该模型缺乏对肽 - MHC 和 TCR 之间明确的相互作用建模,推理效率低,假阳性率高,严重限制了其实际应用。
研究开展与结论
为了突破这些困境,来自未知研究机构的研究人员开展了关于预测 T 细胞受体与肽 - MHC 复合物结合的研究。他们提出了一种基于对比学习的交叉注意力 Transformer 模型 ——ConTCR,用于预测 TCR 与肽 - MHC(pMHC)的结合情况。
研究人员通过多方面的实验评估了 ConTCR 的性能,结果显示,该模型能够有效捕捉 TCR-pMHC 相互作用的关键信息。在独立的非零样本测试集中,ConTCR 的受试者工作特征曲线下面积(AUC-ROC)得分分别达到了 0.849 和 0.950;在零样本测试集中,AUC-ROC 得分也分别达到了 0.830 和 0.938。这表明 ConTCR 在预测未见抗原表位和多样的 TCR 库的结合特异性方面,展现出了强大的泛化能力。此外,研究人员还通过注意力得分热图对模型进行可视化,以提高模型的可解释性,突出了对 TCR-pMHC 相互作用至关重要的残基。
这项研究意义重大,ConTCR 模型通过交叉注意力层和对比学习的协同作用,有效地表征了 TCR 序列和 pMHC 复合物的广泛多样性,为改进 pMHC-TCR 结合预测和模型可解释性提供了一个有前景的解决方案。它在零样本设置下,对 TCR-pMHC 相互作用的预测表现卓越,同时显著降低了假阳性率,证明了深度学习在免疫治疗和个性化医学领域具有巨大的潜力,有望推动基于 TCR 的免疫疗法取得新的进展。该研究成果发表在《Computer Methods and Programs in Biomedicine》上。
关键技术方法
研究人员从四个公开数据库(IEDB、McPAS、VDJdb 和 PIRD)收集训练样本,并采用前人相关研究中的四个测试集。首先利用预训练的编码器将 pMHC 和 TCR 序列转化为高级嵌入作为特征表示;接着运用多模态交叉注意力机制结合 pMHC 序列和 TCR 序列的特征;然后基于对比学习策略预训练 ConTCR 的骨干网络,增强模型对 pMHC 和 TCR 序列的特征提取能力;最后对模型进行微调,用于正负样本的分类。
研究结果
- 数据处理:从四个公开数据库收集训练样本,合并并去除重复序列,采用前人研究中的四个测试集,以公平比较评估 TCR-pMHC 预测模型的性能。
- 模型构建与训练:提出 ConTCR 深度学习框架,利用多正对比学习和交叉注意力机制整合 pMHC 和 TCR 的 CDR3 序列特征,用于 pMHC-TCR 结合预测。训练队列分两个阶段使用,先预训练模型骨干网络,再进行微调。
- 模型性能评估:在四个独立测试集上评估 ConTCR,结果显示其在预测未见抗原表位的结合特异性方面表现出色,在独立非零样本测试集和零样本测试集中均取得较高的 AUC-ROC 得分,且通过注意力得分热图可视化突出关键残基,提高了模型可解释性。
研究结论与讨论
研究人员提出的 ConTCR 模型,凭借交叉注意力层和对比学习的协同作用,成功地在 TCR 序列和 pMHC 复合物的多样性表征上取得突破。该模型在预测 TCR-pMHC 相互作用方面优势显著,尤其是在零样本设置下,不仅预测精度更高,还大幅降低了假阳性率。这一成果充分展现了深度学习在免疫治疗和个性化医学领域的巨大潜力,为精准预测 pMHC-TCR 结合提供了有力工具,有望推动基于 TCR 的免疫疗法迈向新的高度,为攻克癌症等疾病带来新的希望 。