
-
生物通官微
陪你抓住生命科技
跳动的脉搏
TCR-epiDiff:基于扩散模型的T细胞受体生成与表位结合预测双功能深度学习框架
【字体: 大 中 小 】 时间:2025年07月16日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对T细胞受体(TCR)序列多样性高且表位结合机制复杂的两大挑战,开发了基于去噪扩散概率模型(DDPM)的TCR-epiDiff框架。该模型通过ProtT5-XL嵌入表位信息,实现了表位特异性TCR的从头生成,并构建了TCR-epitope结合预测器(TCR-epiBP/TCR-epi*BP)。在COVID-19和NeoTCR数据集验证中,模型生成的CDR3β序列展现出保守末端特征,结合预测准确率达0.694-0.855,为肿瘤免疫治疗和疫苗设计提供了新工具。
在免疫治疗领域,T细胞受体(TCR)如同精准的"分子探测器",能特异性识别病原体和肿瘤细胞表面的抗原表位。然而这种识别能力背后隐藏着两大科学难题:一方面,TCR序列具有惊人的多样性(人体可产生约1015种独特TCR),使得特定表位对应TCR的筛选如同大海捞针;另一方面,TCR与表位的结合机制涉及复杂的空间构象和HLA分子参与,传统实验方法耗时耗力。这些瓶颈严重制约了CAR-T和TCR-T等免疫疗法的发展,特别是在占癌症95%的实体瘤治疗中收效甚微。
韩国首尔崇实大学生物信息与生命科学系的研究团队在《Bioinformatics》发表的研究中,创新性地将去噪扩散概率模型(DDPM)引入免疫组学领域,开发出TCR-epiDiff双功能系统。该系统通过三个关键技术突破:1) 采用ProtT5-XL预训练模型嵌入表位序列特征;2) 构建U-Net架构的扩散模型实现表位引导的TCR生成;3) 基于编码器开发结合预测模块,并整合HLA分型信息(来自VDJdb和IEDB数据库的50,310条CDR3β序列)。研究特别采用10倍交叉验证和COVID-19/NeoTCR外部数据集进行严格评估。
【生成表位特异性TCR】
模型在10个时间步的线性噪声添加过程中(βstart=0.0001,βend=0.1),成功重建具有生物学特征的CDR3β序列。如图2D所示,生成的核苷酸序列翻译后保留末端保守序列(如CASS和FGXG模体),中间区域则呈现合理变异。位置相关性分析(图2E)显示末端残基相关系数达0.82±0.05,显著高于随机序列的0.654(p<0.001)。在COVID-19数据集验证中,模型生成的TCR与原始序列的余弦相似度达0.89,远高于与健康供体PBMC TCR的0.71。
【潜在空间表征】
通过UMAP降维可视化(图4B),10个表位对应的TCR在512维潜在空间中形成明显聚类。k近邻分析(k=5)显示78%的相邻TCR共享相同表位特异性,证实模型能有效捕捉表位-TCR的识别模式。这种特性使得模型可用于从大规模未标注TCR库中筛选候选结合序列。
【TCR-表位结合预测】
在包含HLA分型的TCR-epiBP模型中,测试集准确率达0.855(F1=0.807)。外部验证显示其对COVID-19表位的预测性能(准确率0.725)优于NetTCR-2.0等现有工具。在更具挑战性的NeoTCR数据集(132对肿瘤新抗原-TCR)上,整合HLA-A02:01等分型信息的TCR-epi*BP取得0.694准确率,证实模型对罕见突变表位的识别能力。
这项研究开创性地将扩散模型应用于免疫组学,其双重功能设计解决了从TCR生成到结合预测的全流程需求。特别值得注意的是,模型生成的CDR3β序列不仅符合体细胞高频突变(SHM)特征,还能保持与天然TCR相当的折叠稳定性(通过ProtT5-XL特征空间评估)。尽管仍需体外实验验证生成序列的功能性,但该方法已为个性化TCR-T疗法提供了新的计算机辅助设计范式。未来通过纳入亲和力数据和多链(α/β)协同建模,有望进一步突破实体瘤治疗中的TCR筛选瓶颈。
生物通微信公众号
知名企业招聘