
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于序列到序列框架的抗原特异性T细胞受体计算设计新方法TCR-TRANSLATE
【字体: 大 中 小 】 时间:2025年09月09日 来源:Nature Machine Intelligence 23.9
编辑推荐:
本研究针对T细胞受体(TCR)工程中功能受体设计困难的挑战,开发了TCR-TRANSLATE框架,首次将低资源机器翻译技术应用于抗原特异性TCR序列生成。通过系统评估12种模型变体,研究团队成功设计出靶向肾母细胞瘤抗原的功能性TCR,为个性化免疫治疗提供了新工具。该成果发表于《Nature Machine Intelligence》,标志着计算免疫学在非病毒靶点设计领域的重要突破。
在免疫治疗领域,T细胞受体(TCR)的精准设计一直是重大挑战。T细胞通过表面TCR识别由主要组织相容性复合体(MHC)呈递的抗原肽(pMHC),这种识别具有单氨基酸分辨率。尽管工程化TCR疗法在慢性感染、自身免疫病和实体瘤治疗中展现出潜力,但传统发现方法效率低下,且受限于复杂的交叉反应规则和稀疏的配对数据。现有计算方法多将抗原特异性建模为二分类任务,难以直接用于TCR设计。
针对这一瓶颈,Alex Rubinsteyn团队创新性地将TCR设计问题转化为序列到序列(seq2seq)任务,开发了TCR-TRANSLATE框架。研究采用BART和T5两种Transformer架构,构建了12种模型变体,包括基线模型、双向模型和多任务模型。通过系统比较不同训练策略,发现多任务训练虽能提高准确性但会降低序列多样性,而双向训练则能改善校准性能。研究团队特别设计了包含20个高丰度pMHC的验证集,这些靶点在训练阶段被严格排除以评估模型泛化能力。
关键技术方法包括:1) 采用低资源机器翻译技术处理稀疏的TCR-pMHC配对数据;2) 构建包含VDJdb、IEDB和MIRA数据库的平行语料库;3) 使用OLGA评估生成序列的生物学合理性;4) 通过NFAT荧光素酶报告系统验证生成TCR的功能活性。
研究结果部分:
条件生成优于无条件生成
基线模型TCRBART-0和TCRT5-0在Char-BLEU、F1@100等指标上显著优于统计生成模型soNNia,证实抗原条件约束的有效性。
多任务训练增加准确性但降低多样性
多任务变体TCRBART-0(M)的序列恢复率提高80%,但独特序列生成量下降80%,揭示准确性与多样性的权衡关系。
多任务模型偏好多特异性CDR3β序列
双向和多任务模型更倾向于生成能结合多个pMHC的"多特异性"TCR,这类TCR在训练集中出现频率更高(P<0.001)。
TCRT5生成真实未见的抗原特异性序列
旗舰模型TCRT5生成的CDR3β长度分布(均值14.6±1.2)与参考集(14.5±2.0)接近,但具有更高生成概率(log[pgen]均值-7.04 vs -9.83)。在2000个生成序列中,181个为已知结合体,7个为训练集未见的全新TCR。
TCRT5在稀疏表位基准测试中达到SOTA
在包含14个表位的独立测试集上,TCRT5的F1@100得分(0.18)显著优于ER-TRANSFORMER(0.11)和GRATCR(0.09),并成功恢复FTDALGIDEY_A*01:01等表位的精确匹配序列。
体外验证功能性CDR3β序列
通过将生成的CDR3β序列移植到TCR-KO Jurkat细胞系,发现序列F8(CASSVGLYNEQFF)能特异性激活Wilms肿瘤抗原WT1(VLVFAPPAG_A*02:01),尽管存在与CEFX肽池的交叉反应。40个测试构建体中,所有CDR3β嫁接均实现表面表达,证实工程可行性。
讨论部分指出,该研究首次实现针对非病毒表位的功能性TCR计算设计,将传统发现流程的效率提升数个数量级。尽管存在多特异性等局限,但通过beam search解码策略与生物物理约束的结合,TCRT5展现出直接从靶序列生成可用TCR的潜力。研究同时揭示了当前数据稀疏性对评估的影响——高pgen序列可能因更易被实验检测而产生确认偏倚。未来工作需要整合α链信息、扩大非病毒靶点数据,并开发更精细的特异性控制策略。这项突破为快速响应新兴病原和个体化肿瘤免疫治疗提供了全新范式。
生物通微信公众号
知名企业招聘