
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ePytope-TCR:T细胞受体-表位预测工具的基准测试框架及其在免疫治疗中的应用
【字体: 大 中 小 】 时间:2025年07月10日 来源:Cell Genomics 11.1
编辑推荐:
本研究针对T细胞受体(TCR)与表位结合预测工具的评估标准缺失问题,开发了ePytope-TCR统一框架,整合21种预测工具并在两个挑战性数据集上测试。研究发现现有工具对高频表位预测效果较好(AUC>0.75),但对低频表位预测性能有限,且存在表位间预测偏差。该研究为免疫治疗和疫苗开发中的TCR特异性预测提供了重要工具选择指南。
在免疫治疗和疫苗开发领域,准确预测T细胞受体(TCR)与疾病相关表位的结合特异性至关重要。然而,当前存在的21种TCR-表位预测工具面临着"各自为政"的困境——它们使用不同的数据格式、评估标准,且缺乏系统性性能比较。更关键的是,这些工具对新型或罕见表位的预测能力存疑,这严重限制了它们在应对突发传染病(如COVID-19)或个体化肿瘤治疗中的应用。
为解决这一难题,德国亥姆霍兹慕尼黑研究中心(Helmholtz Munich)计算健康中心的研究团队开发了ePytope-TCR框架,对现有预测工具进行了全面基准测试,相关成果发表在《Cell Genomics》。这项研究不仅为科研人员提供了"一站式"预测平台,更重要的是揭示了当前TCR预测领域的关键瓶颈和未来改进方向。
研究人员采用了两项关键技术:首先构建了统一接口框架,整合18种通用型和3种分类模型,支持六种标准TCR数据格式;其次设计了两套基准测试方案——使用包含638个TCR的单细胞数据集(来自SARS-CoV-2疫苗研究和10x Genomics BEAM-T数据)评估表位注释能力,以及采用深度突变扫描数据评估对表位突变的预测准确性。

ePytope-TCR框架的创新性
研究团队扩展了原有的ePytope(原FRED2)免疫预测框架,新增TCR和表位两种数据结构。该框架支持从单细胞(cellranger-vdj)和批量测序(AIRR标准)等多种格式导入TCR数据,并能预测任意9-mer表位与TCR的结合能力。特别值得注意的是,框架采用模块化设计,便于新预测工具的快速集成。
预测工具的性能差异
在病毒表位数据集测试中,只有MixTCRpred、TULIP-TCR和NetTCR-Cat三种工具的平均AUC超过0.6。工具性能与表位在公共数据库(如IEDB、VDJdb)中的出现频率显著相关(r=0.69)——对高频表位(如HLA-A*02:01限制的YLQPRTFLL)AUC可达0.98,但对低频表位(数据库记录≤3条)则接近随机猜测。分类模型在特定表位上表现优于通用模型,但无法预测新表位。
预测偏差的普遍存在
研究发现12种工具存在明显的表位间预测偏差——某些表位的平均预测分数异常高(>0.5),而真实频率仅0.2。这种偏差使得不同表位的预测分数不可直接比较,增加了实际应用中的阈值设定难度。此外,部分工具对同一表位的所有TCR给出相似预测分数(标准差<0.1),表明其未能有效利用TCR序列信息。
突变表位预测的挑战
在评估TCR对表位突变的反应性时,所有工具表现欠佳,最佳工具iTCep的Spearman相关系数仅0.21±0.22。值得注意的是,工具对CMV表位NLVPMVATV(高频表位)的预测分数普遍高于肿瘤新抗原VPSVWRSSL(低频表位),反映出训练数据偏差对预测的深远影响。

这项研究的重要意义在于三个方面:首先,ePytope-TCR解决了TCR预测工具"碎片化"问题,为免疫学研究提供了标准化分析平台;其次,基准测试揭示了当前工具的局限性——虽然对常见表位预测效果良好,但对新型病原体或肿瘤突变表位的预测能力有限;最后,研究强调需要开发更平衡的训练数据集和专门针对表位突变的预测算法。
研究人员特别指出,这项基准测试应被视为方法学发展的"起点"而非"终点"。随着TCR-表位相互作用被列为2023年癌症重大挑战之一,该研究为后续工具开发设立了明确的标准。未来工作需要重点关注三个方面:提高对低频表位的预测能力、消除表位间预测偏差、开发专门针对突变表位的预测模型。
生物通微信公众号
知名企业招聘