TCRdb 2.0：全球最大T细胞受体序列数据库的升级与免疫研究新工具

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月10日 来源：Nucleic Acids Research 13.1

编辑推荐：

　　本研究针对现有T细胞受体(TCR)数据库样本量有限、功能单一的问题，开发了TCRdb 2.0数据库。该研究整合了来自19,701个样本的近7亿条TCR序列，涵盖46种组织和147种临床状态，新增γδ T细胞数据及治疗相关数据集，并构建了最大健康人群TCR参考库。通过优化搜索算法和可视化功能，该数据库为肿瘤免疫治疗、自身免疫疾病研究等提供了重要资源，相关成果发表于《Nucleic Acids Research》。

在免疫学研究领域，T细胞受体(TCR)如同免疫系统的"分子指纹"，其多样性可达10¹⁶量级。这种多样性源于V(D)J重组过程产生的互补决定区3(CDR3)变异，使得每个个体都能产生独特的免疫应答。然而，现有TCR数据库如VDJdb、McPAS-TCR等仅收录约10万条实验验证序列，且缺乏系统性组织注释。随着高通量测序技术发展，海量TCR-Seq数据涌现，但分散存储在不同平台，亟需建立统一标准的大型数据库。

为应对这一挑战，Tao Yue、Si-Yi Chen等研究者开发了TCRdb 2.0。该工作收集了来自NCBI SRA和immuneACCESS等平台的19,701个样本，采用标准化流程进行质量控制：使用fastp进行Q25质控，UMI-tools处理分子标签，MiXCR提取TCR序列。所有序列均通过IMGT标准验证，要求CDR3以半胱氨酸(C)起始，以苯丙氨酸(F)或色氨酸(W)终止。数据库构建采用Vue和Flask框架，数据存储在MongoDB中，支持Elasticsearch快速检索。

数据规模与结构

TCRdb 2.0包含691,744,135条可靠序列，是前版(2.77亿条)的2.5倍。数据按"项目-样本-序列"三级架构组织，涵盖269个项目、46种组织和147种临床状态。特别整合了1,235个γδ T细胞样本数据，这类细胞具有非MHC限制性抗原识别特性，在肿瘤免疫中作用突出。

创新功能模块

1.
健康参考库：整合40项研究的1,888个健康样本，形成2.58亿条序列的阴性对照数据集，可用于过滤疾病相关TCR。
2.
治疗监测数据集：收录16个项目的1,413个样本，包括PD-1/CTLA-4阻断治疗、放疗等干预后的TCR动态变化。
3.
智能搜索系统：支持批量查询2,000条CDR3序列；模糊搜索可发现差异≤2个氨基酸的相似序列；正则表达式搜索能识别特定模式。

应用价值

该数据库已展示多方面应用潜力：通过"健康过滤"功能可快速筛选肿瘤特异性TCR克隆，辅助TCR-T疗法开发；大规模健康队列为机器学习模型训练提供基准数据；治疗相关数据集有助于发现免疫治疗生物标志物。研究团队计划未来扩展单细胞TCR数据、实验验证的抗原特异性序列及其他物种数据。

这项发表于《Nucleic Acids Research》的研究，通过建立目前最全面的TCR资源库，解决了免疫组学研究中的关键基础设施问题。其创新性体现在：首次系统整合γδ TCR数据，创建治疗响应动态数据集，开发高效序列匹配算法。这些进展将加速肿瘤新抗原发现、疫苗设计等领域研究，为精准免疫治疗提供重要工具。数据库持续更新机制和社区纠错功能，进一步保障了其在快速发展的免疫组学领域的长期价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号