TCRdb 2.0:全球最大T细胞受体序列数据库的升级与免疫研究新工具

【字体: 时间:2025年09月10日 来源:Nucleic Acids Research 13.1

编辑推荐:

  本研究针对现有T细胞受体(TCR)数据库样本量有限、功能单一的问题,开发了TCRdb 2.0数据库。该研究整合了来自19,701个样本的近7亿条TCR序列,涵盖46种组织和147种临床状态,新增γδ T细胞数据及治疗相关数据集,并构建了最大健康人群TCR参考库。通过优化搜索算法和可视化功能,该数据库为肿瘤免疫治疗、自身免疫疾病研究等提供了重要资源,相关成果发表于《Nucleic Acids Research》。

  

在免疫学研究领域,T细胞受体(TCR)如同免疫系统的"分子指纹",其多样性可达1016量级。这种多样性源于V(D)J重组过程产生的互补决定区3(CDR3)变异,使得每个个体都能产生独特的免疫应答。然而,现有TCR数据库如VDJdb、McPAS-TCR等仅收录约10万条实验验证序列,且缺乏系统性组织注释。随着高通量测序技术发展,海量TCR-Seq数据涌现,但分散存储在不同平台,亟需建立统一标准的大型数据库。

为应对这一挑战,Tao Yue、Si-Yi Chen等研究者开发了TCRdb 2.0。该工作收集了来自NCBI SRA和immuneACCESS等平台的19,701个样本,采用标准化流程进行质量控制:使用fastp进行Q25质控,UMI-tools处理分子标签,MiXCR提取TCR序列。所有序列均通过IMGT标准验证,要求CDR3以半胱氨酸(C)起始,以苯丙氨酸(F)或色氨酸(W)终止。数据库构建采用Vue和Flask框架,数据存储在MongoDB中,支持Elasticsearch快速检索。

数据规模与结构

TCRdb 2.0包含691,744,135条可靠序列,是前版(2.77亿条)的2.5倍。数据按"项目-样本-序列"三级架构组织,涵盖269个项目、46种组织和147种临床状态。特别整合了1,235个γδ T细胞样本数据,这类细胞具有非MHC限制性抗原识别特性,在肿瘤免疫中作用突出。

创新功能模块

  1. 1.

    健康参考库:整合40项研究的1,888个健康样本,形成2.58亿条序列的阴性对照数据集,可用于过滤疾病相关TCR。

  2. 2.

    治疗监测数据集:收录16个项目的1,413个样本,包括PD-1/CTLA-4阻断治疗、放疗等干预后的TCR动态变化。

  3. 3.

    智能搜索系统:支持批量查询2,000条CDR3序列;模糊搜索可发现差异≤2个氨基酸的相似序列;正则表达式搜索能识别特定模式。

应用价值

该数据库已展示多方面应用潜力:通过"健康过滤"功能可快速筛选肿瘤特异性TCR克隆,辅助TCR-T疗法开发;大规模健康队列为机器学习模型训练提供基准数据;治疗相关数据集有助于发现免疫治疗生物标志物。研究团队计划未来扩展单细胞TCR数据、实验验证的抗原特异性序列及其他物种数据。

这项发表于《Nucleic Acids Research》的研究,通过建立目前最全面的TCR资源库,解决了免疫组学研究中的关键基础设施问题。其创新性体现在:首次系统整合γδ TCR数据,创建治疗响应动态数据集,开发高效序列匹配算法。这些进展将加速肿瘤新抗原发现、疫苗设计等领域研究,为精准免疫治疗提供重要工具。数据库持续更新机制和社区纠错功能,进一步保障了其在快速发展的免疫组学领域的长期价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号