
-
生物通官微
陪你抓住生命科技
跳动的脉搏
TCRdb 2.0:全球最大T细胞受体序列数据库的升级与免疫研究新工具
【字体: 大 中 小 】 时间:2025年09月10日 来源:Nucleic Acids Research 13.1
编辑推荐:
本研究针对现有T细胞受体(TCR)数据库样本量有限、功能单一的问题,开发了TCRdb 2.0数据库。该研究整合了来自19,701个样本的近7亿条TCR序列,涵盖46种组织和147种临床状态,新增γδ T细胞数据及治疗相关数据集,并构建了最大健康人群TCR参考库。通过优化搜索算法和可视化功能,该数据库为肿瘤免疫治疗、自身免疫疾病研究等提供了重要资源,相关成果发表于《Nucleic Acids Research》。
在免疫学研究领域,T细胞受体(TCR)如同免疫系统的"分子指纹",其多样性可达1016量级。这种多样性源于V(D)J重组过程产生的互补决定区3(CDR3)变异,使得每个个体都能产生独特的免疫应答。然而,现有TCR数据库如VDJdb、McPAS-TCR等仅收录约10万条实验验证序列,且缺乏系统性组织注释。随着高通量测序技术发展,海量TCR-Seq数据涌现,但分散存储在不同平台,亟需建立统一标准的大型数据库。
为应对这一挑战,Tao Yue、Si-Yi Chen等研究者开发了TCRdb 2.0。该工作收集了来自NCBI SRA和immuneACCESS等平台的19,701个样本,采用标准化流程进行质量控制:使用fastp进行Q25质控,UMI-tools处理分子标签,MiXCR提取TCR序列。所有序列均通过IMGT标准验证,要求CDR3以半胱氨酸(C)起始,以苯丙氨酸(F)或色氨酸(W)终止。数据库构建采用Vue和Flask框架,数据存储在MongoDB中,支持Elasticsearch快速检索。
数据规模与结构
TCRdb 2.0包含691,744,135条可靠序列,是前版(2.77亿条)的2.5倍。数据按"项目-样本-序列"三级架构组织,涵盖269个项目、46种组织和147种临床状态。特别整合了1,235个γδ T细胞样本数据,这类细胞具有非MHC限制性抗原识别特性,在肿瘤免疫中作用突出。
创新功能模块
健康参考库:整合40项研究的1,888个健康样本,形成2.58亿条序列的阴性对照数据集,可用于过滤疾病相关TCR。
治疗监测数据集:收录16个项目的1,413个样本,包括PD-1/CTLA-4阻断治疗、放疗等干预后的TCR动态变化。
智能搜索系统:支持批量查询2,000条CDR3序列;模糊搜索可发现差异≤2个氨基酸的相似序列;正则表达式搜索能识别特定模式。
应用价值
该数据库已展示多方面应用潜力:通过"健康过滤"功能可快速筛选肿瘤特异性TCR克隆,辅助TCR-T疗法开发;大规模健康队列为机器学习模型训练提供基准数据;治疗相关数据集有助于发现免疫治疗生物标志物。研究团队计划未来扩展单细胞TCR数据、实验验证的抗原特异性序列及其他物种数据。
这项发表于《Nucleic Acids Research》的研究,通过建立目前最全面的TCR资源库,解决了免疫组学研究中的关键基础设施问题。其创新性体现在:首次系统整合γδ TCR数据,创建治疗响应动态数据集,开发高效序列匹配算法。这些进展将加速肿瘤新抗原发现、疫苗设计等领域研究,为精准免疫治疗提供重要工具。数据库持续更新机制和社区纠错功能,进一步保障了其在快速发展的免疫组学领域的长期价值。
生物通微信公众号
知名企业招聘