循环肿瘤DNA驱动基因与变异体的系统鉴定及临床意义解析:CTDdgv数据库构建与应用

【字体: 时间:2025年07月17日 来源:Scientific Data 5.8

编辑推荐:

  这篇研究重磅推出CTDdgv数据库,首次系统整合1674例经实验验证的循环肿瘤DNA(ctDNA)变异临床解读数据,涵盖预后、耐药性、肿瘤特征等7大维度。创新开发geMERlb算法精准识别ctDNA驱动基因(TDGs)和变异体(TDVs),在38个数据集、17种癌症中鉴定2305个TDGs和9645个TDVs,其CGC基因检出率(11.23%)显著优于DriverPower等工具。该资源为液体活检(liquid biopsy)的分子诊断提供多维度分析框架。

  

背景与摘要
癌症的发生发展与遗传突变、DNA损伤反应等因素密切相关。循环肿瘤DNA(ctDNA)作为液体活检的核心标志物,因其无创性和全景捕获肿瘤异质性的优势备受关注。然而现有驱动基因研究多基于组织样本,缺乏针对ctDNA变异系统性解读的资源。哈尔滨医科大学团队构建的CTDdgv数据库填补了这一空白,整合1674条经实验验证的临床关联数据,并开发geMERlb算法实现ctDNA驱动元件的精准挖掘。

方法学创新
研究团队通过PubMed系统检索4797篇文献,严格筛选出238个ctDNA驱动基因和577个变异体,建立包含变异类型(如错义突变T790M)、疾病关联等信息的Variant-Level(1170条)和Gene-Level(504条)数据集。独创的geMERlb算法通过突变累积评分(MAS)和突变富集评分(MES)量化基因组元件(如CDS、启动子区)的驱动效应,其核心公式MES=maxMAS-minMAS经1000次随机化检验验证。相较于DriverPower和ActiveDriverWGS,geMERlb在15个ctDNA数据集中的癌症基因普查(CGC)检出率提升至11.23%,在高置信度基因集(HiConf)的识别中同样表现优异。

数据资源特征
CTDdgv包含三大核心数据集:

  1. 实验验证集:覆盖109种癌症类型,其中非小细胞肺癌(NSCLC)相关变异记录最多(占比23.6%),EGFR、TP53等基因出现频次最高
  2. 预测数据集:从38个ctDNA谱(涉及17类癌症)鉴定出的TDGs中,115个(5%)已获独立研究临床验证
  3. 跨组学链接:集成GeneCards、COSMIC等10个权威数据库,提供变异位点的基因组浏览器可视化(UCSC/Ensembl)及AlphaFold预测的蛋白质三维结构

技术验证亮点
在15个ctDNA数据集(含>500突变的大样本)的横向比较中,geMERlb展现出显著优势:

  • CGC基因识别灵敏度达ActiveDriverWGS的1.8倍
  • 实验支持基因集(ESCI)匹配率5.31%,显著高于对照工具
  • 组织样本验证中,TCGA 33种癌症的TDGs识别准确率保持稳定

应用场景展示
数据库提供四大功能模块:

  1. 临床解读查询:支持按基因/变异体检索药物敏感性(如EGFR-T790M与奥希替尼耐药关联)
  2. 驱动预测工具:用户上传VCF文件即可获得TDGs/TDVs列表及MER区域定位
  3. 预后分析模块:整合5个含生存数据的ctDNA研究,揭示BRCA2等基因的无进展生存期(PFS)关联
  4. 多维可视化:包括驱动基因的Pan-cancer表达热图、变异位点基因组坐标轴展示等

研究展望
当前版本尚存ctDNA检测灵敏度阈值的校正局限,未来计划整合:

  1. 单细胞测序数据提升低频突变识别
  2. 表观遗传修饰对驱动变异的影响分析
  3. 免疫治疗响应预测模型
    该资源已开源(CC-BY 4.0),其网页平台提供中英文双语界面,日均访问量突破200次,成为液体活检研究的重要基础设施。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号