
-
生物通官微
陪你抓住生命科技
跳动的脉搏
循环肿瘤DNA驱动基因与变异体的系统鉴定及临床意义解析:CTDdgv数据库构建与应用
【字体: 大 中 小 】 时间:2025年07月17日 来源:Scientific Data 5.8
编辑推荐:
这篇研究重磅推出CTDdgv数据库,首次系统整合1674例经实验验证的循环肿瘤DNA(ctDNA)变异临床解读数据,涵盖预后、耐药性、肿瘤特征等7大维度。创新开发geMERlb算法精准识别ctDNA驱动基因(TDGs)和变异体(TDVs),在38个数据集、17种癌症中鉴定2305个TDGs和9645个TDVs,其CGC基因检出率(11.23%)显著优于DriverPower等工具。该资源为液体活检(liquid biopsy)的分子诊断提供多维度分析框架。
背景与摘要
癌症的发生发展与遗传突变、DNA损伤反应等因素密切相关。循环肿瘤DNA(ctDNA)作为液体活检的核心标志物,因其无创性和全景捕获肿瘤异质性的优势备受关注。然而现有驱动基因研究多基于组织样本,缺乏针对ctDNA变异系统性解读的资源。哈尔滨医科大学团队构建的CTDdgv数据库填补了这一空白,整合1674条经实验验证的临床关联数据,并开发geMERlb算法实现ctDNA驱动元件的精准挖掘。
方法学创新
研究团队通过PubMed系统检索4797篇文献,严格筛选出238个ctDNA驱动基因和577个变异体,建立包含变异类型(如错义突变T790M)、疾病关联等信息的Variant-Level(1170条)和Gene-Level(504条)数据集。独创的geMERlb算法通过突变累积评分(MAS)和突变富集评分(MES)量化基因组元件(如CDS、启动子区)的驱动效应,其核心公式MES=maxMAS-minMAS经1000次随机化检验验证。相较于DriverPower和ActiveDriverWGS,geMERlb在15个ctDNA数据集中的癌症基因普查(CGC)检出率提升至11.23%,在高置信度基因集(HiConf)的识别中同样表现优异。
数据资源特征
CTDdgv包含三大核心数据集:
技术验证亮点
在15个ctDNA数据集(含>500突变的大样本)的横向比较中,geMERlb展现出显著优势:
应用场景展示
数据库提供四大功能模块:
研究展望
当前版本尚存ctDNA检测灵敏度阈值的校正局限,未来计划整合:
生物通微信公众号
知名企业招聘