基于图论的致癌基因组合识别新方法BiGPICC:突破多基因突变组合检测的计算瓶颈

【字体: 时间:2025年06月08日 来源:BMC Bioinformatics 2.9

编辑推荐:

  针对传统方法难以检测多基因致癌组合的难题,Oak Ridge国家实验室团队开发了基于二分图社区检测的无参数算法BiGPICC。该方法通过分析TCGA突变数据的拓扑结构,成功识别出2-9个致癌基因组合(hits),在16种癌症类型中平均达到80.1%灵敏度和91.6%特异性,为精准医疗提供了高效的计算框架。

  

癌症的发生发展往往涉及多个基因突变的协同作用,这一现象被称为"多击理论"(multi-hit theory)。研究表明,不同癌症类型需要2-9个基因突变(hits)的共同作用才能诱发癌变。然而,随着组合规模的增大,传统穷举搜索方法面临指数级增长的计算挑战——例如识别5个基因组合需要评估0.26×1020
种可能性,即使使用Summit超级计算机也需要数年时间。现有方法如Dendrix、CoMEt等通常局限于检测≤5个基因的组合,且依赖互斥性假设等可能降低生物学相关性的参数。更关键的是,当前癌症筛查主要依赖单个"驱动突变"(driver mutations)的识别,但临床数据显示28%携带BRCA1突变的女性终生不患乳腺癌,说明单一突变不足以解释癌变过程。这些局限性严重阻碍了个体化精准药物的开发。

为解决这一难题,Oak Ridge国家实验室的Vladyslav Oles团队在《BMC Bioinformatics》发表了创新性研究。他们开发了名为BiGPICC(Bipartite Graph Partitioning for Identifying Carcinogenic Combinations)的图论算法,通过分析TCGA数据库中16种癌症类型的体细胞突变数据,成功识别出具有生物学意义的多基因致癌组合。该方法无需预设参数,直接利用基因-样本突变数据的二分图拓扑结构,突破了传统方法在检测≥5个基因组合时的计算瓶颈。

研究采用四大关键技术:1)将TCGA的体细胞突变数据(包含20,000基因和331例正常样本)建模为二分图;2)应用Leiden算法进行社区检测,迭代划分基因组合直至满足预设的hits范围(2-9);3)设置肿瘤比例阈值ρ过滤假阳性组合;4)采用贪心算法求解最小集覆盖问题,获得最简解释组合。所有计算在Summit超级计算机上完成,平均仅需146节点小时,相比穷举搜索提速数个数量级。

【Graph formulation using binary mutation data】
研究首先将基因-样本突变数据转化为二分图Gtum
,其中基因和肿瘤样本作为两类顶点,突变事件作为边。通过构建邻接矩阵[0 D; DT
0],系统捕捉了基因共突变模式。这种表示方法避免了分子相互作用网络的简化假设,直接利用原始突变数据的拓扑结构。

【Community detection】
采用恒定Potts模型(CPM)定义社区结构,通过最大化e(C)-γ|CG
||CS
|的质量函数,使用Leiden算法识别密集连接的基因-样本群落。为控制组合大小,研究实施迭代分区策略:当群落基因数超过上限u时,将其诱导子图再次分区。该过程重复10,000次以确保覆盖所有潜在组合。

【Filtering of candidates】
引入肿瘤比例r(CG
)=|Mtum
(CG
)|/|M(CG
)|指标,保留r≥ρ的组合。通过交叉验证确定最优ρ值,在BRCA(2-3 hits)等实验中达到0.9 MCC(Matthews相关系数),证明该指标能有效区分致癌与非致癌组合。

【Minimum set cover】
采用贪心算法构建最小集覆盖,每次选择能解释最多未覆盖肿瘤样本的组合。理论证明该方案能获得lnm近似解,其中m为最大覆盖样本数。最终获得的组合数从UCEC的3个到LIHC的59个不等,反映了不同癌症的分子异质性。

研究在合成数据验证中表现优异:当设置1000个模拟肿瘤样本时,BiGPICC能100%准确识别预设的3-8个驱动基因组合,即使存在100倍数量的"乘客突变"(passenger mutations)。与穷举搜索相比,在10/16癌症类型中达到相当或更好的分类性能,如CESC(6-7 hits)获得0.868 MCC。特别值得注意的是,尽管未使用COSMIC数据库进行训练,识别出的组合包含316个已知癌症基因,证明其生物学相关性。

在讨论部分,作者指出三个关键创新:1)首个直接利用突变数据拓扑结构的网络算法;2)突破性识别5+ hits组合的能力;3)完全参数无关的设计增强了方法普适性。局限性包括对"乘客突变"的区分依赖样本量,以及当前使用基因水平而非突变水平数据。未来可通过整合ICGC等多组学数据进一步提升性能。

这项研究为癌症基因组学提供了重要方法论突破。通过将组合识别问题转化为图论挑战,BiGPICC不仅大幅降低了计算复杂度,更开辟了利用数据拓扑特征发现致癌通路的新范式。其识别的高阶基因组合将为个体化治疗靶点筛选、癌症风险预测和精准药物开发提供全新视角,推动肿瘤学进入多靶点协同干预的新时代。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号