多组学数据集成:解锁癌症精准分型与治疗新密码

【字体: 时间:2025年05月14日 来源:BMC Bioinformatics 2.9

编辑推荐:

  癌症异质性强,现有分型方法存在局限。研究人员开展 “Integrating genetic and gene expression data in network-based stratification analysis of cancers” 研究,融合体细胞突变和 RNA 测序数据进行癌症分层分析,发现整合亚型与生存、组织学关联更强,为精准治疗提供依据。

在癌症研究的广袤领域中,癌症就像一个神秘而狡猾的敌人,它在不同患者身上展现出截然不同的特性,这就是癌症的异质性。这种异质性使得开发有效的治疗方法变得异常艰难。为了攻克这个难题,国际癌症基因组联盟(ICGC)和癌症基因组图谱(TCGA)等大型项目收集了海量的组学数据,涵盖了基因组、转录组和表观基因组等多个层面,希望能从中找到攻克癌症的线索。

然而,目前的癌症研究仍面临诸多挑战。以往利用 mRNA 表达数据进行癌症分型的方法,在一些癌症类型中效果不佳,比如结直肠癌,其分子亚型与临床表型之间的关系难以明确。此外,数据收集和测序过程中存在的技术和生物学偏差,如噪音干扰和肿瘤异质性,也给准确识别癌症亚型带来了困难。在这样的背景下,开发新的方法来整合多组学数据,提高肿瘤分型的准确性,预测预后并识别相关生物标志物,成为了癌症研究领域亟待解决的问题。


为了应对这些挑战,来自美国西北大学(Northwestern University)和南加州大学(University of Southern California)的研究人员 Kenny Liou 和 Ji-Ping Wang 开展了一项重要研究。他们提出了一种基于网络分层(Network-based stratification,NBS)的多组学方法,将体细胞突变数据与 RNA 测序(RNA-seq)基因表达数据相结合,对卵巢癌、膀胱癌和子宫癌进行肿瘤分层分析。该研究成果发表在《BMC Bioinformatics》杂志上,为癌症研究带来了新的曙光。


研究人员在此次研究中运用了多种关键技术方法:


  • 数据整合:从 TCGA 数据库获取卵巢癌、子宫癌和膀胱癌患者的体细胞突变和基因表达数据,通过公式Si=β×pi+(1?β)×qi将二者线性组合,构建综合特征,其中β为超参数,经优化后在卵巢癌、膀胱癌和子宫癌中分别取 0.8、0.3 和 0.1 。

  • 网络构建与传播:基于 PCNet 构建包含 2291 个节点的癌症相关基因子网络,将综合特征映射到该网络上,利用公式Ft+1=αFtA+(1?α)F0(α=0.7)进行网络传播,使突变基因的影响扩散到相邻节点,最终得到平滑的综合网络。

  • 聚类分析:运用网络正则化非负矩阵分解(Network-regularized NMF)和共识聚类方法,将患者聚类为不同亚型,通过轮廓系数(Silhouette scores)和调整互信息(Adjusted Mutual Information,AMI)评估聚类效果。

  • 生存分析:借助 lifelines 和 scikit-survival 等软件包,采用 Kaplan-Meier 生存曲线和 Cox 比例风险模型,评估亚型与患者生存的关联,同时纳入年龄、种族和性别等协变量。


通过一系列深入研究,研究人员取得了丰富且意义重大的结果:


  • 聚类评估:对比单一数据类型,多组学网络分层(Multi-NBS)聚类效果与 RNA-seq 聚类效果相近,且 Multi-NBS 聚类与 RNA-seq 聚类的 AMI 值较高,表明二者相似性强,而与体细胞突变聚类相似性低。这说明 Multi-NBS 聚类能形成结构良好的簇,为后续分析奠定了基础。

  • 生存分析:在卵巢癌和膀胱癌中,Multi-NBS 亚型与患者生存显著相关,比单一数据类型 NBS 亚型更具预测性。即便考虑临床协变量,Multi-NBS 亚型仍能有效预测生存。不过,子宫癌由于死亡率低,其亚型与生存无显著关联。

  • 与 TCGA 数据库亚型的关联:卵巢癌中,生成的聚类与 TCGA 亚型无显著关联;膀胱癌和子宫癌中,Multi-NBS 亚型与 TCGA 亚型的关联比单一数据类型 NBS 亚型更强,这显示出 Multi-NBS 在识别与临床相关亚型方面的优势。

  • 高评分基因:Multi-NBS 识别出的跨亚型高评分基因比体细胞突变 NBS 更多。如卵巢癌中的 BBC3 和 UBC、膀胱癌中的 ABCC1 等基因,在肿瘤发生、发展中发挥重要作用,凸显了 Multi-NBS 挖掘关键基因的能力。

  • 通路富集分析:利用基因集富集分析(Gene Set Enrichment Analysis,GSEA),发现不同癌症亚型的富集通路存在差异。卵巢癌中,亚型 2 与细胞因子和趋化因子受体相互作用相关,亚型 3 与 Wnt 和 Hippo 信号通路有关,亚型 4 在细胞周期和泛素介导的蛋白水解通路显著富集,这些通路差异有助于理解不同亚型的生物学特性和治疗靶点。


综合上述研究,研究人员得出结论:Multi-NBS 方法在癌症分型上优于单一数据类型分析,能更有效识别与生存和组织学相关的亚型,挖掘关键基因和通路。但该方法也存在一定局限性,如β值选择因癌症类型而异,缺乏统一标准。未来可探索更多数据集成方法,纳入更多遗传数据层,结合新的癌症诊断技术,进一步提升癌症分型的准确性和临床实用性。这一研究为癌症信息学中的数据集成提供了新思路,推动了个性化医学发展,助力寻找癌症的生物学驱动因素,对癌症研究和治疗具有重要的指导意义。


订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号