基于图深度学习的单细胞与批量转录组数据整合识别癌症临床亚型新方法

【字体: 时间:2025年09月12日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  为解决单细胞RNA测序(scRNA-seq)数据高维度、稀疏性和噪声对癌症亚型识别和临床预后预测的挑战,研究人员开发了scBGDL模型,通过构建样本特异性基因图并整合图注意力网络(GAT)、MinCutPool层和Transformer模块,在16种癌症类型和三大治疗场景中实现了优越的预后预测精度(C-index: 0.7060)和临床风险分层,为精准肿瘤学提供了可解释的多组学整合新范式。

  

癌症作为全球重大健康威胁,其高度异质性一直是临床诊疗的核心挑战。单细胞RNA测序(scRNA-seq)技术的出现,使科学家能够在单细胞分辨率下解析肿瘤微环境的细胞组成和状态异质性,为理解癌症生物学提供了前所未有的视角。然而,scRNA-seq数据存在高维度、高稀疏性和技术噪声等问题,且受成本和技术限制,样本量通常较小,难以直接与临床结局(如生存期和治疗反应)建立稳健关联,严重阻碍了其临床转化应用。

与此同时,批量转录组数据虽然来自群体细胞混合,但具有样本量大、临床信息丰富的特点,能够提供宝贵的群体水平临床洞察。如何整合scRNA-seq和批量转录组数据,取长补短,从而更准确地识别癌症亚型、预测患者预后和治疗反应,成为计算生物学和精准医疗领域亟待解决的关键问题。

传统的数据整合方法如特征融合和多分辨率技术,往往难以有效处理scRNA-seq数据的稀疏性和噪声,导致信息丢失和预测准确性下降。更重要的是,这些方法很少能有效捕捉高阶的基因-基因相互作用,而这些相互作用对理解癌症生物学机制和预测临床结局至关重要。

为了突破这些局限,来自哈尔滨医科大学和东北林业大学的研究团队在《Briefings in Bioinformatics》发表了题为"Graph-based deep learning for integrating single-cell and bulk transcriptomic data to identify clinical cancer subtypes"的研究论文,开发了一种名为scBGDL(单细胞和批量转录组图深度学习)的创新方法。该方法通过构建样本特异性基因图,整合先进的图神经网络技术,实现了对癌症亚型的精准识别和临床结局的精确预测。

研究人员采用多阶段技术路线:首先通过生存分析筛选临床相关关键基因,并计算单细胞与批量数据间的相关性;接着构建样本特异性基因图,其中节点代表关键基因,边表示基因表达相似性关系;然后设计多层图神经网络架构,结合图注意力网络(GAT)进行特征聚合,MinCutPool进行层次图压缩,以及Transformer模块捕获全局上下文和高阶关系;最后使用正则化Cox损失函数优化生存预测。

研究结果显示,scBGDL在16种TCGA癌症类型中表现出卓越的预测性能,平均C-index达到0.7060,显著优于现有方法(Scissor: 0.5781, scAB: 0.6709, LP_SGL: 0.6670)。在三大临床治疗场景的独立验证中,scBGDL同样表现出色:在肺腺癌(LUAD)生存预测中(n=1099),成功识别高风险患者并验证于多个独立队列;在上皮性卵巢癌(EOC)铂类化疗反应预测中(n=762),准确区分化疗敏感和耐药患者;在皮肤黑色素瘤(SKCM)免疫治疗结局预测中(n=305),有效识别免疫治疗应答者。

scBGDL方法识别与LUAD预后相关的临床亚型

通过对LUAD数据的分析,研究人员从发现队列GSE68465中识别出2343个预后相关基因(P<0.05),经过数据预处理保留8564个细胞。scBGDL为每位LUAD患者构建了图结构预后模型,将患者分为高风险和低风险组。高风险患者表现出显著更差的总生存期(log-rank P=3.84E-09,C-index=0.6367),这一发现在五个独立验证队列中均得到证实。

机制分析发现,LUAD预后网络包含39个高风险和172个低风险核心基因,通过778条边连接,其中鉴定出16条关键高风险驱动边(风险特异性>0.5;频率>20%)。这些边涉及的27个节点基因中,有10个经文献验证与LUAD患者预后相关,如DNM1L、PNO1、VDAC2等。通路富集分析显示,794个差异表达基因显著富集于12条KEGG通路,包括"细胞周期"、"DNA复制"和"p53信号通路"等。高风险患者在缺氧、增殖和干性评分方面显著更高,但免疫评分较低。

scBGDL解码EOC化疗反应亚型

在EOC化疗反应预测方面,研究团队从TCGA-OV发现队列中识别出1088个预后基因,提取3652个高质量单细胞。scBGDL成功将患者分为化疗应答和非应答组,非应答组表现出显著更差的总生存期(log-rank P=0.0046,C-index=0.6933)。模型预测与病理反应状态显著相关(Fisher精确检验,P=0.0003),且在两个独立验证队列中保持稳健性能。

构建的EOC化疗反应网络包含30个高风险和62个低风险核心基因,通过330条边连接,鉴定出32条关键无应答驱动边。其中9个基因经文献验证与EOC患者铂类化疗反应相关,如SLC7A11、CMTM4、TRIM27等。功能分析发现1296个差异表达基因富集于7条KEGG通路,包括"粘着斑"、"核糖体"和"ECM-受体相互作用"等。预测的应答者在凋亡和失巢凋亡评分方面显著更高,而在铜死亡和免疫原性细胞死亡评分方面较低。

scBGDL捕获SKCM免疫治疗预测生物标志物

在SKCM免疫治疗预测方面,研究识别出1019个预后基因,保留8132个高质量单细胞。scBGDL将患者分为应答和非应答组,非应答组无进展生存期显著缩短(log-rank P=1.10E-11,C-index=0.6698)。模型预测与病理反应状态显著相关(Fisher精确检验,P=2.10E-10),且在独立验证队列中得到证实。

构建的SKCM免疫治疗反应网络包含24个高风险和60个低风险核心基因,通过192条边连接,鉴定出14条关键无应答驱动边。其中8个基因经文献验证与SKCM患者免疫治疗相关,如TCF7、SP100、RUNX3等。功能分析发现167个差异表达基因显著富集于41条KEGG功能通路。预测的应答者显示17种浸润免疫细胞类型的丰度显著更高,如活化树突状细胞、活化B细胞、1型T辅助细胞和活化CD8+ T细胞等。此外,应答者中免疫刺激基因和HLA抗原呈递基因表达水平也更高。

研究讨论部分强调,scBGDL通过构建样本特异性基因图网络,有效捕捉了基因-基因相互作用的复杂性同时缓解了scRNA-seq数据固有的稀疏性和噪声问题。该模型整合了最先进的技术,包括用于特征聚合的GAT、用于降维的MinCutPool层和用于捕获高阶相互作用的Transformer模块,这些组件共同使scBGDL能够充分利用多模态转录组数据,确保预测准确性和生物学相关性。

在16种不同癌症类型中的验证揭示了scBGDL作为针对多样癌症类型的计算框架的显著适应性和稳健性。虽然scBGDL在大多数癌症类型中持续优于现有方法,但性能指标的变异性凸显了不同癌症生物学背景带来的独特挑战。

该方法弥合了基础研究和临床应用之间的差距,在三种临床治疗场景中展示了其改善癌症预后和治疗反应的潜力。scBGDL的一个关键优势是其增强现有临床指标的能力。通过将scBGDL衍生的风险评分与传统TNM分期整合到预测列线图中,该模型显著提高了多个队列的预后准确性,提供了与常规指标相比更精确的患者结局预测。

这种方法的可解释性方面也值得关注,它不仅可视化注意力权重和关键相互作用,还在分子相互作用网络水平阐明了模型决策背后的生物学机制。在LUAD中,研究发现术后复发由协调的线粒体代谢-蛋白质稳态网络驱动;在EOC中,铂类耐药性与核糖体生物发生和氧化磷酸化网络的共同激活相关;在SKCM中,免疫治疗无应答源于T细胞功能、抗原呈递和组织驻留的合作性故障。

研究结论指出,scBGDL建立了一个新颖的基于图的深度学习框架,能够稳健地整合单细胞和批量转录组数据。scBGDL在16种不同癌症类型中预后分层的持续优越性展示了其强大的普适性和广泛临床应用的潜力。该模型的多样性进一步通过场景特异性应用得到证明:LUAD生存预测、EOC化疗反应评估、SKCM免疫治疗结局预测。

通过增强临床指标和发现可操作的生物学见解,scBGDL弥合了计算生物学和临床实践之间的差距,为推进精准肿瘤学提供了一个可扩展的计算范式。然而,研究也存在一些局限性,其普适性可能受到数据集异质性的限制,特别是在SKCM免疫治疗等较小队列中。此外,scRNA-seq和批量RNA-seq数据集之间的批次效应和变异性可能影响整合准确性,需要先进的协调技术。未来的研究将侧重于更深入的生物学验证和模型改进以解决这些局限性。

总之,scBGDL代表了一种创新的多组学数据整合方法,通过结合单细胞分辨率的深度生物学洞察和批量数据的临床规模优势,为精准肿瘤学提供了强有力的工具。其能力不仅限于预测模型,更扩展到了解癌症生物学的机制基础,为开发新的治疗策略和生物标志物发现提供了宝贵资源。随着单细胞技术的不断发展和临床应用的扩大,像scBGDL这样的计算方法将在弥合基础发现与临床实践之间的差距方面发挥越来越重要的作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号