SIDISH:整合单细胞与转录组数据识别高危细胞并指导精准治疗的计算框架

《Nature Communications》:SIDISH integrates single-cell and bulk transcriptomics to identify high-risk cells and guide precision therapeutics through in silico perturbation

【字体: 时间:2025年12月11日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对单细胞RNA测序(scRNA-seq)成本高、样本量小且缺乏临床数据,而批量RNA测序(bulk RNA-seq)又掩盖细胞异质性的难题,开发了SIDISH深度学习框架。该工具通过变分自编码器(VAE)、深度Cox回归和迁移学习,整合单细胞和批量转录组数据,识别与不良预后相关的高危细胞亚群,并利用计算机模拟扰动筛选治疗靶点。在胰腺癌(PDAC)、乳腺癌(BRCA)和肺腺癌(LUAD)等数据中验证显示,SIDISH能发现与生存显著相关的生物标志物,且性能优于Scissor、scAB和DEGAS等现有方法,为精准医疗提供了新策略。

  
在癌症研究领域,科学家们一直面临一个棘手的问题:单细胞RNA测序(scRNA-seq)能够以前所未有的分辨率揭示肿瘤内部的细胞异质性,但高昂的成本限制了其在大规模患者队列中的应用,而且这些研究往往缺乏关键的临床数据,如患者生存信息,从而限制了其临床转化潜力。另一方面,批量RNA测序(bulk RNA-seq)虽然成本较低、易于开展大样本研究,但它只能提供细胞群体的平均基因表达水平,掩盖了不同细胞亚群之间的重要差异,而这些差异可能正是驱动疾病进展和治疗反应的关键。这种技术上的矛盾使得研究人员难以同时获得高分辨率的细胞水平信息和具有临床意义的大队列数据,阻碍了我们对复杂疾病机制的深入理解和精准治疗策略的开发。
为了破解这一难题,来自McGill大学健康中心研究所的Jun Ding团队在《Nature Communications》上发表了一项创新性研究,开发了一个名为SIDISH(全称Semi-supervised Iterative Deep Learning for Identifying Single-cell High-Risk Populations)的新型深度学习框架。这个工具巧妙地整合了单细胞和批量转录组数据的优势,能够识别与不良预后相关的"高危细胞"亚群,并指导精准治疗策略的开发。
研究人员为开展这项研究采用了几个关键技术方法:他们使用变分自编码器(VAE)从scRNA-seq数据中提取细胞异质性,通过深度Cox回归模型将细胞特征与患者生存数据关联,并设计了迭代学习机制不断优化模型性能。研究还引入了计算机模拟扰动模块来筛选治疗靶点,并将方法扩展到空间转录组学数据分析。使用的数据包括TCGA的批量RNA-seq数据集以及来自PDAC、BRCA和LUAD的多个单细胞和空间转录组学数据集。
SIDISH方法概述
SIDISH框架通过一个四阶段的迭代过程整合批量生存信号和scRNA-seq数据来识别与不良结局相关的高危细胞亚群。第一阶段使用变分自编码器(VAE)压缩高维scRNA-seq数据到有生物学意义的潜在空间;第二阶段通过迁移学习将训练好的编码器权重转移到深度Cox生存模型,用于预测患者生存风险;第三阶段根据预测的风险分数将细胞和患者分为高危和背景群体;第四阶段通过SHAP值分析迭代更新基因和患者的权重,优化模型识别能力。
SIDISH揭示胰腺导管腺癌中的高危细胞亚群和预后生物标志物
应用SIDISH到PDAC scRNA-seq数据集,研究人员成功识别出3,623个高危细胞(占总细胞8.63%),其中55.8%来自2型导管细胞(已知与侵袭性肿瘤行为相关)。这些高危细胞主要富集在肿瘤样本中(98.5%),表明SIDISH能有效区分有临床意义的信号。差异表达分析鉴定出323个上调基因,功能富集分析显示这些基因与代谢重编程和细胞周期调控等PDAC进展特征相关。临床验证表明,基于这些基因的签名能在两个独立数据集中有效分层患者生存风险。
SIDISH在乳腺癌中识别高危细胞和疾病标志物
在TNBC乳腺癌数据中,SIDISH识别出3,789个高危细胞(占8.91%),其中65.4%为癌症上皮细胞。这些细胞高表达与细胞外基质组织和血管生成相关的基因,这些过程对肿瘤进展和转移至关重要。生存分析显示,高危标志基因在TCGA-BRCA和两个独立数据集中均能显著分层患者生存。
SIDISH识别肺腺癌中与不良生存相关的高危细胞亚群
在LUAD研究中,SIDISH在4,102个肿瘤细胞中识别出168个高危细胞,这些细胞主要富集在3、2和7簇中。差异表达分析发现212个上调基因,包括ENO1、LDHA和CA9等已知的肿瘤进展相关基因。功能分析显示这些基因参与缺氧反应等关键通路,在两个独立验证数据集中的生存分析证实了其预后价值。
SIDISH在空间转录组学中识别肿瘤富集的高危细胞亚群
将SIDISH应用于10x Xenium PDAC空间转录组数据,成功识别出41,323个高危细胞,其中67.5%为肿瘤细胞。这些细胞的空间分布与肿瘤区域高度一致,功能分析显示其标志基因富集于程序性细胞死亡调控和黏着斑信号等PDAC相关通路。独立数据集的生存分析验证了这些空间衍生标志基因的预后价值。
SIDISH在识别高危细胞和预测生存结局方面优于现有方法
与Scissor、scAB和DEGAS等工具的基准测试表明,SIDISH在患者分层、预测准确性(C-Index)和已知癌症标志基因集的富集方面均表现更优。消融研究进一步证实了数据整合和迭代学习对SIDISH性能的关键作用。
SIDISH通过计算机模拟基因扰动识别治疗靶点和药物
SIDISH的计算机模拟扰动模块在LUAD中识别出AKT1、VEGFA、MAP2K1和CDK1等高优先级靶点,其中VEGFA和MAP2K1是已批准药物的靶点。组合扰动分析显示,同时靶向多个基因(如AKT1和CCND1)能更有效减少高危细胞。该功能也成功应用于PDAC和BRCA数据,识别出与临床阶段药物相关的靶点。
SIDISH实现患者特异性高危细胞分析和精准医疗见解
患者水平分析揭示了高危细胞组成的显著异质性,计算机模拟扰动显示不同患者对同一靶点的治疗反应存在差异,强调了个性化治疗策略的必要性。组合扰动分析进一步展示了针对患者特异性的联合治疗潜力。
这项研究的结论部分强调,SIDISH通过创新性地整合单细胞和批量转录组数据,建立了一个强大而灵活的计算框架,能够识别与临床结局相关的细胞亚群,并指导治疗靶点的发现。其迭代学习机制、空间转录组学扩展和计算机模拟扰动功能使其在精准医疗领域具有重要应用价值。研究展示了SIDISH在多种癌症类型中的有效性,证明了其在不同数据和疾病背景下的鲁棒性和通用性。
需要注意的是,SIDISH目前仍存在一些局限性,如计算资源需求较高,未来工作可能包括优化算法效率、整合多组学数据以及拓展到非癌症疾病领域。总体而言,这项研究为理解疾病异质性和开发个性化治疗策略提供了有力工具,有望在精准医疗领域产生广泛影响。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号