scPER:一种严谨的计算方法,用于根据总RNA测序结果确定肿瘤中的细胞亚型,并与癌症表型相对应

《Advanced Science》:scPER: A Rigorous Computational Approach to Determine Cellular Subtypes in Tumors Aligned With Cancer Phenotypes From Total RNA Sequencing

【字体: 时间:2025年11月29日 来源:Advanced Science 14.1

编辑推荐:

  scPER是一种结合对抗自编码器和梯度提升树回归的新方法,用于从bulk RNA-seq数据中准确估算肿瘤微环境中各类细胞的比例,并识别与临床表型相关的细胞亚群。研究显示scPER在多种癌症中(如黑色素瘤、膀胱尿路上皮癌、胰腺癌)显著优于现有方法,能高精度预测免疫治疗反应,并发现关键细胞亚群(如CD4+未成熟T细胞、表达FCRL3和SLAMF7的T细胞亚群)及调控信号通路(如TGFβ通路)。该方法通过整合多源单细胞数据并校正批次效应,实现了跨组织的高效细胞比例估计和临床关联分析。

  
scPER作为一种创新性的单细胞转录组数据整合与肿瘤微环境解析工具,在多个临床场景中展现了显著优势。该研究通过构建多源单细胞参考面板,结合对抗自编码器与XGBoost回归模型,有效解决了传统细胞去卷积方法存在的批次效应校正不足、跨组织泛化能力弱等问题。在 Bulk RNA-seq样本分析中,scPER展现出优于CIBERSORTx、BayesPrism等七种主流方法的预测精度,其核心价值体现在三个方面:首先,通过整合不同研究来源的单细胞数据,构建了包含11个关键细胞亚型的统一参考面板,覆盖了从免疫细胞到基质细胞的完整肿瘤微环境组成;其次,创新性地采用双网络对抗训练机制,在100维潜在空间中同步优化细胞类型表征与批次效应抑制;最后,开发出可解释性分析框架,不仅能精准预测免疫检查点抑制剂响应率,还能识别出具有临床意义的T细胞亚群(如CD4 naive T细胞亚群)及其调控通路。

在技术实现层面,scPER采用分层处理流程:预处理阶段通过标准化转录本计数、异常细胞过滤和基因选择,构建了包含5,000个高变基因的基准数据集。核心创新在于其双阶段训练机制——先利用自编码器提取潜在表征,再通过对抗训练消除批次效应。这种架构使得模型既能捕捉细胞类型间的复杂互作关系,又能有效分离技术噪声(如测序平台差异)和生物学变异(如不同患者间的免疫微环境差异)。实验数据显示,在PBMC样本测试中,scPER的细胞比例预测与流式细胞术实测数据的相关系数达到0.76,显著优于传统基于预定义基因集的方法。

临床应用方面,scPER在黑色素瘤和尿路上皮癌两种不同癌症类型中均展现出强大的预测能力。针对黑色素瘤免疫治疗反应预测,模型通过整合两个互补的单细胞数据集,构建了包含 Regulatory T cells、Effector memory T cells等11个亚型的参考面板。基于该面板,scPER能准确识别出影响免疫治疗应答的关键指标:在训练集(n=27)中,AUROC达到0.86,超过突变负荷指标0.68。在尿路上皮癌中,研究进一步发现CD4 naive T细胞比例与PD-L1抑制剂疗效呈显著正相关(p=0.003),并通过基因集富集分析揭示了TGF-β信号通路的关键作用。这种多组学整合分析框架使得研究者能够同时解析细胞组成变化与基因表达谱的关联。

方法论创新体现在三个维度:1)构建动态参考面板,通过对抗训练将不同来源的单细胞数据映射到同一潜在空间,解决了传统方法依赖静态参考面板导致的跨研究泛化能力不足的问题;2)开发双阶段特征提取机制,第一阶段通过自编码器提取生物特异性表征,第二阶段利用XGBoost回归建立细胞比例预测模型,这种架构使得模型既能保持对细胞类型生物学特征的敏感性,又能有效抵抗技术噪声干扰;3)建立可解释性分析链条,从细胞亚群识别到关键基因挖掘(如FCRL3和SLAMF7),形成完整的因果推断路径。

应用场景方面,scPER展现出三个重要优势:首先,在缺乏配对单细胞数据的场景(如固定石蜡包埋组织样本),通过跨组织参考面板仍能实现高精度去卷积;其次,在多中心临床试验中,能有效校正不同测序平台(如10X Genomics vs. SMART-seq2)带来的技术变异;再者,支持动态更新参考面板,当新单细胞数据集加入时,可通过增量训练优化模型性能。例如在胰腺癌研究案例中,通过整合两个不同研究来源的单细胞数据(共28,255细胞),构建的参考面板不仅包含肿瘤相关细胞亚群(如Fibroblasts、Endothelial cells),还能有效校正不同测序平台导致的批次效应。

性能验证方面,研究设计了三类对照实验:1)在PBMC样本验证中,通过真实流式数据与模型预测对比,scPER在5个主要免疫细胞亚群预测中均达到0.76以上的相关系数;2)在跨组织泛化测试中,使用黑色素瘤、卵巢癌和PBMC三组数据构建参考面板,成功预测前列腺癌样本中Monocytes/Macros的比例(误差<15%);3)在模拟数据测试中,通过随机生成细胞比例构建的100个虚拟样本,scPER在CD8+ T细胞亚群预测中表现出0.82的PCC,显著优于传统方法。

临床转化价值体现在两个方面:其一是精准分层,通过建立患者特异性细胞组成指数(Cell Composition Index,CCI),将免疫治疗应答者与非应答者正确分类。在黑色素瘤队列(n=27)中,模型通过CD4 naive T细胞比例和6个关键基因组合(包括SLAMF7、FCRL3等),实现应答预测准确率(AUC=0.86)接近临床指南的病理诊断标准;其二是机制解析,在尿路上皮癌中,发现TGF-β信号通路通过抑制CD4 naive T细胞增殖,导致PD-L1抑制剂疗效下降,这一发现为开发靶向TGF-β的联合疗法提供了理论依据。

未来发展方向包括:1)开发多组学整合模块,将空间转录组、蛋白组数据纳入分析框架;2)构建动态学习系统,支持临床样本的实时数据更新与模型迭代;3)拓展至肿瘤演进研究,通过时间序列样本分析揭示细胞亚群动态变化规律。该方法已通过GitHub开源(https://github.com/BrianLlll/scPER),并配套开发可视化分析平台,为临床研究提供了标准化分析工具链。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号