
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CellPhenoX:基于可解释机器学习的细胞表型识别方法及其在临床结局预测中的应用
【字体: 大 中 小 】 时间:2025年09月25日 来源:Advanced Science 14.1
编辑推荐:
本文介绍了一种创新的可解释机器学习方法CellPhenoX,该方法通过整合分类模型、可解释人工智能(XAI)技术和统计框架,从单细胞多组学数据中识别与临床结局相关的细胞特异性表型和交互效应。研究通过系统性基准测试验证了该方法在多种疾病模型(包括COVID-19、溃疡性结肠炎和乳腺癌)中的卓越性能,显著提升了细胞表型与临床表型关联分析的精度与可解释性,为转化医学研究提供了强有力的计算工具。
引言
单细胞组学技术的快速发展为解析疾病异质性提供了前所未有的机会,但如何从海量细胞数据中识别与临床结局相关的细胞表型仍面临巨大挑战。现有方法多依赖于基于聚类的差异丰度分析或线性混合效应模型,难以捕捉非线性关系和复杂交互效应,且缺乏可解释性与预测能力。机器学习技术虽能挖掘隐藏模式,但其“黑箱”特性限制了生物学解释和临床转化。可解释人工智能(XAI)技术如SHAP(SHapley Additive exPlanations)值虽在蛋白质组学中有所应用,但其在单细胞水平识别表型变化的能力尚不明确。
CellPhenoX方法概述
CellPhenoX通过整合分类模型与XAI技术,生成细胞特异性可解释评分,定量评估单个细胞对临床结局的贡献。其核心流程包括:首先将单细胞基因表达转换为样本间的细胞丰度矩阵(NAM),经降维后获取潜在维度Xi;随后以Xi、协变量γ(如批次效应)和交互项δ(如年龄)作为特征,训练分类模型预测临床表型Y(如疾病状态);最后通过SHAP值量化每个特征对预测的贡献,生成可解释评分ψm(公式17),识别与临床表型相关的细胞群体。该方法支持多种降维技术(如PCA、NMF)和分类算法(如随机森林、XGBoost),并通过嵌套交叉验证确保模型鲁棒性。
仿真数据验证性能
通过高斯混合模型(GMM)生成仿真单细胞数据,模拟疾病-对照组中细胞簇丰度差异(如簇A和J在疾病中扩增)。CellPhenoX在两种仿真场景中均表现出色:在fold change=3的仿真数据中,正确预测中位数比例达0.848;在fold change=0.1的复杂场景中仍保持0.710的精度,显著优于MiloR和CNA。SHAP分析显示PC1是驱动疾病-对照差异的关键特征(图2B-C),且可解释评分能有效分离疾病相关细胞类型(图2D-E)。XGBoost模型进一步验证了方法的通用性。
解析交互效应
针对疾病与性别、年龄等协变量的交互效应,CellPhenoX在仿真数据中成功识别出女性疾病中扩增(细胞类型B、J)和减少(细胞类型A、I)的细胞群体(图3C-D)。通过显式引入PC1:sex交互项,模型将LD1:sex识别为top贡献特征,显著提升对交互效应的捕捉能力(图S4)。这一功能弥补了现有方法(如CNA、MiloR)在交互效应检测方面的不足。
COVID-19中的单细胞蛋白组学应用
在COVID-19PBMC单细胞蛋白组数据中,CellPhenoX通过多分类模型(健康、轻症、中度)识别出与疾病严重度相关的髓系细胞表型。调整年龄、性别、吸烟状态等协变量后,可解释评分显著富集于增殖单核细胞(CD14+、CD16+),且PC1与年龄的交互项贡献最大(图4B-D)。相关性分析发现CD33、SIGLEC1、CR1、C5AR1等蛋白与评分显著相关(图4E),基因集富集分析揭示补体系统、干扰素γ反应和IL6-JAK-STAT3信号通路的激活(图4F),与既往研究一致。
溃疡性结肠炎与乳腺癌的临床应用
在溃疡性结肠炎(UC)成纤维细胞单细胞转录组中,CellPhenoX通过NMF降维和随机森林模型(AUROC=0.8)识别出炎症成纤维细胞作为组织炎症的关键预测因子(图5C-E)。WNT2B+成纤维细胞标志基因(如ADAMDEC1、CXCL12)与评分负相关,而炎症成纤维细胞标志基因(如CCL19、COL6A3)正相关(图5G),提示细胞状态连续过渡与疾病进展相关。通路富集分析显示TGFβ刺激的上皮-间质转化(EMT)通路激活。在三阴性乳腺癌(TNBC)T细胞数据中,可解释评分有效区分抗PD1治疗后克隆扩增与非扩增患者(图5H-I),并鉴定出LAG3、CXCL13、IFNG、GZMB、CTLA4等T细胞耗竭和功能相关标志物(图5J-K)。
讨论与结论
CellPhenoX首次将可解释机器学习系统应用于单细胞多组学数据,成功解析了线性、非线性和复杂交互效应,填补了现有方法在生物学解释和临床转化方面的空白。其优势包括:1)通过仿真框架实现 rigorous 性能评估;2)灵活支持多种降维和分类方法;3)提供细胞和患者水平评分,支持个性化风险评估和生物标志物发现。局限性包括对高异质性数据的过拟合风险、计算复杂度较高以及当前仅适配树模型等。未来可扩展至深度学习模型和其他单细胞模态(如ATAC-seq、空间转录组)。该工具在临床转化中具有多重潜力:基于可解释评分的患者分层、机制驱动的靶点优先排序以及透明化决策支持,有望显著推动精准医学发展。
实验方法
仿真数据基于高斯混合模型生成,通过控制方差比例(如细胞类型40%、疾病20%、批次10%)模拟生物场景。真实数据集包括UC(SCP259)、COVID-19(E-MTAB-10026)和TNBC(Google Drive链接)。数据处理采用log标准化和高变基因筛选,NAM构建基于随机游走概率(公式7-9)。降维使用PCA(100组件)或NMF(轮廓分数优选k值),Harmony去除批次效应。分类模型采用随机森林(嵌套交叉验证),SHAP值通过Fast TreeSHAP计算(公式13-16),多分类场景下按预测类聚合SHAP值(公式16)。基准测试中CNA和MiloR按默认参数运行。
生物通微信公众号
知名企业招聘