《Proceedings of the National Academy of Sciences》:Predicting the unseen: A diffusion-based debiasing framework for transcriptional response prediction at single-cell resolution
编辑推荐:
本文介绍了一种名为dbDiffusion的创新计算框架,该框架结合扩散模型(Diffusion Model)与分类器无关引导(classifier-free guidance),通过变分自编码器(VAE)在潜在空间生成单细胞转录组数据,能够准确预测未见过的遗传扰动(如CRISPR扰动)对基因表达的影响。与依赖大型语言模型(LLM)或基础模型的方法不同,dbDiffusion利用扰动嵌入(embedding)和去偏(debiasing)技术,显著提升了预测的准确性和统计推断的稳健性。在多个Perturb-seq数据集上的基准测试表明,该方法在预测扰动响应、构建置信区间(CI)及识别差异表达基因(DEG)方面均优于现有方法(如GEARS、scGPT等),为功能基因组学提供了可扩展的计算工具。
研究背景与意义
理解细胞对基因扰动的响应是揭示基因调控机制的核心。单细胞RNA测序(scRNA-seq)与CRISPR扰动技术(如Perturb-seq、CROP-seq)的结合,使得系统性、高分辨率解析基因功能成为可能。然而,大规模实验仍受成本和可行性的限制。因此,开发能够从已有数据中准确推断未测量扰动响应的计算方法至关重要。现有方法(如GEARS、scGPT等)虽有一定效果,但在预测未见扰动时常表现不佳,且依赖外部基础模型可能引入偏差。本研究提出的dbDiffusion框架,通过扩散生成模型与去偏技术,为单细胞水平的扰动响应预测提供了新思路。
方法概述:dbDiffusion框架
dbDiffusion的核心由两部分组成:变分自编码器(VAE)和扩散模型。VAE将高维基因表达数据压缩为保留生物信号的潜在表示,扩散模型则基于扰动嵌入(通过PCA等生成)进行条件生成。其关键创新在于分类器无关引导策略,使模型能够插值或外推至训练类别之外的扰动。
扩散模型通过前向过程(逐步添加噪声)和反向过程(从噪声中生成结构数据)学习数据分布。具体而言,前向过程满足随机微分方程(SDE):
dXt= -1/2 βtXtdt + √βtdBt,
其中βt为噪声调度函数。反向过程则通过估计得分函数?log p(Xt)实现去噪生成。dbDiffusion进一步引入去偏步骤,利用扰动聚类信息校正生成结果的偏差。
扰动嵌入与聚类策略
为预测未见扰动(如基因ZC3H13)的响应,dbDiffusion采用两阶段莱顿聚类(Leiden clustering):
- 1.
基于扰动效应矩阵(effect size matrix)进行PCA降维后聚类,得到扰动簇(Pi);
- 2.
在基因表达空间中对基因聚类(Gi),筛选与目标扰动相关的基因子集。
通过计算簇间重叠度(如Rand Index, RI),选择最优扰动簇,并将其嵌入均值作为新扰动的条件输入。若RI较高(簇结构一致),预测准确性显著提升;反之则可能因嵌入不匹配而性能下降。
去偏估计与统计推断
生成样本后,dbDiffusion通过预测Powered Inference(PPI)进行去偏,校正生成模型的系统性偏差。对于基因j在扰动K下的表达均值估计,公式为:
θ?jK= 1/N ∑? ?ijK+ 1/Kc∑k∈CK(1/nk∑? Yijk- 1/N ∑? ?ijk),
其中第二项为偏差校正项,基于同簇其他扰动(Kc个)的观测与预测差异。同时,通过方差分解(如τj2表示簇内扰动效应方差)构建置信区间(CI),支持差异表达基因的统计检验。
基准测试与性能验证
在Yao(免疫相关基因扰动)和Replogle(全基因组必需基因扰动)数据集上的测试表明:
- •
dbDiffusion在Pearson相关系数(PCC)和CI重叠比例上均优于GEARS、scGPT等方法,尤其在效应较小的Yao数据中优势明显(平均PCC≈0.5)。
- •
去偏步骤显著提升性能:若将相同去偏策略应用于scGPT等方法,其PCC也明显改善,说明去偏的普适价值。
- •
成功案例:如扰动PSMA4(Replogle数据集)的生成结果,在错误发现率10%、漏报率3%下准确识别差异表达基因。
生物學洞見與影響因素
预测性能受多因素影响:
- 1.
效应大小:Replogle数据扰动效应大,各方法均表现较好;Yao数据效应小,预测更具挑战性。
- 2.
嵌入质量:RI越高(效应簇与表达簇一致性高),dbDiffusion性能越优。例如,扰动AKT1(RI=1.0)预测准确,而MEF2C(RI=0.81)因簇匹配差而表现不佳。
- 3.
外部知识互补性:当数据驱动聚类效果不佳时,基于GO术语或LLM的嵌入(如scLAMBDA)可能提供补充信息,但也可能引入实验条件偏差。
讨论与展望
dbDiffusion通过结合生成模型与统计推断,实现了对未见扰动的可靠预测。其优势在于:
- •
不依赖大型AI模型,避免外部偏差;
- •
基于数据驱动的嵌入可解释性强;
- •
去偏步骤提升推断稳健性。
未来方向包括开发混合嵌入策略(结合生物网络先验)、动态模型选择框架(根据RI等指标自适应选择方法),以及拓展至多组学扰动预测。该方法为大规模功能基因组筛查提供了高效计算工具,有望降低实验成本并加速基因功能发现。