编辑推荐:
由于技术混淆因素的影响,在高通量扰动研究中准确分析基因表达变化仍然是一个挑战。本文评估并扩展了最初由Barry等人(2021年)提出的SCEPTRE(通过条件重采样进行单细胞扰动筛选)框架,证明了其在高多重感染率(MOI)CRISPR筛选中的适用性。通过利用基
由于技术混淆因素的影响,在高通量扰动研究中准确分析基因表达变化仍然是一个挑战。本文评估并扩展了最初由Barry等人(2021年)提出的SCEPTRE(通过条件重采样进行单细胞扰动筛选)框架,证明了其在高多重感染率(MOI)CRISPR筛选中的适用性。通过利用基于重采样的方法学,本研究提出的方法能有效校正测序偏差,在保持统计效能的同时减少假阳性发现。
论文解读
研究背景与问题提出
随着池化CRISPR(成簇规律间隔短回文重复序列)介导的扰动筛选与单细胞RNA测序(scRNA-seq)技术的结合,功能基因组学的研究格局发生了革命性转变。这些技术能够以前所未有的规模和分辨率同时探究基因调控网络。然而,分析高多重感染率(MOI)的单细胞CRISPR筛选数据面临着巨大的统计学挑战。复杂性源于生物学和技术因素的交织,包括基因表达数据的稀疏性、跨细胞扰动检测的不均一性,以及受测序深度和批次效应影响的细胞水平混杂因素。传统的负二项回归(Negative Binomial Regression)等方法往往无法正确校正这些混杂的技术协变量,导致检验统计量失准和错误发现率(FDR)膨胀。例如,Gasperini等人的研究中观察到负二项回归模型导致p值膨胀,而Xie等人报告的Virtual FACS方法则产生了假阳性。因此,开发一种能够在高MOI环境下稳健校正技术混淆的方法显得尤为迫切。
研究方法
研究人员采用了条件随机化测试(CRT)框架,即SCEPTRE方法,并针对高MOI场景进行了优化。关键技术方法包括:首先,利用逻辑回归基于观察到的协变量(如总UMI计数、线粒体读数百分比、批次指示器和基因表达矩阵的主成分)对gRNA(向导RNA)的存在概率进行建模;其次,采用“回归蒸馏”(Regression Distillation)的两阶段估计程序加速计算,将运行时间从O(B·N·G)降低到O(N·G+B·G?);第三,在重采样过程中,固定基因表达和协变量,根据估计的概率重新采样gRNA分配,从而构建校准的零分布;最后,引入偏t分布(Skew-t Distribution)来拟合零分布,使得在不增加重采样次数B的情况下也能计算小于1/B的精确p值。研究使用了两个高MOI数据集进行验证:包含207,324个细胞的Gasperini等人数据集(平均每个细胞28次扰动)和包含106,670个细胞的Xie等人数据集。
研究结果
挑战分析
研究发现,现有的标准统计策略存在显著局限性。参数方法虽然能校正混杂因素,但对分布设定错误不稳健;而非参数方法(如Virtual FACS)虽不受模型假设限制,却未能解释技术混淆。此外,gRNA检测数量与mRNA转录本数量之间存在显著相关性(Gasperini数据中ρ=0.35,Xie数据中ρ=0.25),这表明测序深度等因素同时影响了扰动检测和基因表达,从而引入了虚假关联。
模拟研究评估
通过广泛的模拟研究,研究人员评估了SCEPTRE在不同模型设定错误和混杂结构下的鲁棒性。模拟涵盖了正确离散度、过度离散、低离散和零膨胀等多种场景。结果显示,SCEPTRE在所有情况下均保持了准确的校准,而假定离散度为1的负二项回归在模型设定错误时性能显著下降。这证实了SCEPTRE在处理单细胞数据中常见的分布偏差时具有优越的稳定性。
实证数据分析
在Gasperini和Xie数据集上的应用表明,SCEPTRE不仅能维持统计校准,还能提高检测具有生物学意义的基因-增强子关联的灵敏度。具体而言,SCEPTRE识别出的链接在染色质互作信号(Hi-C)、转录因子结合(ChIP-seq)和表达数量性状位点(eQTL)方面表现出比传统分析方法更强的富集度。例如,在Gasperini数据集中,SCEPTRE剔除了原方法中超过20%的链接,并新增了超过40%具有更强生物学支持的关联。
讨论与结论
讨论部分指出,SCEPTRE通过条件随机化测试构建了校准的零分布,通过逻辑回归将gRNA检测建模为观察技术因素的函数,从而在统计上隔离了混杂因素后的残差关联。这种方法不仅适用于CROP-seq、ECCITE-seq等协议,且在高MOI环境下表现出卓越的校准能力和抗干扰性。尽管SCEPTRE目前不估算直接的效应大小或模拟多重扰动的协同相互作用,但其作为大规模CRISPR筛选的基础方法,未来有望通过结合双重机器学习或广义加性模型进行扩展。
研究结论
SCEPTRE代表了单细胞扰动分析领域的重大进步。它利用条件随机化测试(CRT)框架,执行不仅统计严谨而且能适应技术混杂因素的关联测试,且不依赖过于严格的参数假设。通过对gRNA检测概率的重采样和逻辑建模,SCEPTRE以一种校正测序偏差、批次效应和向导效率变异性的方式进行检验统计量的重新校准。该方法在基准数据集上的应用证明了其在零条件下的卓越校准能力、检测真实基因-增强子互作的更高灵敏度,以及通过Hi-C互作频率、ChIP-seq富集和靶基因邻近性所证实的更高的生物学发现相关性。