SCEPTRE框架在高多重感染率CRISPR筛选中的应用：提升基因扰动研究的统计准确性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BioSystems》：Enhancing statistical accuracy in gene perturbation studies

【字体：大中小】 时间：2026年06月03日 来源：BioSystems 1.9

编辑推荐：

　　由于技术混淆因素的影响，在高通量扰动研究中准确分析基因表达变化仍然是一个挑战。本文评估并扩展了最初由Barry等人（2021年）提出的SCEPTRE（通过条件重采样进行单细胞扰动筛选）框架，证明了其在高多重感染率（MOI）CRISPR筛选中的适用性。通过利用基

由于技术混淆因素的影响，在高通量扰动研究中准确分析基因表达变化仍然是一个挑战。本文评估并扩展了最初由Barry等人（2021年）提出的SCEPTRE（通过条件重采样进行单细胞扰动筛选）框架，证明了其在高多重感染率（MOI）CRISPR筛选中的适用性。通过利用基于重采样的方法学，本研究提出的方法能有效校正测序偏差，在保持统计效能的同时减少假阳性发现。

论文解读

研究背景与问题提出

随着池化CRISPR（成簇规律间隔短回文重复序列）介导的扰动筛选与单细胞RNA测序（scRNA-seq）技术的结合，功能基因组学的研究格局发生了革命性转变。这些技术能够以前所未有的规模和分辨率同时探究基因调控网络。然而，分析高多重感染率（MOI）的单细胞CRISPR筛选数据面临着巨大的统计学挑战。复杂性源于生物学和技术因素的交织，包括基因表达数据的稀疏性、跨细胞扰动检测的不均一性，以及受测序深度和批次效应影响的细胞水平混杂因素。传统的负二项回归（Negative Binomial Regression）等方法往往无法正确校正这些混杂的技术协变量，导致检验统计量失准和错误发现率（FDR）膨胀。例如，Gasperini等人的研究中观察到负二项回归模型导致p值膨胀，而Xie等人报告的Virtual FACS方法则产生了假阳性。因此，开发一种能够在高MOI环境下稳健校正技术混淆的方法显得尤为迫切。

研究方法

研究人员采用了条件随机化测试（CRT）框架，即SCEPTRE方法，并针对高MOI场景进行了优化。关键技术方法包括：首先，利用逻辑回归基于观察到的协变量（如总UMI计数、线粒体读数百分比、批次指示器和基因表达矩阵的主成分）对gRNA（向导RNA）的存在概率进行建模；其次，采用“回归蒸馏”（Regression Distillation）的两阶段估计程序加速计算，将运行时间从O(B·N·G)降低到O(N·G+B·G?)；第三，在重采样过程中，固定基因表达和协变量，根据估计的概率重新采样gRNA分配，从而构建校准的零分布；最后，引入偏t分布（Skew-t Distribution）来拟合零分布，使得在不增加重采样次数B的情况下也能计算小于1/B的精确p值。研究使用了两个高MOI数据集进行验证：包含207,324个细胞的Gasperini等人数据集（平均每个细胞28次扰动）和包含106,670个细胞的Xie等人数据集。

研究结果

挑战分析

研究发现，现有的标准统计策略存在显著局限性。参数方法虽然能校正混杂因素，但对分布设定错误不稳健；而非参数方法（如Virtual FACS）虽不受模型假设限制，却未能解释技术混淆。此外，gRNA检测数量与mRNA转录本数量之间存在显著相关性（Gasperini数据中ρ=0.35，Xie数据中ρ=0.25），这表明测序深度等因素同时影响了扰动检测和基因表达，从而引入了虚假关联。

模拟研究评估

通过广泛的模拟研究，研究人员评估了SCEPTRE在不同模型设定错误和混杂结构下的鲁棒性。模拟涵盖了正确离散度、过度离散、低离散和零膨胀等多种场景。结果显示，SCEPTRE在所有情况下均保持了准确的校准，而假定离散度为1的负二项回归在模型设定错误时性能显著下降。这证实了SCEPTRE在处理单细胞数据中常见的分布偏差时具有优越的稳定性。

实证数据分析

在Gasperini和Xie数据集上的应用表明，SCEPTRE不仅能维持统计校准，还能提高检测具有生物学意义的基因-增强子关联的灵敏度。具体而言，SCEPTRE识别出的链接在染色质互作信号（Hi-C）、转录因子结合（ChIP-seq）和表达数量性状位点（eQTL）方面表现出比传统分析方法更强的富集度。例如，在Gasperini数据集中，SCEPTRE剔除了原方法中超过20%的链接，并新增了超过40%具有更强生物学支持的关联。

讨论与结论

讨论部分指出，SCEPTRE通过条件随机化测试构建了校准的零分布，通过逻辑回归将gRNA检测建模为观察技术因素的函数，从而在统计上隔离了混杂因素后的残差关联。这种方法不仅适用于CROP-seq、ECCITE-seq等协议，且在高MOI环境下表现出卓越的校准能力和抗干扰性。尽管SCEPTRE目前不估算直接的效应大小或模拟多重扰动的协同相互作用，但其作为大规模CRISPR筛选的基础方法，未来有望通过结合双重机器学习或广义加性模型进行扩展。

研究结论

SCEPTRE代表了单细胞扰动分析领域的重大进步。它利用条件随机化测试（CRT）框架，执行不仅统计严谨而且能适应技术混杂因素的关联测试，且不依赖过于严格的参数假设。通过对gRNA检测概率的重采样和逻辑建模，SCEPTRE以一种校正测序偏差、批次效应和向导效率变异性的方式进行检验统计量的重新校准。该方法在基准数据集上的应用证明了其在零条件下的卓越校准能力、检测真实基因-增强子互作的更高灵敏度，以及通过Hi-C互作频率、ChIP-seq富集和靶基因邻近性所证实的更高的生物学发现相关性。

联系信箱：

粤ICP备09063491号

论文解读

热点排行