Airqtl:通过高效单细胞eQTL图谱解析细胞状态特异性因果基因调控网络
《Nature Communications》:Airqtl dissects cell state-specific causal gene regulatory networks with efficient single-cell eQTL mapping
【字体:
大
中
小
】
时间:2025年12月11日
来源:Nature Communications 15.7
编辑推荐:
单细胞表达数量性状位点(sceQTL)图谱绘制是解析基因调控异质性的关键技术,但计算可扩展性一直是瓶颈。本研究开发了airqtl方法,通过算法创新和高效线性混合模型实现108倍加速,首次实现从人群规模单细胞RNA测序数据中推断细胞状态特异性因果基因调控网络(cGRN)。研究在流感病毒感染模型中验证了cGRN的生物学相关性,为理解原发性人类细胞中基因调控电路提供了新范式。
在生命科学领域,理解基因如何被精确调控一直是核心挑战。随着单细胞技术的突破,科学家们现在能够在单个细胞分辨率下研究基因表达,这为解析不同细胞类型和状态下的基因调控网络(GRN)提供了前所未有的机会。然而,现有的计算方法往往混淆因果关系与相关关系,导致预测基因扰动效果时可靠性不足。虽然扰动实验如Perturb-seq能够提供因果证据,但这些研究多基于工程化细胞系和强人工扰动,其发现与自然人群中原代细胞的真实调控机制存在差距。
与此同时,孟德尔随机化(MR)利用自然遗传变异作为工具变量,为推断分子性状间的因果关系提供了强大框架。将MR应用于人群规模单细胞RNA测序(scRNA-seq)数据,理论上能够以更高细胞状态特异性推断因果基因调控网络(cGRN)。但这一愿景面临严峻挑战:单细胞eQTL(sceQTL)图谱绘制的计算可扩展性严重不足。现有方法难以在全基因组范围内完成所有顺式(cis)和反式(trans)sceQTL的映射,使得下游cGRN推断几乎不可行。
针对这一瓶颈,UMass Chan Medical School的Matthew W. Funk、Yuhe Wang和Lingfei Wang团队在《Nature Communications》上发表了最新研究,开发了airqtl这一高效方法。该方法通过算法创新和优化实现,突破了sceQTL映射的计算限制,并首次系统性地从人群规模scRNA-seq数据中推断出细胞状态特异性的cGRN。
研究团队主要采用了以下几种关键技术方法:首先开发了AIR(Array of Interleaved Repeats)数据结构,专门处理单细胞数据中常见的重复值模式,显著加速了线性混合模型(LMM)中的矩阵运算;利用Normalisr进行scRNA-seq数据标准化,有效减少了表达依赖性偏差;基于Randolph等人提供的人群规模scRNA-seq数据集(包含89名供体的255,731个外周血单核细胞,分别暴露于流感病毒或mock处理),进行了全面的基准测试和cGRN推断;采用扩展的线性混合模型来检测细胞类型特异性sceQTL效应,并通过孟德尔随机化框架推断cGRN。
研究团队通过系统基准测试证明了airqtl的卓越性能。与当前唯一专门设计用于sceQTL映射的频繁主义推理方法CellRegMap相比,airqtl在保持相当或更高统计准确性的同时,实现了超过八个数量级的计算加速。在效果大小估计方面,airqtl显著减轻了CellRegMap中观察到的表达依赖性低估偏差,这归因于使用了针对scRNA-seq优化的Normalisr标准化方法。
airqtl通过扩展的线性混合模型,成功实现了细胞类型特异性sceQTL的高效映射。该方法在线性和二次交互项中纳入了基因型、细胞类型和其他协变量,能够准确区分真正的细胞类型特异性效应与数据随机性。研究人员还开发了基于Beta分布的P值校准策略,有效解决了原始方法中零P值分布有偏的问题。
利用airqtl的高效映射能力,研究团队从Randolph数据集中推断出细胞状态特异性的cGRN。通过比较不同种群混合建模策略,发现最简单的vanilla方法(身份GRM无PC协变量)在多数细胞状态下表现最佳。研究证实,强cis-sceQTL SNP更可能表现出反式关联,支持它们用于cGRN推断的效用。
对推断出的cGRN进行比较分析,揭示了cGRN重连的多种模式。研究发现,相同细胞类型但不同条件下的cGRN最为相似,其次是相同条件下的不同细胞类型,表明cGRN的重连主要由细胞类型驱动,其次是外部条件。在流感条件下的CD4+T细胞中鉴定出的10,195个基因调控关系中,84%是细胞状态特异性的。值得注意的是,大多数调控因子(94%)不是已知的转录因子,凸显了airqtl从头推断细胞状态特异性cGRN的独特能力。
通过查询基因表达综合数据库(GEO),研究团队找到了STAT1的扰动实验数据集。比较显示,cGRN估计的STAT1效应大小与扰动实验结果高度一致(Pearson R=0.82)。此外,与STAT1染色质免疫沉淀测序(ChIP-seq)数据的比较证实了airqtl能够捕获ChIP无法检测的间接靶标。这些验证结果表明,推断的cGRN具有生物学意义,并直接反映了扰动结果。
该研究的结论部分强调,airqtl通过整合算法设计和实现方面的计算进步与成熟的线性混合模型,实现了相比最先进方法计算复杂度的显著降低。其前所未有的效率使得能够全面基准测试和客观优化细胞类型特异性sceQTL映射和种群混合处理。通过高效映射所有cis-和trans-sceQTL,airqtl独特地能够从头推断细胞状态特异性cGRN,这些网络反映了原发性人类细胞类型中的扰动结果。
讨论部分指出,虽然研究证明了airqtl在sceQTL映射中的稳健统计准确性并引入了若干优化,但本研究并非对统计性能的系统性基准测试或优化。相反,AIR提供的数量级加速克服了这些问题的可扩展性障碍,使它们能够进行专门的未来研究。一个有前景的未来方向是将细胞状态特异性线性cGRN表示为在多样化表达状态上运行的统一非线性cGRN。
这项研究的重要意义在于确立了从人群规模scRNA-seq数据集中推断细胞状态特异性cGRN的可行性,为未来研究中进一步基准测试和提高准确性铺平了道路。与基于DNA结合或表达预测性的GRN不同,因果推断方法专门为预测扰动结果而设计,在各个学科中取得了巨大成功。研究结果强调了cGRN特异性的内在和外在驱动因素,并凸显了细胞状态匹配数据对于解读细胞状态特异性基因调控的必要性。观察到的高度细胞状态特异性,与其他研究一致,强调了上下文特异性cGRN推断的生物学重要性以及人群规模scRNA-seq在研究自然遗传变异下原发性人类细胞方面的独特价值——这些优势是通过批量测序或在工程化细胞系中进行强功能丧失扰动的Perturb-seq实验无法实现的。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号