EPIC-unmix:基于经验贝叶斯框架整合单细胞与 bulk RNA-seq 数据提升细胞类型特异性推断精度

《Genome Biology》:Cell type-specific inference from bulk RNA-sequencing data by integrating single-cell reference profiles via EPIC-unmix

【字体: 时间:2025年11月22日 来源:Genome Biology 9.4

编辑推荐:

  本研究针对 bulk RNA-seq 数据无法解析细胞类型特异性(CTS)表达谱的瓶颈,开发了新型计算工具 EPIC-unmix。该方法通过两阶段经验贝叶斯模型,整合单细胞/单核 RNA-seq 参考数据与 bulk 数据,显著提升了 CTS 基因表达推断的准确性与鲁棒性。在模拟与真实阿尔茨海默病脑组织数据中,EPIC-unmix 较现有方法(如 TCA、bMIND)表现更优,成功识别出细胞类型特异性差异表达基因与 eQTL,为大规模疾病机制研究提供了新范式。

在基因组学研究中,组织水平的基因表达谱(bulk RNA-seq)虽能反映疾病整体状态,却无法揭示不同细胞类型对病理过程的特异性贡献。例如,阿尔茨海默病(Alzheimer’s disease, AD)患者大脑中神经元、小胶质细胞、星形胶质细胞等可能呈现截然不同的基因表达模式,但单细胞或单核 RNA-seq(sc/snRNA-seq)技术因成本高、噪声大,难以直接应用于大规模人群研究。如何通过计算手段从 bulk 数据中精准推断细胞类型特异性(cell type-specific, CTS)表达谱,成为当前领域的关键挑战。
为解决这一问题,Tang 等人开发了 EPIC-unmix(EmPirical bayes cell type-specific unmixing of bulk expression profiles),并于《Genome Biology》发表其方法论研究。该方法通过两阶段经验贝叶斯框架,首次在整合单细胞参考数据的同时,自适应地校正参考与目标数据集间的技术或生物学差异,显著提升了 CTS 推断的稳定性与准确性。
关键技术方法
研究利用 ROSMAP(Religious Orders Study/Memory and Aging Project)和 MSBB(Mount Sinai Brain Bank)队列的 bulk RNA-seq 与 snRNA-seq 数据,通过 MuSiC 估计细胞比例,结合贝叶斯先验构建与后验更新策略,实现 CTS 表达谱推断。基因筛选策略综合标记基因与多数据集一致性,提升可解析基因集的可靠性。下游分析包括 CTS 差异表达基因(DEG)与 cis-eQTL 检测,并通过 METAL 进行荟萃分析。
研究结果
1. EPIC-unmix 在模拟数据中表现卓越
通过人脑、小鼠脑及人外周血单核细胞(PBMC)数据的系统模拟,EPIC-unmix 在多数细胞类型中均达到最高 Pearson 相关系数(PCC)与最低均方误差(MSE)。例如,在人脑模拟中,其 PCC 较 bMIND 提升 187.0%,且对外部参考数据集(如 PsychENCODE)的适应性更强,证实其抗干扰能力。
2. 基因筛选策略显著提升推断精度
研究针对不同组织类型设计了基于标记基因与表达一致性的筛选流程。在 ROSMAP 人脑数据中,选定基因(如小胶质细胞 1,003 个基因)的 PCC 较未选定基因提升 45.2%,且该优势在多组织模拟中均成立,凸显策略普适性。
3. EPIC-unmix 赋能下游 CTS 分析
在 DEG 分析中,EPIC-unmix 在控制错误发现率(FDR)的同时,统计效能较 bMIND 平均提升 8.8%。在 AD 脑组织真实数据中,通过荟萃分析发现 14–49 个 CTS DEGs(如小胶质细胞中 AD 相关基因 SLC6A12、ADAMTS2),且与独立 snRNA-seq 结果高度一致(83–100% 效应方向一致)。
4. 发现新型 CTS eQTL 与表观遗传关联
通过 EPIC-unmix 推断的 CTS 表达谱,研究在 ROSMAP 与 MSBB 数据中鉴定出 125,259 个独特的 eGene-变异对,其中 21.8–26.0% 为 bulk eQTL 分析未捕获的 CTS 信号。例如,小胶质细胞特异性 eQTL rs78366152 位于 AP3B2 基因启动子区的染色质开放区域,且与 AD 风险基因座共定位,提示其潜在调控机制。
结论与意义
EPIC-unmix 通过两阶段贝叶斯框架,有效解决了现有去卷积方法对参考数据集依赖过强、稳定性不足的痛点。其在多组织、多物种数据中的稳健表现,以及下游 DEG、eQTL 分析的生物学验证,证实该方法在 sc/snRNA-seq 大规模应用前,为 CTS 机制研究提供了可靠计算工具。未来,该方法可拓展至甲基化等多组学数据去卷积,进一步深化对复杂疾病细胞异质性的理解。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号