
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于单细胞转录组数据方差分解分析的基因共表达网络推断新方法
【字体: 大 中 小 】 时间:2025年07月07日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
本研究针对单细胞RNA测序(scRNA-seq)数据存在的高噪声和稀疏性问题,开发了基于方差分解分析的基因共表达网络推断方法GCNVDA。该方法通过整合随机效应模型和细胞间相似性矩阵,显著提高了网络推断的敏感性和特异性,在胚胎发育和肿瘤微环境等研究中成功识别出关键功能模块和转录因子,为单细胞系统生物学研究提供了新工具。
在生命科学领域,理解基因如何在不同的细胞类型和发育阶段协同工作一直是重大挑战。单细胞RNA测序(scRNA-seq)技术的出现虽然为解析细胞异质性提供了可能,但数据的高噪声、稀疏性以及缺乏先验细胞类型标注等问题,使得从单细胞数据重建基因共表达网络(GCN)成为计算生物学领域的"圣杯"之一。传统方法如基于相关性的scLink或基于回归的GENIE3等,往往因忽略细胞间随机效应或依赖强参数假设而导致假阳性率高、功能模块识别不准等问题。
西北工业大学计算机学院的研究团队在《Briefings in Bioinformatics》发表的研究中,提出了名为GCNVDA的创新性解决方案。该方法通过建立包含基因水平随机效应项G和残差误差项E的矩阵正态分布模型,将表达量方差分解为不同来源,并引入细胞间相似性矩阵K来捕捉潜在细胞状态的影响。研究团队应用PX-EM算法进行参数估计,在人类胚胎干细胞、脂多糖刺激的树突状细胞和弥漫大B细胞淋巴瘤三个真实数据集上验证了方法的优越性。
关键技术包括:(1)构建矩阵正态分布模型Y=M+G+E,其中G~MNp×n(0,Vg,K);(2)通过PX-EM算法估计行协方差矩阵Vg和Ve;(3)利用monocle3计算细胞伪时间信息;(4)基于K-means聚类和clusterProfiler进行功能富集分析。数据集来自GEO数据库(GSE75748、GSE182434)和BEELINE基准平台。
GCNVDA准确推断定型内胚层细胞的基因共表达网络
在758个人类胚胎干细胞分化数据中,GCNVDA的AUROC达到0.582,显著优于对比方法。通过基因活性评分(GAS)分析发现SP6、ZFX等基因在分化过程中调控活性剧烈波动,其中ZFX与NANOG的相关系数从0.26变为-0.22,与文献报道的ZFX维持hESC多能性功能一致。
捕捉脂多糖刺激下树突状细胞的响应
在1700个小鼠树突状细胞数据中,GCNVDA识别出82个真实互作边。时间序列分析显示Gbp2、Cd40等基因的调控活性随刺激时间梯度上升,这些基因富集在"α-β T细胞分化调控"和"病毒生命周期调控"等通路,揭示了免疫应答的时序调控机制。
发现肿瘤细胞特异性转录因子
在DLBCL患者单细胞数据中,GCNVDA鉴定出FOSB(adjust-P=1.08×10-7)、JUNB等差异调控基因。通过JASPAR分析发现预测的转录因子TCF12与已知调控因子MYC具有高度相似的motif序列,证实了方法在肿瘤标志物发现中的价值。
该研究通过创新的方差分解框架,首次实现了在单细胞水平同时建模基因协同表达和细胞异质性的目标。相比现有方法,GCNVDA在保持计算效率的同时,显著提高了网络推断的生物学可解释性——在胚胎发育研究中成功捕捉到多能性基因的时序调控关系;在免疫应答分析中揭示了病毒-宿主相互作用的分子基础;在肿瘤微环境解析中发现了AP-1家族转录因子的新调控角色。这些突破为发育生物学、免疫学和肿瘤学研究提供了新的分析视角和工具支持。特别值得注意的是,方法对细胞间随机效应的显式建模思路,为处理单细胞数据的高维稀疏性问题开辟了新途径。未来整合空间转录组和表观组数据,有望进一步拓展其在复杂疾病机制解析中的应用前景。