
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于分治马尔可夫链蒙特卡罗的转录变异性可扩展推断方法BASiCS研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Theoretical Biology 1.9
编辑推荐:
针对单细胞RNA测序(scRNAseq)数据分析中贝叶斯推断计算瓶颈问题,研究人员开发了分治马尔可夫链蒙特卡罗(dBASiCS)方法。该方法通过数据分割和并行计算实现了大规模scRNAseq数据的快速分析,在保持BASiCS框架解释性和灵活性的同时,显著提升了计算效率。与变分推断(ADVI)相比,dBASiCS在准确性和可扩展性方面表现更优,为单细胞转录组学研究提供了新的分析工具。
随着单细胞RNA测序(scRNAseq)技术的快速发展,科学家们能够以前所未有的分辨率研究细胞间的转录异质性。然而,这种技术进步也带来了新的挑战——如何从海量的单细胞数据中准确提取生物学信号?特别是在量化基因表达变异性时,需要区分真实生物变异和技术噪音,这对统计方法提出了更高要求。BASiCS(Bayesian Analysis of Single-Cell Sequencing data)作为一款整合的贝叶斯层次模型,虽然能够同时完成数据标准化、技术噪音量化和表达变异性分析,但其基于马尔可夫链蒙特卡罗(MCMC)的原始实现面临严重的计算瓶颈,难以应对现代大规模单细胞数据集。
针对这一挑战,研究人员开发了分治马尔可夫链蒙特卡罗(dBASiCS)方法。该方法创新性地将"分而治之"策略应用于scRNAseq数据分析,通过将数据分割为多个子集并行处理,再合并推断结果,显著提升了计算效率。研究比较了dBASiCS与标准MCMC、变分推断(ADVI)等方法在准确性和可扩展性方面的表现,发现分治方法能够在保持推断准确性的同时实现高效并行计算。
研究采用了多项关键技术方法:1)分治MCMC算法,将数据按基因或细胞分割;2)分层抽样策略确保子集平衡;3)基于Stan的哈密尔顿蒙特卡洛(HMC)和自动微分变分推断(ADVI)作为对比方法;4)使用5个不同来源的scRNAseq数据集进行基准测试,包括Buettner等和Chen等发表的数据。
研究结果部分,"可扩展性"分析显示,dBASiCS的计算时间随子集数量增加呈近似线性下降,使用16个子集时能实现约16倍的加速。"估计性能:零设置"部分表明,即使使用较多子集,dBASiCS仍能保持较高的估计准确性,差异表达检测的假阳性率低于2%。"估计性能:前体体节与体节中胚层细胞"分析证实,dBASiCS在真实生物学差异检测中表现稳健。"dBASiCS性能与测序深度和样本量的关系"研究发现,该方法在测序深度较低(中位数<5000 reads/UMI)或细胞数较少(<500)时性能会下降。
研究结论指出,分治MCMC方法能显著提升BASiCS处理大规模数据集的能力,在多数情况下保持良好准确性。与变分推断相比,分治MCMC能更好地保持后验不确定性估计,这对下游分析至关重要。研究建议在细胞数>500、中位数文库大小>5000 reads时使用4-8个子集,可在速度与准确性间取得良好平衡。这项工作为单细胞转录组学的大规模分析提供了实用解决方案,同时也为其他高维基因组数据的贝叶斯建模提供了可借鉴的思路。论文发表在《Journal of Theoretical Biology》上。
生物通微信公众号
知名企业招聘