
-
生物通官微
陪你抓住生命科技
跳动的脉搏
零膨胀与N膨胀计数组合数据的有限混合分布建模及其在人类肠道微生物组研究中的应用
【字体: 大 中 小 】 时间:2025年08月17日 来源:Journal of Multivariate Analysis 1.7
编辑推荐:
本文推荐:作者创新性地提出了ZANIM(零-N膨胀多项式)和ZANIDM(零-N膨胀狄利克雷-多项式)两种有限混合分布模型,通过贝叶斯推断框架(MCMC算法优化)解决了计数组合数据中的零膨胀问题,并在人类肠道微生物组数据集(d=28个属级OTUs)中验证了其优于传统模型的性能。
亮点
我们提出了一种统一框架,将两种针对计数组合数据零膨胀问题的多元概率分布表征为有限混合模型:基于多项式组件的ZANIM(新型贡献)和基于狄利克雷-多项式组件的ZANIDM(首次完整概率描述)。该框架揭示了二者的核心统计特性(如矩、边缘分布),并为微生物组研究提供了更高效的贝叶斯推断工具。
分布推导
假设Y=(Y1,…,Yd)为d维计数组合向量,ZANIM和ZANIDM均被证明是包含K=2d个组件的有限混合分布,其混合权重η与零膨胀参数ζ相关(定义2)。
ZANIM与ZANIDM特性
两种分布的统计性质均源于其有限混合结构:ZANIDM通过狄利克雷先验处理过离散,而ZANIM以更简约的多项式组件捕捉零-N膨胀模式。定理1-2详细推导了其条件概率质量函数(PMF)。
贝叶斯推断方案
针对高维数据(如d=28的微生物属),我们开发了基于似然函数(式7-10,12-15)的MCMC优化算法:对ZANIDM隐变量边缘化处理,较Koslovsky[4]方案效率显著提升。
模拟研究
实验1验证ZANIDM参数推断的MCMC改进效果;实验2证明两种模型在零膨胀计数数据中的实用性,尤其适用于微生物组稀疏计数场景(如32.6%零值)。
微生物组数据分析
应用ZANIM/ZANIDM建模Wu[23]的98例人类肠道菌群数据集(Ni∈[1,183-15,447]),发现二者能精准解析不同属级OTUs的零膨胀异质性。
结论
本研究首次系统建立了ZANIM/ZANIDM的理论体系,其混合表征框架为微生物组等计数组合数据提供了灵活建模工具,附录A-B及补充材料详述推导细节。
生物通微信公众号
知名企业招聘