基于变分贝叶斯神经网络(VBayesMM)的高维微生物组多组学数据关键关系挖掘新方法

【字体: 时间:2025年07月06日 来源:Briefings in Bioinformatics 6.8

编辑推荐:

  本研究针对高维微生物组-代谢组数据整合分析中存在的计算瓶颈和关键微生物物种识别难题,开发了VBayesMM算法。该创新方法通过引入spike-and-slab先验的贝叶斯神经网络架构,结合变分推断技术,在四个公共数据集上实现了代谢物丰度预测精度提升(SMAPE降低10-30%),并成功鉴定出与阻塞性睡眠呼吸暂停(OSA)相关的Lachnospiraceae等核心菌群及其与胆汁酸的互作网络,为微生物组驱动的精准医学研究提供了可扩展的计算框架。

  

在人体这个复杂的"微生物宇宙"中,肠道菌群通过代谢产物与宿主进行着持续对话。这种对话的异常与多种疾病密切相关,从炎症性肠病到癌症。然而解读这种跨组学对话面临三大挑战:高维数据(数万个微生物分类单元)带来的"维度灾难"、关键信号微生物的筛选困难、以及传统方法无法量化预测不确定性。东京大学等机构的研究团队在《Briefings in Bioinformatics》发表的这项研究,就像为科学家配备了一副"智能显微镜",能够从微生物组-代谢组的海量数据中精准捕捉关键生物学信号。

研究团队开发了VBayesMM(变分贝叶斯微生物组多组学)算法,其核心技术包括:1)采用spike-and-slab先验的贝叶斯神经网络架构,实现微生物特征自动选择;2)基于变分推断的优化策略,处理16S rRNA和宏基因组测序数据(来自四个公共数据集,包括阻塞性睡眠呼吸暂停小鼠模型和胃癌患者队列);3)通过条件概率矩阵量化微生物-代谢物共现关系。这种创新架构既保留了神经网络处理非线性关系的优势,又通过贝叶斯框架提供了概率解释。

【VBayesMM实现精准预测】
通过比较MMvec、MiMeNet等现有方法,在四个差异显著的数据集上(从913到57,702个微生物特征),VBayesMM的对称平均绝对百分比误差(SMAPE)全面领先。特别是在包含48,243个分类单元的胃癌数据集上,SMAPE较次优方法降低8.61%,且随着数据维度升高优势更显著。这种稳定的性能提升源于算法对非信息微生物特征的自动过滤能力。

【核心微生物发现机制】
研究通过spike-and-slab分布中的γi参数实现特征选择,如图3所示,概率分布呈现显著双峰特征——绝大多数微生物的γi值趋近0,而少数关键物种(如OSA模型中的Lachnospiraceae)则形成0.75-0.85的次峰。这种"大海捞针"式的筛选效果显著优于MMvec采用的均质化处理策略。

【疾病相关互作网络解析】
图5展示的共现概率热图揭示了OSA中关键菌群-代谢物关联:Lachnospiraceae与鹅去氧胆酸(chenodeoxycholic acid)的强相关性(log条件概率>2.3),以及Oscillospiraceae与胆酸(cholic acid)的特异性互作。这些发现与既往研究形成互证,如Lachnospiraceae通过胆汁酸代谢影响全身性炎症的生物学机制。

【计算效率突破】
虽然处理57,702维数据需时约5天,但相比传统MCMC方法,变分推断使计算成本降低1-2个数量级。如表S2所示,该方法在40核服务器上展现出良好的并行扩展性,为大规模临床队列分析提供可能。

这项研究开创性地将变分贝叶斯框架引入微生物组多组学分析,解决了高维数据下关键特征筛选和不确定性量化两大核心问题。其生物学价值在于:1)证实OSA中特定菌群通过胆汁酸通路影响宿主代谢;2)为HFD(高脂饮食)等条件下的菌群-代谢重编程提供新证据;3)建立的VBayesMM开源工具支持16S和宏基因组数据整合分析。未来方向包括扩展至meta-代谢组学数据,以及引入系统发育树结构信息进一步提升模型精度。这项工作标志着微生物组研究从相关性分析向机制解析和临床预测迈出了关键一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号