I-SVVS:基于随机变分变量选择的微生物组多组学数据联合模式挖掘新方法

【字体: 时间:2025年05月30日 来源:Briefings in Bioinformatics 6.8

编辑推荐:

  为解决高维微生物组多组学数据整合分析中存在的计算效率低、聚类准确性不足及关键特征识别困难等问题,东京大学团队开发了整合随机变分变量选择方法(I-SVVS)。该方法通过分层狄利克雷过程(HDP)整合微生物组(16S rRNA)和代谢组数据,采用无限狄利克雷多项式混合模型(DMM)和高斯混合模型(GMM)分别处理计数和连续变量,在3个真实数据集上实现最高0.891的调整兰德指数(ARI),计算速度较Clusternomics提升25倍,并能识别表征集群的关键微生物物种和代谢物特征。

  

微生物组研究正迎来多组学整合的时代。随着高通量测序技术的发展,科学家们能够同时获取微生物群落(如16S rRNA)和宿主代谢物等多维度数据。然而,这些数据的高维度、稀疏性和多重共线性给联合分析带来巨大挑战。现有方法如Clusternomics和iClusterPlus存在计算效率低、无法处理微生物计数数据特异性分布等问题,更缺乏识别跨组学关键生物标志物的能力。如何高效整合异质性组学数据,并解析微生物-代谢物互作网络,成为当前计算生物学领域的瓶颈问题。

针对这一挑战,东京大学联合理化学研究所可持续资源科学研究中心的Tung Dang等研究人员在《Briefings in Bioinformatics》发表研究,提出整合随机变分变量选择(I-SVVS)新框架。该方法创新性地将分层狄利克雷过程(Hierarchical Dirichlet Process, HDP)与随机变分推断(Stochastic Variational Inference, SVI)相结合,通过三个真实数据集(大豆、小鼠和人类肠道)验证,证明其不仅能实现样本精准聚类,还能识别驱动集群分化的核心微生物物种和代谢物特征。

关键技术方法包括:1)构建分层狄利克雷混合模型处理微生物组(16S rRNA)和代谢组数据,分别采用无限狄利克雷多项式混合模型(DMM)和无限高斯混合模型(GMM);2)引入二元潜变量Φmij实现跨组学变量选择;3)采用随机变分推断优化计算流程。数据来源于377个大豆样本(16,943微生物物种+265代谢物)、204个小鼠粪便样本(4,690分类单元+1,710代谢物)和338个人类肠道样本(3,347分类单元+103代谢物)。

材料与方法
研究团队设计了全局-局部双层聚类架构:全局层面通过截断stick-breaking过程生成共享集群权重Ψk,局部层面为每种组学数据构建特异性聚类权重Πmt。微生物组数据采用Dirichlet-multinomial分布建模,代谢组数据采用正态分布建模,通过变分分布q(Ξ)分解实现参数估计。计算优化方面,将变量分为局部变量(如样本分配)和全局变量(如集群参数),前者用坐标上升算法,后者用随机梯度法更新。

结果

  1. 计算效率与准确性:在大豆数据集(16,943微生物物种+265代谢物)上,I-SVVS仅需2.18小时完成分析,较Clusternomics(2.35天)和iClusterPlus(1.12天)显著提速。三个数据集的调整兰德指数(ARI)分别达到0.891、0.781和0.732,均优于对比方法。

  2. 关键特征识别:通过Φ1ij和Φ2ij'指标筛选出核心特征。大豆数据中,Chitinophagaceae(几丁质降解)和Nitrosomonadaceae(氨氧化)家族在对照组富集,而Microbacteriaceae(固氮)在干旱组显著。代谢网络分析发现1-氨基环丙烷-1-羧酸(ACC)和谷氨酸与微生物群落重构密切相关。

  3. 跨组学关联:小鼠OSA模型揭示Lachnospiraceae家族与胆汁酸(如鹅去氧胆酸)的共变模式,这可能是睡眠呼吸暂停引发代谢紊乱的关键通路。人类CDI数据集则显示特定微生物-代谢物模块与艰难梭菌感染的关联。

讨论
该研究通过I-SVVS框架实现了三大突破:1)首次将HDP与SVI结合用于微生物组多组学整合,解决了高维数据计算瓶颈;2)特征选择机制能识别如大豆中ACC代谢通路等生物学关键节点;3)开源工具支持16S rRNA与代谢组之外的数据类型扩展。局限性在于当前模

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号