I-SVVS：基于随机变分变量选择的微生物组多组学数据联合模式挖掘新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月30日 来源：Briefings in Bioinformatics 6.8

编辑推荐：

　　为解决高维微生物组多组学数据整合分析中存在的计算效率低、聚类准确性不足及关键特征识别困难等问题，东京大学团队开发了整合随机变分变量选择方法（I-SVVS）。该方法通过分层狄利克雷过程（HDP）整合微生物组（16S rRNA）和代谢组数据，采用无限狄利克雷多项式混合模型（DMM）和高斯混合模型（GMM）分别处理计数和连续变量，在3个真实数据集上实现最高0.891的调整兰德指数（ARI），计算速度较Clusternomics提升25倍，并能识别表征集群的关键微生物物种和代谢物特征。

微生物组研究正迎来多组学整合的时代。随着高通量测序技术的发展，科学家们能够同时获取微生物群落（如16S rRNA）和宿主代谢物等多维度数据。然而，这些数据的高维度、稀疏性和多重共线性给联合分析带来巨大挑战。现有方法如Clusternomics和iClusterPlus存在计算效率低、无法处理微生物计数数据特异性分布等问题，更缺乏识别跨组学关键生物标志物的能力。如何高效整合异质性组学数据，并解析微生物-代谢物互作网络，成为当前计算生物学领域的瓶颈问题。

针对这一挑战，东京大学联合理化学研究所可持续资源科学研究中心的Tung Dang等研究人员在《Briefings in Bioinformatics》发表研究，提出整合随机变分变量选择（I-SVVS）新框架。该方法创新性地将分层狄利克雷过程（Hierarchical Dirichlet Process, HDP）与随机变分推断（Stochastic Variational Inference, SVI）相结合，通过三个真实数据集（大豆、小鼠和人类肠道）验证，证明其不仅能实现样本精准聚类，还能识别驱动集群分化的核心微生物物种和代谢物特征。

关键技术方法包括：1）构建分层狄利克雷混合模型处理微生物组（16S rRNA）和代谢组数据，分别采用无限狄利克雷多项式混合模型（DMM）和无限高斯混合模型（GMM）；2）引入二元潜变量Φ_mij实现跨组学变量选择；3）采用随机变分推断优化计算流程。数据来源于377个大豆样本（16,943微生物物种+265代谢物）、204个小鼠粪便样本（4,690分类单元+1,710代谢物）和338个人类肠道样本（3,347分类单元+103代谢物）。

材料与方法
研究团队设计了全局-局部双层聚类架构：全局层面通过截断stick-breaking过程生成共享集群权重Ψ_k，局部层面为每种组学数据构建特异性聚类权重Π_mt。微生物组数据采用Dirichlet-multinomial分布建模，代谢组数据采用正态分布建模，通过变分分布q(Ξ)分解实现参数估计。计算优化方面，将变量分为局部变量（如样本分配）和全局变量（如集群参数），前者用坐标上升算法，后者用随机梯度法更新。

结果

计算效率与准确性：在大豆数据集（16,943微生物物种+265代谢物）上，I-SVVS仅需2.18小时完成分析，较Clusternomics（2.35天）和iClusterPlus（1.12天）显著提速。三个数据集的调整兰德指数（ARI）分别达到0.891、0.781和0.732，均优于对比方法。
关键特征识别：通过Φ_1ij和Φ_2ij'指标筛选出核心特征。大豆数据中，Chitinophagaceae（几丁质降解）和Nitrosomonadaceae（氨氧化）家族在对照组富集，而Microbacteriaceae（固氮）在干旱组显著。代谢网络分析发现1-氨基环丙烷-1-羧酸（ACC）和谷氨酸与微生物群落重构密切相关。
跨组学关联：小鼠OSA模型揭示Lachnospiraceae家族与胆汁酸（如鹅去氧胆酸）的共变模式，这可能是睡眠呼吸暂停引发代谢紊乱的关键通路。人类CDI数据集则显示特定微生物-代谢物模块与艰难梭菌感染的关联。

讨论
该研究通过I-SVVS框架实现了三大突破：1）首次将HDP与SVI结合用于微生物组多组学整合，解决了高维数据计算瓶颈；2）特征选择机制能识别如大豆中ACC代谢通路等生物学关键节点；3）开源工具支持16S rRNA与代谢组之外的数据类型扩展。局限性在于当前模型对元转录组

热点排行

新闻专题

联系信箱：

粤ICP备09063491号