
-
生物通官微
陪你抓住生命科技
跳动的脉搏
I-SVVS:基于随机变分变量选择的微生物组多组学数据联合模式挖掘新方法
【字体: 大 中 小 】 时间:2025年05月30日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
为解决高维微生物组多组学数据整合分析中存在的计算效率低、聚类准确性不足及关键特征识别困难等问题,东京大学团队开发了整合随机变分变量选择方法(I-SVVS)。该方法通过分层狄利克雷过程(HDP)整合微生物组(16S rRNA)和代谢组数据,采用无限狄利克雷多项式混合模型(DMM)和高斯混合模型(GMM)分别处理计数和连续变量,在3个真实数据集上实现最高0.891的调整兰德指数(ARI),计算速度较Clusternomics提升25倍,并能识别表征集群的关键微生物物种和代谢物特征。
微生物组研究正迎来多组学整合的时代。随着高通量测序技术的发展,科学家们能够同时获取微生物群落(如16S rRNA)和宿主代谢物等多维度数据。然而,这些数据的高维度、稀疏性和多重共线性给联合分析带来巨大挑战。现有方法如Clusternomics和iClusterPlus存在计算效率低、无法处理微生物计数数据特异性分布等问题,更缺乏识别跨组学关键生物标志物的能力。如何高效整合异质性组学数据,并解析微生物-代谢物互作网络,成为当前计算生物学领域的瓶颈问题。
针对这一挑战,东京大学联合理化学研究所可持续资源科学研究中心的Tung Dang等研究人员在《Briefings in Bioinformatics》发表研究,提出整合随机变分变量选择(I-SVVS)新框架。该方法创新性地将分层狄利克雷过程(Hierarchical Dirichlet Process, HDP)与随机变分推断(Stochastic Variational Inference, SVI)相结合,通过三个真实数据集(大豆、小鼠和人类肠道)验证,证明其不仅能实现样本精准聚类,还能识别驱动集群分化的核心微生物物种和代谢物特征。
关键技术方法包括:1)构建分层狄利克雷混合模型处理微生物组(16S rRNA)和代谢组数据,分别采用无限狄利克雷多项式混合模型(DMM)和无限高斯混合模型(GMM);2)引入二元潜变量Φmij实现跨组学变量选择;3)采用随机变分推断优化计算流程。数据来源于377个大豆样本(16,943微生物物种+265代谢物)、204个小鼠粪便样本(4,690分类单元+1,710代谢物)和338个人类肠道样本(3,347分类单元+103代谢物)。
材料与方法
研究团队设计了全局-局部双层聚类架构:全局层面通过截断stick-breaking过程生成共享集群权重Ψk,局部层面为每种组学数据构建特异性聚类权重Πmt。微生物组数据采用Dirichlet-multinomial分布建模,代谢组数据采用正态分布建模,通过变分分布q(Ξ)分解实现参数估计。计算优化方面,将变量分为局部变量(如样本分配)和全局变量(如集群参数),前者用坐标上升算法,后者用随机梯度法更新。
结果
计算效率与准确性:在大豆数据集(16,943微生物物种+265代谢物)上,I-SVVS仅需2.18小时完成分析,较Clusternomics(2.35天)和iClusterPlus(1.12天)显著提速。三个数据集的调整兰德指数(ARI)分别达到0.891、0.781和0.732,均优于对比方法。
关键特征识别:通过Φ1ij和Φ2ij'指标筛选出核心特征。大豆数据中,Chitinophagaceae(几丁质降解)和Nitrosomonadaceae(氨氧化)家族在对照组富集,而Microbacteriaceae(固氮)在干旱组显著。代谢网络分析发现1-氨基环丙烷-1-羧酸(ACC)和谷氨酸与微生物群落重构密切相关。
跨组学关联:小鼠OSA模型揭示Lachnospiraceae家族与胆汁酸(如鹅去氧胆酸)的共变模式,这可能是睡眠呼吸暂停引发代谢紊乱的关键通路。人类CDI数据集则显示特定微生物-代谢物模块与艰难梭菌感染的关联。
讨论
该研究通过I-SVVS框架实现了三大突破:1)首次将HDP与SVI结合用于微生物组多组学整合,解决了高维数据计算瓶颈;2)特征选择机制能识别如大豆中ACC代谢通路等生物学关键节点;3)开源工具支持16S rRNA与代谢组之外的数据类型扩展。局限性在于当前模型对元转录组
生物通微信公众号
知名企业招聘