EXPLANA:面向纵向微生物组研究的交互式特征选择工作流程开发与应用

《Bioinformatics》:EXPLANA: A user-friendly workflow for EXPLoratory ANAlysis and feature selection in cross-sectional and longitudinal microbiome studies

【字体: 时间:2025年12月20日 来源:Bioinformatics 5.4

编辑推荐:

  针对纵向微生物组研究存在非独立数据、多重时间点比较策略不明确、分类变量变化分析工具缺失等挑战,Fouquier等开发了EXPLANA工作流程。该工具整合混合效应随机森林(MERF)、BorutaSHAP特征选择算法,支持基于基线(First)、相邻时间点(Previous)和全配对(Pairwise)的Δ数据集计算,并能解析分类变量的顺序依赖性变化。在模拟数据和ECAM队列验证中,其平衡准确度达0.91,显著优于QIIME 2特征波动分析(0.56),为多组学纵向研究提供标准化分析方案。

  
在微生物组研究蓬勃发展的今天,科学家们能够通过高通量测序技术获取海量的微生物群落数据。然而,随着纵向研究设计的普及,如何从包含多重时间点的非独立数据中挖掘出真正与健康结局相关的微生物特征,成为摆在研究人员面前的难题。传统分析方法往往难以兼顾数据的时间依赖性、特征类型多样性以及结果的可解释性,特别是在处理分类变量(如药物使用顺序)的动态变化时更是缺乏有效工具。正是为了解决这些痛点,来自科罗拉多大学的研究团队开发了名为EXPLANA的创新性工作流程。
为了系统解决纵向微生物组研究的分析挑战,研究团队构建了一个基于Snakemake的自动化工作流程。该流程首先支持多数据集(如微生物组、临床指标、问卷调查)的预处理与融合,针对纵向数据独创性地构建三种Δ数据集:以基线为参照的First Δ、相邻时间点比较的Previous Δ以及全时间点配对的Pairwise Δ。特别值得一提的是,该工具首次实现了分类变量的顺序变化追踪(如"绿色_蓝色"药片顺序)和数值型变量的差异计算。
在特征选择核心算法层面,研究团队采用混合效应随机森林(MERF)处理重复测量数据,结合BorutaSHAP算法进行特征重要性评估和显著性检验。该方法不仅能够筛选出优于随机水平的特征,还能通过SHAP(SHapley Additive exPlanations)值量化特征对结局变量的影响方向与程度。最终生成的交互式HTML报告整合了方法描述、特征排名可视化、SHAP蜜蜂群图等组件,极大提升了结果解读的便利性。
关键技术方法包括:1)基于Snakemake的多语言工作流整合;2)针对纵向数据的三种Δ数据集生成算法;3)混合效应随机森林(MERF)与BorutaSHAP的特征选择框架;4)中心对数比(CLR)等微生物组数据特异性处理方法;5)交互式HTML报告自动生成系统。研究使用模拟数据集(SimFeatures/SimMicrobiome)和真实世界ECAM队列(43名婴幼儿的月度粪便样本)进行验证。
3.1 软件工作流程概要
EXPLANA通过配置文件引导分析流程,支持原始数据集与三种Δ数据集并行分析。其核心优势在于能够处理数值型和分类型变量,特别是首次实现对分类变量顺序变化的量化分析。例如在药物相互作用场景中,"胺碘酮__奎尼丁"的顺序组合可被识别为独立特征。
3.2 纵向模拟研究的工作流程评估与特征选择
在模拟幸福感干预研究中(100名个体×5个时间点),EXPLANA展现出卓越性能:对于不含微生物组的SimFeatures数据集,原始模型的平衡准确度达1.00,Δ模型中最低为0.79(Pairwise)。特别值得注意的是,工具成功识别出设计特定的特征模式:药片颜色变化"绿色_蓝色"仅在Previous和Pairwise模型中被检测到,而线性变化的"阳光"特征在Previous模型中漏检,印证了不同Δ策略的互补价值。
与QIIME 2特征波动(FV)工具的对比凸显了EXPLANA的统计严谨性:在SimMicrobiome数据集分析中,EXPLANA原始模型的误报率仅5/175,而FV工具高达155/175,平衡准确度分别为0.95 vs 0.56。这种差异主要源于BorutaSHAP提供的统计检验保障。
3.3 使用已发表研究的特征选择
在ECAM数据集重分析中,EXPLANA通过多模型互补策略发现37个FV工具未检测的菌属。值得注意的是,Blautia菌属在EXPLANA中的重要性排名(第6位)显著高于FV(第30位),这与该菌属在早期生命发育中的已知生物学意义更吻合。此外,单独分析分类变量时成功识别出抗生素使用从"无"到"有"(n_y)的顺序变化与月龄正相关,展示了工具处理现实世界复杂变量的能力。
本研究开发的EXPLANA工作流程标志着纵向微生物组数据分析方法学的重要进步。其创新性体现在三个方面:方法学上首次实现分类变量顺序变化的量化分析,技术上整合混合效应模型与可解释人工智能(XAI)方法,应用上提供标准化分析框架。虽然不同Δ模型存在特定局限(如Pairwise模型可能增加误报风险),但多模型并行策略有效保障了结果的全面性。该工具已通过开源平台(GitHub/Zenodo)共享,其模块化设计也为后续拓展(如支持其他机器学习算法)留下空间。随着多时间点组学研究的普及,EXPLANA有望成为探索微生物动态变化与健康关系的重要桥梁。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号