综述:利用机器学习进行宏基因组数据分析的趋势与应用
【字体:
大
中
小
】
时间:2025年10月08日
来源:mSystems 4.6
编辑推荐:
本综述系统探讨了机器学习(ML)在宏基因组数据分析中的前沿应用与挑战,涵盖从传统监督/无监督学习到时间序列建模、迁移学习、因果ML和生成模型等多种方法。文章强调可解释人工智能(XAI)的重要性,对比了ML与机制模型的优劣,并展望多组学整合、合成数据生成和智能体AI(Agentic AI)等未来方向,为微生物组学研究提供重要方法论参考。
宏基因组测序技术通过跨环境的高分辨率微生物分析,彻底改变了我们对微生物生态系统的认知。然而,其产生的高维、稀疏且富含噪声的数据为下游分析带来巨大挑战。机器学习(ML)为从这类复杂数据中提取有意义的洞见提供了强大工具。本文回顾了ML在宏基因组数据分析中的应用现状,涵盖从传统的监督与无监督学习,到时间序列建模、迁移学习,以及因果机器学习和生成模型等新兴方向。我们重点讨论了模型可解释性等问题,强调可解释人工智能(XAI)的重要性,并比较ML与机制模型在优缺点上的差异及协同潜力。最后,我们展望了多组学数据整合、合成数据生成和智能体AI系统等未来方向,指出人工智能与机器学习将在微生物组科学中扮演越来越重要的角色。
随着高通量测序和计算创新的发展,我们对不同生态系统中微生物多样性的认识大幅扩展。这些进展揭示了以往未知的物种、代谢途径和生态互作,它们共同塑造了微生物群落的结构与组成。这些群落的结构深受环境因素的影响,而微生物之间的相互作用又产生系统级属性,反过来影响环境。因此,了解这些群落对于理解生物地球化学循环、宿主健康和土壤养分动态至关重要。然而,生物数据的复杂性和规模给计算处理与正确解读带来挑战。宏基因组数据的一个显著挑战是其固有的组成性:由于总读数(即分配给分类群的序列读取总数)受测序深度限制,单个分类群的丰度受到其他物种存在与丰度的影响,从而导致虚假相关和偏差。此外,微生物组数据通常具有高维度、高变异性和冗余性,加之“维度灾难”问题——特征数(通常是不同生物的丰度)远大于样本数,使得数据解读更加复杂。为应对这些挑战,研究者越来越多地借助机器学习技术,以实现更有效的分析与解释。
CURRENT LANDSCAPE OF ML IN MICROBIOME RESEARCH
机器学习已成为微生物组研究中的关键工具,因其能够处理复杂的高维数据并发现传统方法容易忽略的模式。鉴于宏基因组数据具有噪声大、稀疏和不平衡的特点,这一点尤为重要。在这些数据集中,特征(即不同分类群的相对丰度)分布不均,存在大量稀有分类群和少数优势类群,这使得模型难以跨样本泛化。特征工程通过对原始数据进行转化,以更好地捕捉生物学相关信号,其技术主要分为两类:特征提取(将原始数据转换为更结构化、信息更丰富的表示)和特征选择(通过保留最相关特征来消除冗余)。尽管有多种方法可用于这两类操作,但手动调优特征工程与ML模型的组合既费力又容易出错。自动化方法如BioAutoML通过测试多个流程以确定最有效的组合,在提升性能的同时减少人工干预。
尽管稳健的特征工程奠定了基础,但ML模型的成功还取决于学习过程的结构,特别是在数据标注方面。目前,大多数用于微生物组分析的ML模型基于监督学习,这反映出领域对回答诸如病原检测、功能注释和疾病预测等具体问题的迫切需求,而这些都需要标注数据集。然而,对于许多重要场景(如罕见疾病、特殊人群或纵向研究),高质量标注数据仍然稀缺。这一限制推动了对半监督方法(如元模型无关伪标签学习MMAPLE)的兴趣,该框架利用教师-学生机制逐步改进预测,即使面对分布外样本也能有效工作。
在数据极度稀缺的情况下,迁移学习通过将在大规模数据集上预训练的模型适配到较小的相关数据集,提供了强大的替代方案。例如,EXPERT首先在全面的MGnify数据库上训练,然后针对从年龄相关微生物组变化到结直肠癌不同阶段等多种应用进行微调。
随着这些多样化的ML方法不断涌现,领域对标准化和基准测试的需求日益增长,以实现方法间的公平比较。大规模数据分析关键评估(CAMDA)通过社区挑战提供了一个开放框架,提供预整理的数据集和定义好的指标以客观评估模型性能。类似地,宏基因组解读关键评估(CAMI)使用真实数据集对组装、分类分析和分箱等工具进行基准测试,以确保可重复性。
考虑到这些进展,必须认识到当前微生物组研究中使用的广泛ML模型。表1总结了近期开发的ML工具及其在微生物组分析中的应用,这些工具涵盖多种ML方法,如时间序列分析、监督与无监督学习以及深度学习(DL)模型,专为应对微生物组数据分析的具体挑战而设计。
机器学习和深度学习算法在分析复杂高维数据集方面取得了显著成功。然而,尽管其预测能力强大,这些模型的内部决策过程往往是不透明的,因此被称为“黑箱”模型。这种不透明性源于其分析信息的内在复杂性和非线性,使得研究者难以追溯输入如何决定输出。在生物场景中,可解释性至关重要,依赖模型预测而不理解其底层逻辑可能产生误导甚至有害的结果。为解决这一问题,新兴的可解释人工智能(XAI)领域提供了旨在阐明模型推理的框架。
XAI主要旨在提供:(i)可解释性,即对预测给出定性洞察,通常以视觉或文本形式呈现;(ii)可说明性,促进人类理解模型的内部工作机制;(iii)因果性,确定模型在多大程度上复现了输入与输出之间的潜在因果关系。最广泛使用的XAI技术是事后解释方法,如LIME和SHAP(SHapley加法解释),它们在训练后诊断模型行为。
LIME是最早的通用模型无关方法之一,其核心思想是使用更简单、可解释的代理模型在局部近似原模型。具体而言,LIME对输入数据进行轻微扰动,观察预测变化,然后使用简单模型(如线性回归)拟合这些局部生成的数据,从而指出哪些特征(如微生物分类群)对特定预测影响最大。然而,这种局部保真度也可能成为弱点,因为它可能无法捕捉模型的全局决策逻辑。LIME适用于需要样本特定预测的问题,例如,为什么模型将某个微生物组样本分类为“高风险”,哪些特征对这一结果贡献最大。但由于其代理性质,LIME的解释有时可能与原模型的推理不一致。
另一种事后方法SHAP因其坚实的理论基础和可重复的输出而受到特别关注。它应用来自合作博弈论的Shapley值,根据特征对模型预测的贡献分配功劳或责任。在这一框架中,每个特征被视为博弈中的“玩家”,模型预测则是根据其边际贡献分配给它们的“支出”。例如,在Novielli等人的研究中,SHAP被用于分析土壤呼吸敏感性(Q10)的驱动因素,结果显示葡萄糖诱导的土壤呼吸以及与Q10正相关的细菌分类群比例 among the most influential predictors。SHAP通过测量有或没有每个特征时模型输出的变化来量化这些特征的贡献,提供了与已建立的生态理解(如微生物代谢在碳循环中的作用)一致的洞见。这展示了SHAP如何帮助揭示复杂环境系统中的关键生物学驱动因素。尽管SHAP作为一种技术极其稳健,但由于其博弈论基础,其解释仍依赖于模型在扰动下的行为——这是与LIME共有的脆弱性,可能被对抗性攻击利用。Slack等人证明了分类器如何被有意设计以欺骗事后解释方法,由于LIME的局部近似方法,其尤其易受影响。这些发现揭示了当前基于扰动的解释方法存在根本性漏洞,需求在对抗性稳健可解释性方面的新研究方向。
鉴于这些限制,定量评估ML模型至关重要。在微生物组研究中,使用适当的性能指标评估模型是标准最佳实践。对于有兴趣了解如何在微生物组应用中评估ML模型的读者,我们在补充材料中提供了相关指标及其适用场景的全面概述,包括任务-指标评分矩阵和术语表。图1展示了实施ML于宏基因组数据的一般工作流程。
最关键的是,这些挑战强调XAI旨在解释ML模型的内部逻辑和决策过程,阐明模型如何得出预测。以这种方式得出的解释不必反映潜在的生物学过程。因此,模型输出与生物学真实情况之间可能存在差异。因此,领域专家验证对于确立从这些模型推断出的结论的可靠性和生物学意义至关重要。
COMPARING AND COMBINING ML AND MECHANISTIC MODELS IN METAGENOMICS
在机器学习兴起之前,微生物组研究严重依赖机制模型(如布尔模型、常微分方程ODE和基于约束的模型)来描述微生物动态和相互作用。尽管本文重点关注ML在宏基因组数据分析中的应用,机制模型仍然扮演着重要的互补角色。两者各有优劣,选择使用哪一种应基于数据集的性质、质量以及研究目标。ML擅长在大规模、高维和时间序列数据集中识别非线性和复杂模式,但往往难以推断因果关系。相反,机制模型根植于假设生成和因果推理,旨在捕捉驱动微生物群落动态的潜在过程。例如,虽然ML模型可以区分健康与疾病状态的微生物组,但机制模型能够阐明养分浓度变化如何导致这种转变。Kuppa Baskaran等人最近的研究应用了这种方法,通过构建基于宏基因组的代谢模型预测深海热液喷口微生物组中的代谢交换和水平基因转移事件,为了解支撑群落结构的古菌-细菌相互作用提供了洞见。然而,这些模型可能受其底层假设的限制,且难以扩展到复杂数据集。它们的开发还需要领域专业知识以及大量的手工整理和分析工作。这推动了对因果ML的兴趣,其旨在以最小假设直接从观测数据中提取因果关系。
因果ML通过弥合相关-因果鸿沟提供了一个中间地带。它从数据中提取关联和潜在因果关系,增加了结果的可解释性。DoWhy是一个显式建模因果假设并对其进行验证的框架,与传统ML模型不同。其优势在于减少了由虚假相关导致的假阳性,并允许对结果进行机械性跟踪研究。
另一种巧妙部署ML的方式是将其与机制或统计模型结合形成混合策略。mbtransfer就是一个体现这一混合理念的 compelling 例子,该方法将ML与控制理论原理相结合,以研究干预如何随时间重塑微生物群落。与将因果关系视为事后考量的传统ML不同,mbtransfer将时间推理嵌入其框架:它使用传递函数——一个从工程学借鉴来的概念,用于模拟扰动(如饮食变化或出生事件)的延迟效应——并模拟反事实场景(例如,“如果干预没有发生会怎样?”)。这些模拟与镜像统计(一种通过比较数据分割结果来控制错误发现的统计方法)结合,使研究者能够识别对干预最敏感的分类群。尽管不是一个完全的机制模型,mbtransfer桥接了ML的可扩展性与因果ML的雄心,推断干预何时以及如何起作用。由此产生的假设随后可通过机制方法(如代谢模型或广义Lotka-Volterra方程)进行测试,创建一个反馈循环,其中ML驱动的发现为生物学验证提供信息。这与DoWhy等框架相呼应,但直接应对了微生物组特定的挑战,如稀疏时间序列数据和系统发育依赖性。
必须认识到,无论是ML还是机制模型,都无法弥补低质量数据或有缺陷的实验设计。每个实验组足够的样本量对两种方法都至关重要。ML方法在应用于小数据集时尤其容易过拟合。另一方面,机制模型需要足够的观测值来约束参数和验证假设。这引出了统计显著性,通常通过P值来表达,这一概念的发展是为了帮助研究者传达对其结果的信心。不幸的是,P值已被广泛误用甚至滥用,无论有意还是无意。宏基因组领域的研究往往效力不足,且越来越容易受到P值操纵(P-hacking)的影响,即研究者测试多个假设以找到一个看似显著的结果,尽管生成了大量数据。小样本量只会加剧这一问题,增加假阳性或假阴性的风险。Kers和Saccenti的研究是少数明确讨论小样本量如何扭曲Alpha多样性指标并强调在实验开始前进行统计规划的必要性的研究之一。作为一般准则,建议任何分析(无论是机制还是ML方法)每个类别至少需要25个样本。
最终,问题不在于选择一种方法而放弃另一种,而在于如何战略性地结合它们,以从微生物组数据中提取预测能力和机制洞见。这种ML与机制建模之间的协同作用已在药物发现等相关领域得到充分探索,将这些经验教训转化到宏基因组数据分析中存在大量机会。
基因是塑造我们生命轨迹的代码这一观点只道出了一半真相。基因并非自主运作;相反,它们更像一个数据库,生物系统根据情境进行访问和解释,而非一个独立执行的程序。因此,宏基因组学给我们的只是微生物DNA的一个非常静态的视图。要真正理解功能、背景和动态,我们必须超越DNA图像,纳入宏转录组学(RNA表达)、宏蛋白质组学(行动中的蛋白质)和代谢组学(所有活动的产物)。这些层面揭示了微生物在给定环境中的活跃行为。为应对此类生物学问题的复杂性,计算工具必须相应发展。MMAPLE就是这样一个工具,它是一个多模态、多组学框架,结合了多种数据类型并采用元学习方法,有望从复杂的微生物组数据集中提取有意义的洞见。因此,专为多组学整合与分析量身定制的新ML模型代表了解码微生物功能、背景和动态的下一个前沿。
然而,整合这些多样化的数据集并非易事。虽然多组学整合在概念上前景广阔,但技术上极具挑战性。对齐具有不同尺度、缺失值、噪声特征和批次效应的异质数据构成了无缝整合的重大障碍,需要创新的标准化或插补策略。此外,随着多组学、单细胞、时间和空间分辨率数据集的发展,计算效率可能成为限制因素。训练大规模模型——尤其是深度学习框架——需要 significant 的计算、内存、时间和能源资源,这对较小的研究组来说可能难以获取。
与传统的基于序列的宏基因组学并行,近来的努力开始探索测序技术产生的原始信号数据的未开发潜力。例如,Urel等人开发了一个深度学习框架,直接从原始纳米孔电信号推断微生物存活能力,绕过了读取水平分类分配的需要。这些基于信号的ML模型为识别微生物的功能状态(如存活与死亡)提供了新的可能性,并对去噪、分割和非结构化时间序列数据的特征提取等独特的预处理挑战提出了要求。随着基于传感器的宏基因组学的发展,开发针对此类数据的稳健信号处理和评估指标将至关重要。
人工智能(AI)的另一个新兴前沿是智能体AI系统(Agentic AI systems)的发展。这些混合框架将软件工程的结构化逻辑和确定性与AI的适应性相结合。最近的创新如AgentClinic、Agent Laboratory和AI合作科学家(AI co-scientist) exemplifies 向不仅分析数据而且积极协助实验设计、假设生成和解读的系统的转变。此类系统可在微生物组研究中发挥至关重要的作用,帮助探索干预措施或模拟计算机内的生态变化。
alongside 智能体AI,生成模型和大型语言模型(LLMs)正在为微生物组研究提供合成数据。例如,Evo 2等工具可以从稀疏读取中推断并“填充”MAGs的低覆盖区域,产生生物学上合理的基因组。这些重建的序列随后可用于测试特定突变或环境变化如何影响代谢输出,为我们提供洞察进化动态的计算机窗口。当然,每个合成数据集必须与真实测量进行基准测试,以防止偏见并确保我们构建的模型始终扎根于生物学。
尽管ML在宏基因组学中迅速崛起,许多挑战仍有待解决。首先,缺乏用于跨多样微生物组数据集评估模型的标准化基准——样本量、测序平台、注释深度和环境背景都差异巨大,使得跨研究比较变得困难。其次,当研究省略详细文档或未能共享容器化工作流程时,可重复性会受到影响。我们 urgently 需要开源工具、可共享的流程以及严格遵守可发现、可访问、可互操作、可重用、可重复(FAIReR)数据原则。最后,公共数据严重偏向欧洲和北美人群——南美微生物组档案(saMBA)预印本报告称,超过70%的已测序人类微生物组来自这些地区。这种地理和人群偏见威胁着我们ML模型的全球普适性。
总体而言,机器学习模型以及AI的新兴进展将对微生物组数据分析产生深远影响。下一个前沿在于将ML与机制模型和统计框架相结合的混合方法。作为微生物世界的制图师,我们必须调用每一种地图:从整合基因组学、蛋白质组学和代谢组学数据的多组学整合,到将深度学习与生态理论相结合的算法罗盘。只有掌握这一全套工具,我们才能真正驾驭这些悄无声息地统治着地球上生命的无形生态系统的无限复杂性。
作者感谢印度政府教育部提供的半时研究助理奖学金,以及国家技术增强学习计划(NPTEL)提供的博士前奖学金。作者对因篇幅限制未能引用的同行工作表示歉意。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号