《Frontiers in Plant Science》:AI-driven integration and optimization of medicinal plant multi-omics metabolic networks
编辑推荐:
本综述系统阐述了人工智能(AI)在解析药用植物天然产物生物合成途径中的变革性作用。文章探讨了机器学习(ML)、深度学习(DL)和图神经网络(GNN)等AI技术如何高效整合基因组、转录组、代谢组等多组学(multi-omics)数据,构建基因-酶-代谢物调控网络,从而模拟动态代谢行为、识别关键调控靶点,并实现从栽培到提取的全链条优化,最终推动植物天然产物的可持续生物制造。
引言:当AI遇见植物“药工厂”
药用植物是药物发现的无尽宝库,但其体内天然产物的生物合成途径极其复杂,宛如一座精密的“化学工厂”。传统研究方法在解析这些复杂网络时面临巨大挑战,如多组学数据碎片化、难以捕捉动态非线性调控等。如今,人工智能(AI)—— 包括机器学习(ML)、深度学习(DL)、自然语言处理(NLP)和网络分析等一系列计算技术 —— 正以前所未有的深度融入这一领域,推动研究范式从传统经验驱动转向精准的数据驱动。
AI技术栈:破解多组学数据的核心工具
面对高维、异质的多组学数据,AI提供了一套完整的解决方案。其核心工作流程可概括为“数据→知识→设计→优化”。
在数据整合与预处理阶段,机器学习和深度学习方法为处理异质数据奠定了基础。例如,深度学习整合路线图为标准化和融合不同平台数据提供了框架。在丹参干旱胁迫研究中,通过对转录组和代谢组数据进行标准化,有效消除了尺度效应,实现了跨组学的相关性分析。
进入特征提取与模式识别阶段,监督机器学习善于从高维数据中筛选关键生物标志物。例如,在落地生根的研究中,非靶向代谢组学结合ML识别出了影响酚类合成的关键代谢物特征。深度学习模型,特别是卷积神经网络(CNN)和深度神经网络(DNN),则更擅长捕捉复杂的非线性关系,已应用于人参的物种分类和基因时空表达模式分析。一个有趣的创新是代谢组学数据整合与翻译(MetDIT)方法,它将一维代谢组学数据转换为类图像表征,再利用CNN进行分析,在样本分类任务上表现卓越。
网络构建与动态建模是理解系统功能的关键。图神经网络(GNN)在此阶段扮演核心角色,它能将生物实体(基因、蛋白质、代谢物)及其关系天然地建模为图结构,用于构建和分析基因-酶-代谢物调控网络。人工神经网络(ANN)则被成功用于模拟代谢过程的动态变化,例如在红豆杉细胞中模拟茉莉酸甲酯(MeJA)诱导的紫杉醇生物合成信号响应动力学,该模型与实验数据高度吻合(R = 0.9997),并揭示了细胞可能使用积分反馈控制机制进行精确调控。
在途径推断与优化方面,知识图谱(KG)和NLP技术通过整合领域知识和挖掘文献,支持酶功能预测和途径回溯。强化学习(RL)和结合遗传算法(GA)的优化策略则被用于探索巨大的工程设计空间中的最优解,例如优化提取工艺或预测最佳栽培条件。
从数据到设计:AI驱动的代谢网络建模与优化
AI不仅帮助理解代谢网络,更能直接指导其优化。
在网络结构建模与动态模拟上,GNNs和CNNs展现出独特优势。基于图表示学习和知识图谱推理的方法,可以整合基因、蛋白质、代谢物之间的复杂关联,自动推断并补全代谢途径中缺失的环节。在人参研究中,GNNs被用来整合多组学数据,构建基因-酶-代谢物关联网络,模拟不同生理条件下代谢通量的变化。
关键代谢途径与调控因子的识别是代谢工程的前提。AI既支持从目标分子反向推导合成步骤的逆生物合成,也支持正向筛选调控元件。例如,在甘草研究中,结合转录组和microRNA组数据,通过多步骤机器学习流程,从上千个候选转录因子中成功筛选并验证了一个调控甘草酸合成的关键R2R3-MYB转录因子。然而,这也凸显了该领域的一个核心瓶颈:高通量预测与低通量验证之间的巨大鸿沟,实际验证率可能低于0.1%。
AI还支持全链条代谢网络优化。在栽培环节,深度神经网络结合贝叶斯优化,利用多组学和环境数据成功预测了重齿毛当归中香豆素积累的理想条件(R2= 0.977)。在下游提取环节,人工神经网络的表现通常优于传统方法。例如,在优化石榴皮中鞣花单宁的脉冲超声波辅助提取工艺时,ANN结合多目标遗传算法(MOGA)的模型预测性能(R2= 0.97)超越了传统的响应面分析法(RSM),并且将实验次数减少了40%,同时将得率提高了23%。
案例洞察:三位一体的AI工作流
通过三个典型案例,可以更直观地看到AI工作流的全貌。
案例一:甘草 研究聚焦于解析甘草酸生物合成的调控网络。面对与已知合成途径基因共表达的数百个候选基因,研究人员没有使用简单的相关性分析,而是设计了一个结合表达谱、microRNA靶向信息和共表达网络的多步骤机器学习流程,从上千个候选者中优先筛选出了一个R2R3-MYB转录因子并进行实验验证,展示了AI如何将庞大的候选空间缩小至可实验验证的范围。
案例二:红豆杉 旨在模拟真菌诱导子触发细胞产紫杉醇的动态过程。研究构建了一个五层前馈人工神经网络,以时间和诱导子浓度为输入,直接学习细胞内活性氧(ROS)爆发和最终紫杉醇产量的动态关系。模型不仅实现了高精度拟合和预测,其分析还进一步揭示出细胞可能采用了一种积分反馈控制机制来调控信号响应,这是传统方法未曾发现的生物学洞见。
案例三:人参 体现了多种AI方法在单一植物系统中的互补应用。一方面,卷积神经网络(CNN)被用于分析不同组织和发育阶段的基因时空表达模式,以识别与人参皂苷积累相关的调控模块。另一方面,图神经网络(GNN)被用来构建基因-酶-代谢物互作网络并模拟代谢通量。同时,深度神经网络(DNN)利用代谢组学数据对人参不同物种进行鉴别分类,达到了100%的准确率,解决了物种鉴定的实际问题。
挑战与未来:迈向自主发现的“自动驾驶实验室”
尽管前景广阔,AI在药用植物代谢网络研究中仍面临诸多挑战。数据异质性与整合复杂性是首要难题,不同平台的多组学数据存在批次效应和尺度差异,且许多药用植物缺乏高质量的参考基因组。动态非线性调控机制的捕捉同样困难,例如MeJA处理中基因表达变化先于代谢物积累的“时间差”,给建立因果关系的AI模型带来挑战。此外,深度学习模型的“黑箱”特性及其可解释性与泛化能力不足,限制了其提供可验证生物学机制和跨物种应用的能力。最大的瓶颈或许在于实验验证的鸿沟,计算预测出的海量候选靶点与现实中有限的验证能力之间存在巨大落差。
展望未来,发展可融入物理化学约束的物理信息神经网络(PINN),有望在数据稀缺的情况下构建更可靠的动态代谢模型。结合高保真代理模型的强化学习(RL),则为在虚拟空间中全局优化培养条件、诱导策略提供了新路径。最终,一个可期的长期愿景是构建AI驱动的“自动驾驶实验室”,将机器人自动化、实时多组学分析和闭环AI整合起来,自主执行“设计-构建-测试-学习”循环,系统性地导航复杂的实验空间,从而极大加速药用植物天然产物的发现和优化进程。
结论
AI与药用植物多组学研究的融合,标志着该领域正迈向数据驱动的预测科学新范式。从处理复杂数据集、重建生物合成途径,到识别关键调控因子、优化代谢输出,AI技术已被证明不可或缺。当前应用在结合生物学知识和实验验证后,已在阐明植物特异性代谢方面展现出卓越能力。展望未来,克服数据整合挑战、加强计算与实验的协同、发展透明且可解释的多尺度模型,将是关键。随着多组学数据的积累和AI算法的日益精进,一个精准代谢工程的新时代正在到来,它将充分释放药用植物的生物合成潜力,为实现高价值天然产物的可持续生产开辟道路。