从大型语言模型(LLM)到智能代理:一种基于大型语言模型的机器学习框架,用于MgH?脱氢催化剂的研发

《Journal of Magnesium and Alloys》:From LLM to Agent: A large-language-model-driven machine learning framework for catalyst design of MgH 2 dehydrogenation

【字体: 时间:2025年10月23日 来源:Journal of Magnesium and Alloys 13.8

编辑推荐:

  AI驱动的镁氢化物催化剂设计框架整合LLM数据收集与ML预测,通过细调模型和GA逆向设计,提出Cat-Advisor多智能体系统,验证其与前沿实验一致,加速材料发现。

  镁氢化物(MgH?)作为一种具有高容量的氢储存材料,具有极大的应用潜力。然而,其实际应用受到了缓慢的脱氢动力学的限制。为了解决这一问题,研究团队提出了一种创新的“LLM到代理”框架,该框架结合了大型语言模型(LLMs)的自动化数据整理和机器学习(ML)的预测设计,从而实现了高效且精确的催化剂发现。通过这一框架,研究者构建了一个包含809种MgH?催化剂的全面数据库,共6555条数据,其构建效率是手动方法的约40倍。最终的机器学习模型在预测脱氢温度和活化能方面表现出较高的准确性,平均R2值超过0.91。这些预测结果进一步指导了遗传算法(GA)进行探索性的逆向设计,从而自主地揭示了高性能催化剂的关键设计原则。令人鼓舞的是,这些AI发现的设计原则与近期报道的先进实验系统的设计策略之间存在高度一致性,为我们的方法提供了有力的证据支持。

该框架最终形成了Cat-Advisor,一个新型的、领域适应的多代理系统。Cat-Advisor将机器学习预测和检索增强的知识库转化为可操作的设计指导,其在这一专业领域的表现超过了通用型LLM。这项研究提供了一个实用的AI工具包,加速了材料发现,并推动了基于代理的新兴范式在设计下一代能源技术中的应用。

氢作为一种可持续的能源载体,因其极高的能量密度(142 MJ/kg)和燃烧后产生清洁的水副产品而显得尤为重要。氢的卓越适应性,能够转化为电能和热能,使其成为大规模可再生能源整合和灵活能源部署的理想媒介。随着氢能经济的发展,高效且成本低廉的氢储存仍然是广泛采用的关键瓶颈。固态氢储存,特别是镁氢化物(MgH?),因其固有的安全性和高体积容量而被认为是具有前景的解决方案。MgH?具有高理论重量百分比容量(7.6 wt%)、丰富且低成本的组成成分,这使其在实际的氢储存应用中具有吸引力。

然而,MgH?的实际应用却受到热力学和动力学障碍的显著限制。高脱氢温度(通常高于300°C)和缓慢的氢吸收/释放动力学阻碍了其在常温条件下的运行。催化改性已被证明是克服这些限制的有效策略,通过降低脱氢温度和增强吸附动力学。然而,合理的设计催化剂仍然是一个严峻的挑战,因为参数空间不断扩大。这些参数空间不仅包括传统的催化剂组成、结构和形态,还包括材料科学前沿的新材料系统。此外,催化剂活性(即动力学)并不是实用性的唯一决定因素;实现长期循环稳定性同样是一个关键挑战。然而,对这一方面的建模极其困难,主要由于文献中报告的稳定性数据具有异质性和往往定性。

例如,基于镁的高熵合金(HEAs)的发展为催化提供了令人兴奋的新可能性。在《镁合金与合金》等期刊中,这些材料通常通过高能机械球磨法合成,可以形成独特的结构如非晶态或复杂的金属间化合物,从而提供丰富的活性位点和增强的结构稳定性。理解包含镁的HEAs的基本原理对于设计新的催化剂至关重要。这些新兴系统的巨大复杂性,加上JMA最近关于利用机器学习加速先进镁合金设计的研究,突显了开发像我们提出的这种数据驱动设计策略的迫切需求。

机器学习(ML)迅速成为一种变革性的、数据驱动的策略,加速材料发现,革新了先进材料在能源应用中的设计和优化,为传统的试错方法提供了强大的替代方案。早期的ML研究已经展示了其在预测金属氢化物和合金的氢储存性能方面的潜力。然而,随着研究的深入,其应用范围已经大大扩展。如今,ML在材料科学的整个领域都至关重要,例如在新型高熵合金和高性能钛合金的设计中;在先进复合材料的机械性能预测中;以及在先进制造技术如激光粉末床熔融等的优化中。在能源领域,这些技术同样产生了重要影响。例如,在氢储存中,ML已经识别出关键特征如平均离子特征和铁含量,以指导高性能材料的开发。同样,神经网络通过优化分子结构,促进了高度导电的碱性阴离子交换膜(AEMs)的设计,从而在燃料电池和水电解系统中实现了高效运行。除了氢能外,ML还加速了氢析出反应的电催化剂开发,使钙钛矿太阳能电池的材料筛选更加高效,并且为氧析出反应的多金属催化剂发现提供了便利。这些进展凸显了ML在材料科学中的广泛适用性和变革潜力。然而,传统ML模型的有效性通常受到大规模、高质量和结构化数据集的限制,尤其是在需要用于MgH?的催化材料中。

最近,人工智能(AI)的进步,特别是大型语言模型(LLMs),为科学探索提供了变革性的工具。LLMs,如ChatGPT、Claude、Gemini、Deepseek和Qwen等,展示了在自然语言处理、知识提取和模式识别方面的卓越能力。这些能力对于数据驱动的材料科学尤为重要,因为LLMs可以用于大规模文献挖掘、新材料设计以及实验流程优化。特别是在镁合金领域,最近的研究已经展示了这种潜力,通过开发特定领域的模型如MagBERT来从文本中提取材料特性,以及专家系统如PDGPT来简化相图信息的检索。

虽然LLMs与机器学习(ML)的协同作用正在成为材料信息学中的一个有前景的范式,但一个关键的瓶颈仍然存在:科学文献的非结构化形式与用于稳健预测建模的高质量、结构化数据集之间的差距。这在MgH?催化剂设计中尤为明显,因为几十年的实验数据被锁定在不同的文本格式中,阻碍了加速、AI驱动的发现。为了解决这一问题,本研究提出了一种结构化的“LLM到代理”框架。该流程首先由LLM1(数据整理)执行,其中使用先进的模型(GPT-4o)对科学文献进行自动化、高保真度的数据提取。这一步骤将文献中的数据整理为结构化的数据库,为后续的机器学习模型和遗传算法提供基础。最终,该框架形成了LLM2(专家建议),即Cat-Advisor,一个由领域适应、微调的LLM驱动的多代理系统。Cat-Advisor作为交互式AI代理,通过将机器学习预测与检索增强的知识库相结合,提供情境感知的建议。整个端到端框架通过数据提取、预测建模和交互式多代理建议系统的功能整合,提供了一种方法论模板,用于解决材料科学中的数据驱动挑战。

本研究的框架通过一系列步骤实现了数据提取和整理。首先,使用Web of Science进行系统文献搜索,使用关键词“催化剂”和“MgH?”,得到了759篇相关的文献。这些文献构成了我们的数据提取工作流,其过程分为四个关键步骤:PDF转Markdown格式,通过Nougat工具包完成;然后是基于提示的驱动数据提取,我们开发了一系列高度具体的提示,指导GPT-4o模型充当领域专家;接着是数据聚合,将为每篇文献生成的JSON文件程序化解析并整合为单一主数据库;最后是验证和整理,对原始数据库进行全面、半自动化的验证过程,以纠正错误并确保模型训练所需的最高数据保真度。

研究团队承认,从复杂的科学文本中进行自动化数据提取存在挑战,例如LLM“幻觉”可能导致单位不一致(如提取温度时使用开尔文而非摄氏度)或解析复杂符号(如“1.3 wt% at 300 °C, 3.7 wt% at 350 °C”)。为了解决这些问题并确保可扩展性,我们开发了一种半自动化的验证工作流,而不是依赖纯粹的手动校正。首先,在初始LLM提取后,一个自动后处理脚本执行一系列合理性检查。例如,它会标记MgH?脱氢温度超出物理合理范围(如>500),假定为开尔文,并自动转换为摄氏度。该脚本还尽可能标准化不同的符号。其次,所有自动标记或修改的数据点都会传递给专家在环的验证阶段。在这个步骤中,领域专家进行最终的快速审查以确认校正,确保模型训练所需的高数据保真度。这种两步过程显著提高了我们数据整理流程的效率和可靠性,使其更具鲁棒性和可扩展性,适用于未来的应用。

为了评估这种方法从催化剂文献中提取参数的性能,我们使用了精确度、召回率和F1分数作为主要指标。精确度量化了提取信息的准确性,确认了识别的数据点准确代表了预期的参数。召回率评估了提取过程的完整性,测量了成功检索到的相关数据点的比例。F1分数提供了一个平衡的指标,结合了精确度和召回率,提供了对方法整体性能的全面评估。我们的评估展示了文本挖掘方法的鲁棒性,同时识别了在处理复杂或格式不一致数据时的改进空间。这种彻底的评估对于改进提取方法至关重要,从而提高后续分析中结果集的可靠性和实用性。从这次评估中获得的见解将指导未来努力,以增强机器学习模型与领域特定知识的整合,最终推动镁基氢储存催化剂领域的发展。

在本研究中,我们使用了OpenAI提供的GPT API进行多个任务,所有操作均在Python 3.9.19环境中使用openai包(版本1.55.0)完成。为了将PDF文档转换为Markdown格式,我们使用了Meta的Nougat包(版本0.1.17)。数据提取和分类使用了GPT-4o模型,确保了信息的全面和准确。所有参数设置均符合openai Python包中指定的默认配置。在预测建模方面,我们实现了XGBoost模型(xgboost包,版本2.1.3),并结合其他机器学习算法使用scikit-learn包(版本1.5.2)。所有相关代码均在GitHub仓库中公开(链接:https://github.com/Weijie-Yang/cat_advisor)。

我们开发了四个机器学习回归模型:随机森林(RF)、梯度提升(GB)、决策树(DT)和XGBoost,以预测两种相互依赖的目标属性:MgH?脱氢催化剂(MDCs)的起始脱氢温度(T_onset)和活化能(E_a)。这些模型在scikit-learn包(版本1.5.2)的MultiOutputRegressor框架中实现,以同时预测这两个目标,同时考虑潜在的相关性。MultiOutputRegressor将每个目标视为独立的回归任务,对T_onset和E_a分别拟合一个基础估计器(如RF、XGBoost),预测定义为:[y^_T_onset, y^_E_a] = [f_T_onset(X), f_E_a(X)],其中X是输入特征矩阵,f_T_onset和f_E_a是每个目标的训练回归函数。为了确保两个属性之间的平衡学习,我们在MultiOutputRegressor框架中引入了一个隐式的多目标损失函数。对于给定的基础估计器,总损失L_total是各个损失的加权和:L_total = w_T · L_T_onset + w_E · L_E_a,其中L_T_onset和L_E_a分别是T_onset和E_a的均方误差(MSE)损失,y_T_onset和y_E_a是真实值,w_T和w_E是权重(各设为0.5),以确保在优化过程中两个目标的相等贡献。这种方法缓解了对一个属性的偏差,提高了整体预测准确性。

在模型训练后,我们使用引导的遗传算法(GA)进行探索性逆向设计,以识别具有最佳性能的新催化剂组成。算法探索了高维特征空间,包括受限的高潜力元素、分层催化剂架构和工艺参数。GA的详细实现,包括其非线性、高斯奖励函数和进化操作,详见补充信息(补充说明1,补充信息)。

作为介绍的一部分,我们的框架的第二阶段涉及创建Cat Advisor多代理系统。为了为该代理提供动力,我们使用Unsloth框架中的参数高效微调方法,通过优化的低秩适应(LoRA)技术对开源DeepSeek-R1-Distill-Llama-8B模型进行了微调,以满足催化剂研究的具体需求。这种方法选择性地更新分解的权重矩阵,将可训练参数减少了>90%,同时保持了基础模型的固有泛化能力。重要的是,我们在微调过程中引入了R1推理模块,以增强模型的结构化逻辑推理和多步推理能力,这对于复杂科学背景下的迭代分析和知识合成至关重要。微调在Ubuntu 22.04.5 LTS环境中使用RTX A6000 Ada图形卡进行,所有操作均在Python 3.10中进行,使用Unsloth(版本2025.3.1)、CUDA(版本12.4)、PyTorch(版本2.6.0 + cu124)和Triton(版本2.2.0)。此外,四比特量化被应用于减少GPU内存占用,使内存占用量降至7 GB,从而实现高效实验。Chain-of-Thought(CoT)数据集(链接:https://huggingface.co/datasets/Yy245/cot_2000)被用作微调的训练语料库。微调后的DeepSeek-R1-Distill-Llama-8B模型权重在Hugging Face上公开(链接:https://huggingface.co/Yy245/Cat-Advisor)。所有相关代码均在GitHub仓库中公开(链接:https://github.com/Weijie-Yang/cat_advisor)。

在本研究中,我们开发了一种LLM增强的框架,以系统和高效地从759篇关于“催化剂”和“MgH?”的Web of Science文献中获取实验数据。我们的框架使用多阶段预处理流程(图1a)来优化数据提取。首先,Nougat将PDF转换为Markdown。这种Markdown转换相比PDF,具有更简单的语法和增强的结构清晰度,显著提高了LLM对科学文本的解析和理解能力,特别是有助于准确识别关键实验参数及其关系。随后,通过使用优化的提示(图1b),我们迭代性地优化了GPT-4o的提示,结合领域专业知识和自然语言处理,逐步提高了目标参数提取的准确性。这种迭代、人机协作的方法改进了提示,为优化LLM在材料科学文献处理中的性能提供了宝贵见解。

使用GPT-4o API和优化提示对759篇Markdown文献进行批量处理,系统性地提取了一个包含2360个有效实验数据点的数据库,这些数据点来自809个独特的催化剂条目。该数据库包括16个关键实验参数(见表S1,补充信息),这些参数描述了催化剂的组成、合成、条件以及关键性能指标,如起始脱氢温度和活化能。为了确保数据的一致性并丰富数据库,为机器学习和多模态分析提供支持,我们将LLM输出限制为JSON格式,并整合了Materials Project数据库中的材料属性数据(见表S2,补充信息),以及文献元数据(DOI、年份)。这一结果结构化数据库,共有6555个数据行,显著提高了MgH?脱氢催化剂研究的数据可用性,比手动方法大幅加速了数据获取,同时保持了相当的准确性。

基于这一全面、高保真度的数据库,我们展示了其在MDC设计中的实用性。为了充分利用这一广泛的MDC数据库进行计算催化剂设计,我们构建了机器学习模型(Agent1),使用提取的催化剂参数(P1)、催化剂分类(P2)和Materials Project数据。Agent1采用MultiOutputRegressor框架,结合多目标损失函数来优化起始脱氢温度和活化能,同时使用遗传算法进行高效的候选识别。此外,为了创建一个更具互动性和知识丰富性的系统,我们使用Chain-of-Thought数据集(P3 & P4)对LLM(LLM2)进行了微调,同时整合了一个外部的检索增强生成(RAG)知识库(P1 & P2)。函数调用技术将机器学习模型(Agent1)与知识增强的LLM2(Agent2)集成,形成了一个强大的多代理系统,用于镁基脱氢催化剂(MDCs),其功能和应用将在后续章节中详细说明。

为了对LLM驱动的文本挖掘方法进行性能基准测试,我们建立了一个包含78篇随机选择的文献的测试集。性能评估通过比较DeepSeek、Qwen-max、GPT-4o和其他模型(模型版本见表S4,补充信息)在一致提示下的信息检索,与人工标注的黄金标准进行比较。标准指标,精确度、召回率和F1分数,被计算出来。如图2b所示,GPT-4o表现出优越的性能,实现了最高的F1分数,因此被选为我们的主要信息检索模型。

进一步的全面验证,涉及对2360个催化剂数据条目(约10,000个参数)进行人工评估,确认了GPT-4o在整个数据集中的高准确性(见图2d)。GPT-4o在所有16个关键参数上实现了F1分数超过0.83(详细指标见表S5,补充信息),展示了其在材料科学文献处理中的强大和可靠的信息提取能力。

为了进一步验证我们的方法,我们通过量化比较其效率与人工参数提取的效率进行了实验。我们的自动化方法在数据提取速度上实现了大约40倍的加速(见图2c),将759篇文献的人工提取时间从约253小时减少到仅6.3小时(效率比较的详细分析见图S6和补充说明3,补充信息)。这种时间的大幅减少(从超过一个月的全职工作到不到一天的计算)突显了我们方法的变革潜力。

在确认了LLM驱动的文本挖掘方法的效率后,我们接下来评估了LLM在催化剂分类中的性能,这是一个与更广泛的应用和研究趋势分析相关的重要任务。使用提示工程(见图S3,补充信息),我们使用GPT-4o对数据库中的催化剂进行自动分类,分为12个类别(见表S6,补充信息)。与人工标注的分类相比,LLM驱动的催化剂分类表现出高准确性(见图S7,补充信息)。经过人工验证后,我们将这些分类数据整合到数据库中,为后续的研究趋势分析提供了坚实的基础。

在催化剂材料趋势和性能景观的演变方面,我们分析了过去20年759篇相关文献的发表趋势,将文献年份与催化剂材料类别(见图3a)进行比较。时间分布揭示了自2000年代初以来MDC文献的波动增长,最近在2024年达到高峰,这可能反映了研究兴趣的周期性以及技术发展的阶段。值得注意的是,早期研究(2019年前)主要集中在二元和多金属合金,以及金属氧化物上,表明最初的尝试集中在MgH?脱氢的常规金属催化剂上。然而,近年来,研究显著多样化,更加关注复合、金属-碳复合和过渡金属基催化剂。这种多样化,如图3a所示,表明了向更复杂的催化系统演变的趋势,包括多组分协同催化、纳米复合材料,以及用于增强性能的精确活性位点调节策略。然而,金属氧化物仍然是一个持续研究的类别,这可能是因为它们的成本效益、简便的合成和化学可调性。

观察到的催化剂材料趋势演变,结合该领域数据稀缺的持续挑战(如引言中所强调的),直接促成了一个全面、高质量的数据库的构建,以用于机器学习应用。基于已有的方法,我们通过整合两个不同的来源来构建数据库:(1)通过我们的LLM流程从759篇文献中提取的809个独特催化剂组成的实验参数;(2)从Materials Project数据库中检索的这些组成的相关计算材料属性(如形成能、带隙)。为了增强模型的鲁棒性并考虑化学现实,其中一种组成可以表现出多种晶体结构,我们实施了数据增强策略。对于每个809种组成,我们查询了Materials Project中所有对应的稳定晶体结构(多形)。这种一对一的映射导致了总共6555个独特的结构-属性数据行。为了模拟微小的实验变化并防止在重复性能值上过拟合,对这些增强条目应用了小的随机扰动(±5%)。

这种实验性能数据与结构特定的计算属性的结合,创造了丰富的、高维的特征集,用于强大的模型训练。如图3b所示,我们的数据集的规模显著超过了在相关研究中报告的规模,解决了数据驱动催化剂设计的关键限制。数据集所捕捉的整体性能景观揭示了中位起始脱氢温度为240.00°C,中位活化能为93.06 kJ/mol,其显著变化突显了催化系统的复杂性。

为了进一步探索性能景观和催化剂材料类型、起始脱氢温度(T_onset)和活化能(E_a)之间的关系,我们开发了一个桑基图(图3c)。该图有效地可视化了催化剂类别在T_onset和E_a的10个离散区间上的分布,平衡了数据粒度与每个区间内的样本数量。桑基图(图3c)揭示了催化剂材料、T_onset和E_a之间的复杂相互作用。虽然大多数催化剂类型的分布跨越了多个T_onset和E_a范围,这表明材料类型本身并不是性能的决定性预测因素,并强调了诸如微结构、组分协同和制备方法等关键因素的显著影响,但仍然出现了可辨别的趋势。特别是,金属-碳复合催化剂(MCCs)和,次之,金属氧化物(MOx),在较低的E_a(<75.72 kJ/mol)和T_onset范围内表现出显著更高的比例。对于T_onset低于250°C的催化剂,计数是:MCC(46)、MOx(36)和双金属/多金属合金(BMA,20)。同样,对于E_a低于75.72 kJ/mol的催化剂,计数是:MOx(17)、MCC(16)和BMA(13)。这些数据,如图3c所示,表明MCCs和MOx在实现较低的脱氢温度和活化能方面表现出增强的潜力,尽管这一趋势在MCCs中更为明显,特别是在活化能降低方面。

对于MCCs,这种增强的性能可能是由于碳支持的高表面积,这有助于活性组分的分散,改善MgH?中的电子传输,并缓解MgH?的团聚现象。类似地,金属氧化物也被认为是通过多种机制(包括降低活化能、优化界面反应、形成新的催化相和增强氢扩散)来增强MgH?脱氢动力学。这些发现为我们的研究提供了坚实的证据,表明MCCs和MOx在MgH?脱氢催化剂中的重要作用。

综上所述,虽然催化剂材料显著影响脱氢,但材料类型内的广泛T_onset和E_a分布(见图3c)强调了有效的催化剂设计需要超越材料选择的综合方法。粒子尺寸、球磨比和催化剂负载等参数的协同优化对于合理设计和精确控制高性能镁基氢储存催化剂至关重要。未来的研究应优先考虑这种多参数优化策略。

在催化剂性能预测和特征工程方面,为了使MgH?脱氢催化剂(MDCs)的性能预测更加准确和高效,我们整合了来自Materials Project的催化剂材料描述符,与通过LLM驱动的文本挖掘(提示工程和验证详情见图S2和S3,补充信息)获得的催化剂设计参数和实验数据。这种整合产生了全面的数据集(6555个样本,61个原始描述符)。为了赋予模型化学直觉并增强其可解释性,我们开发了一种新颖的分层特征工程策略。这种方法将催化剂的身份分解为三个不同的、化学上有意义的类别:1)活性组分(如金属氧化物、双金属合金),2)支持材料(如碳基、MXene),3)合成形式(如支持、核壳)。这些与催化剂配方中导出的元素存在特征(如Elem_Ti)、关键工艺参数和计算的物理化学性质相结合,产生了用于模型训练的坚固特征集(见特征工程详情,补充说明4,补充信息)。

使用80:20的训练-测试分割,数据被预处理以处理缺失值,这些缺失值由于文献中未报告的参数而普遍存在。我们使用了K-最近邻(KNN)插补器,这是一种先进的方法,基于特征空间中相似度最高的数据点来估计缺失值。插补后,使用RobustScaler对特征进行缩放,以有效处理异常值。随后,我们开发并比较了四种建立的机器学习回归模型(详细解释见补充说明2,补充信息),即随机森林(RF)、梯度提升(GB)、决策树(DT)和XGBoost,采用MultiOutputRegressor框架同时预测MDC的起始脱氢温度和活化能,考虑潜在的相互依赖性。为了确保平衡学习,我们使用了一个隐式的多目标损失函数。GridSearchCV和RandomizedSearchCV,结合五折交叉验证,系统地优化了超参数,提高了模型的泛化和可靠性。

对这四种模型,现在使用了丰富的分层特征集进行训练,其性能评估见表1。为了全面评估模型对训练数据的拟合和对未见数据的泛化,指标在训练和测试集上进行了平均。结果表明,所有集成模型都达到了优秀的整体性能,其中XGBoost表现出最高的Overall Average R2值0.916,略优于梯度提升(R2=0.915)。在顶级模型之间一致的高性能突显了我们的分层特征工程在创建高度预测的特征空间方面的有效性。鉴于其领先的R2得分,XGBoost模型被选用于所有后续的逆向设计任务。训练和测试集的详细性能指标见补充信息(表S7),以进行模型泛化的细致分析。为了全面的视觉评估,GB、DT和RF模型的预测性能图见补充信息(图S12–S17)。

为了严格评估模型的泛化和诊断可能的过拟合,我们为所有四种模型生成了学习曲线(见补充信息中的图S18–S25)。我们最佳表现模型XGBoost的学习曲线具有代表性(见补充信息中的图S18–S19)。它们显示,随着训练集规模的增加,测试集上的R2得分持续提高并开始趋于稳定,而训练(R2=0.964)和测试(R2=0.867)得分之间的差距缩小。这种行为是良好泛化模型的特征,表明该模型受益于更多数据,而不会因高方差(过拟合)而遭受。这表明,尽管存在一个小的泛化差距:典型于复杂数据集,模型的性能是稳健和预测的。

此外,SHAP(SHapley Additive exPlanations)分析和特征重要性评估(图4c–d,图S26–S32,补充信息)提供了机制性的见解并提高了模型的可解释性。这种分析,现在由我们的分层特征工程所支持,不仅突出了催化剂组成,还突出了特定元素贡献(如钛的重要作用)、催化剂架构(如编码的活性组分)和工艺参数(如粒径和球磨)作为影响MDC性能的关键描述符。这与基础材料科学原理一致,为有针对性的催化剂设计提供了更细粒度、可操作的指导。

为了阐明性能背后的化学和物理驱动因素,我们在训练的XGBoost模型上进行了SHAP分析。结果(图4c–d)提供了前所未有的、细粒度的见解,这得益于我们的分层特征工程。对于起始温度(图4c),工艺参数如球磨速度(BM_Speed)和时间(BM_Time)仍然至关重要,突显了纳米结构的重要性。关键的是,元素特征Elem_Ti(钛的存在)作为顶级描述符,其存在(高特征值,红色点)显著推动了SHAP值向左,表明对降低起始温度有显著贡献。此外,编码的活性组分(Active_Comp_Enc)被识别为一个关键因素,确认了催化剂类的固有性质的重要性。

对于活化能(图4d),观察到类似的趋势。钛的存在(Elem_Ti)再次成为最具影响力的特征,持续降低活化能。这为钛在MgH?系统中的卓越催化作用提供了强有力的数据驱动证据。其他重要因素包括工艺参数(BM_Time、BM_Speed)和催化剂负载(Cat_MassFrac)。SHAP分析表明,我们的分层和元素特征捕捉了关键模式,将模型转变为更可解释的工具,用于科学探索。

通过建立一个高精度且可解释的预测模型,我们进行了框架的最终测试:其在完全未见材料上的逆向设计能力和预测能力。为此,我们实施了一个全面的、多方面的验证策略,使用了从最新文献(2025年)中精选的8种先进的催化剂系统。这些材料包括复杂的复合材料、高熵合金和LDH衍生材料,这些材料在我们的训练数据中完全缺失。首先,我们评估了训练模型的前向预测能力。结果(图4e和f)比较了模型对未见催化剂的直接预测与实验值。在这些具有挑战性的新材料上表现出优秀的预测能力,证实了模型已经学习了基础的结构-性能关系,并能够准确地外推到新的化学空间区域,为逆向设计提供了坚实的基础。

接下来,为了引导逆向设计过程进入化学肥沃和相关区域,我们进行了统计分析,以识别性能的关键元素驱动因素(图5a和b)。这项分析揭示了一组“有效元素”(如Ti、V、Ni、Mn、C),这些元素与性能的提高密切相关。为了将模型的知识与迅速发展的实验前沿相结合,我们将这些数据驱动的元素池与2025年文献中突出的其他元素(如Fe、Nb、Mo、Zr、La)相结合。这一组合的16种高潜力元素形成了GA的受限化学搜索空间,确保了聚焦且探索性的搜索(见补充说明1中的完整元素列表,补充信息)。

然后,我们使用这一指导GA进行探索性逆向设计,以识别具有最佳性能的新催化剂组成。GA迭代性地进化了一组候选催化剂,利用训练的XGBoost模型作为适应度评估器。为了引导搜索向有希望且物理现实的候选材料,实施了一个非线性的适应度函数,以奖励具有较低预测T_onset和E_a的催化剂设计(见表S8和补充说明1的详细信息,补充信息)。T_onset和E_a在世代中的演变见图5c和d。这些图展示了GA的有效性,显示随着优化的进行,T_onset和E_a的收敛趋势明显。四分位数范围(阴影区域)也变窄,表明群体正在持续向高性能区域进化。

为了验证搜索过程的合理性,我们使用t分布随机邻域嵌入(t-SNE)对高维特征空间进行了可视化,如图5e所示。该图证实,GA识别的解决方案并非异常值,而是与训练集数据支持的流形紧密嵌入,与文献目标并列。一个对比的t-SNE可视化,强调特征空间的重叠,见补充信息(图S33)。在训练集上,顶级20个GA识别的解决方案的最终性能分布见图5f。该图生动地展示了GA成功导航性能景观,识别出一个高性能的解决方案簇。

总之,Cat-Advisor作为多代理系统,代表了在催化剂发现这一复杂挑战中应用AI的一个重要进展。这种预测-建议的混合方法可以加速筛选过程,帮助简化实验流程。其底层多代理框架展示了作为通用AI研究平台的潜力,适用于需要集成预测和知识合成的其他科学领域。这包括创建新的数据库和预测模型,用于设计电催化剂、筛选下一代电池材料或发现新型高性能聚合物。这将我们研究的影响扩展到远远超出本研究中特定系统,为AI驱动的材料科学提供了一个灵活而强大的模板。

本研究的框架通过一系列步骤实现了数据提取和整理。首先,使用Web of Science进行系统文献搜索,使用关键词“催化剂”和“MgH?”,得到了759篇相关的文献。这些文献构成了我们的数据提取工作流,其过程分为四个关键步骤:PDF转Markdown格式,通过Nougat工具包完成;然后是基于提示的驱动数据提取,我们开发了一系列高度具体的提示,指导GPT-4o模型充当领域专家;接着是数据聚合,将为每篇文献生成的JSON文件程序化解析并整合为单一主数据库;最后是验证和整理,对原始数据库进行全面、半自动化的验证过程,以纠正错误并确保模型训练所需的最高数据保真度。

研究团队承认,从复杂的科学文本中进行自动化数据提取存在挑战,例如LLM“幻觉”可能导致单位不一致(如提取温度时使用开尔文而非摄氏度)或解析复杂符号(如“1.3 wt% at 300 °C, 3.7 wt% at 350 °C”)。为了解决这些问题并确保可扩展性,我们开发了一种半自动化的验证工作流,而不是依赖纯粹的手动校正。首先,在初始LLM提取后,一个自动后处理脚本执行一系列合理性检查。例如,它会标记MgH?脱氢温度超出物理合理范围(如>500),假定为开尔文,并自动转换为摄氏度。该脚本还尽可能标准化不同的符号。其次,所有自动标记或修改的数据点都会传递给专家在环的验证阶段。在这个步骤中,领域专家进行最终的快速审查以确认校正,确保模型训练所需的高数据保真度。这种两步过程显著提高了我们数据整理流程的效率和可靠性,使其更具鲁棒性和可扩展性,适用于未来的应用。

为了评估这种方法从催化剂文献中提取参数的性能,我们使用了精确度、召回率和F1分数作为主要指标。精确度量化了提取信息的准确性,确认了识别的数据点准确代表了预期的参数。召回率评估了提取过程的完整性,测量了成功检索到的相关数据点的比例。F1分数提供了一个平衡的指标,结合了精确度和召回率,提供了对方法整体性能的全面评估。我们的评估展示了文本挖掘方法的鲁棒性,同时识别了在处理复杂或格式不一致数据时的改进空间。这种彻底的评估对于改进提取方法至关重要,从而提高后续分析中结果集的可靠性和实用性。从这次评估中获得的见解将指导未来努力,以增强机器学习模型与领域特定知识的整合,最终推动镁基氢储存催化剂领域的发展。

在本研究中,我们使用了OpenAI提供的GPT API进行多个任务,所有操作均在Python 3.9.19环境中使用openai包(版本1.55.0)完成。为了将PDF文档转换为Markdown格式,我们使用了Meta的Nougat包(版本0.1.17)。数据提取和分类使用了GPT-4o模型,确保了信息的全面和准确。所有参数设置均符合openai Python包中指定的默认配置。在预测建模方面,我们实现了XGBoost模型(xgboost包,版本2.1.4),并结合其他机器学习算法使用scikit-learn包(版本1.5.2)。所有相关代码均在GitHub仓库中公开(链接:https://github.com/Weijie-Yang/cat_advisor)。

我们开发了四个机器学习回归模型:随机森林(RF)、梯度提升(GB)、决策树(DT)和XGBoost,以预测两种相互依赖的目标属性:MgH?脱氢催化剂(MDCs)的起始脱氢温度(T_onset)和活化能(E_a)。这些模型在scikit-learn包(版本1.5.2)的MultiOutputRegressor框架中实现,以同时预测这两个目标,同时考虑潜在的相关性。MultiOutputRegressor将每个目标视为独立的回归任务,对T_onset和E_a分别拟合一个基础估计器(如RF、XGBoost),预测定义为:[y^_T_onset, y^_E_a] = [f_T_onset(X), f_E_a(X)],其中X是输入特征矩阵,f_T_onset和f_E_a是每个目标的训练回归函数。为了确保两个属性之间的平衡学习,我们在MultiOutputRegressor框架中引入了一个隐式的多目标损失函数。对于给定的基础估计器,总损失L_total是各个损失的加权和:L_total = w_T · L_T_onset + w_E · L_E_a,其中L_T_onset和L_E_a分别是T_onset和E_a的均方误差(MSE)损失,y_T_onset和y_E_a是真实值,w_T和w_E是权重(各设为0.5),以确保在优化过程中两个目标的相等贡献。这种方法缓解了对一个属性的偏差,提高了整体预测准确性。

在模型训练后,我们使用引导的遗传算法(GA)进行探索性逆向设计,以识别具有最佳性能的新催化剂组成。GA迭代性地进化了一组候选催化剂,利用训练的XGBoost模型作为适应度评估
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号