综述：人工智能推动材料发现的前沿进展

《Applied Materials Today》：Advancing materials discovery through artificial intelligence

【字体：大中小】 时间：2025年11月05日 来源：Applied Materials Today 6.9

编辑推荐：

　　这篇综述系统阐述了人工智能（AI）在材料科学中的变革性作用，涵盖机器学习（ML）、深度学习（DL）和生成模型如何重塑材料设计、合成与表征全流程。文章重点探讨了AI在性质预测、逆向设计、机器学习力场（MLFF）、自主实验室及可解释人工智能（XAI）等关键领域的应用，同时指出了模型普适性、数据标准化及实验验证等现存挑战，展望了融合物理知识与数据驱动模型的混合方法未来。

人工智能推动材料发现的前沿进展

摘要

人工智能（AI）正通过加速新材料的设计、合成与表征，彻底改变材料科学的面貌。本综述重点介绍了AI技术（包括机器学习（ML）、深度学习（DL）和生成模型）如何重塑材料发现的整个流程。

1. 引言

人工智能与材料科学的融合正在重塑新材料的研发方式。AI不仅作为自动化工具，更成为能够增强决策、加速发现的认知伙伴。机器学习（ML）及其子领域深度学习（DL）通过从数据中学习而非显式编程，在复杂任务中表现出色。成功部署ML/DL模型通常遵循系统化工作流程，包括高质量数据库的创建与整理、预测模型的设计与训练、严格的验证以及使用和再训练的迭代循环。生成式AI（如生成对抗网络GANs和Transformer模型）在生成分子结构等方面显示出潜力，但其在材料科学中的应用仍处于早期阶段，面临数据集稀疏、固态系统建模复杂以及验证计算预测等挑战。尽管存在挑战，数据基础设施、计算效率和建模方法的持续改进表明，生成式技术在材料科学研究中具有巨大的整合潜力。

2. AI辅助材料设计

2.1. 现代材料设计的计算基础

计算机辅助材料设计已成熟为一个完善的研究领域。密度泛函理论（DFT）是目前后续ML研究最大规模、相对标准化和高质量的数据源之一。DFT方法虽然功能强大，但计算成本高昂。过去几十年，各种DFT泛函的发展遵循两大趋势：提高预测能力和降低计算成本。然而，物理原理设定了某些无法逾越的极限。机器学习与DFT的协同作用已被证明特别有效，例如在纳米催化和二维材料发现领域。

2.2. 从经验力场到机器学习势函数

经验力场（或称分子力学）方法计算效率高，但其近似性严重限制了其可转移性。机器学习力场（MLFFs）或机器学习原子间势（MLIPs）应运而生，在速度和精度之间提供了前所未有的平衡。MLFFs的核心思想是利用ML算法学习原子构型与其对应能量和力之间的复杂关系。一旦学会，ML模型就有效地创建了势能面（PES）的详细图谱。力场组件随后利用这个学习到的模型来计算原子力，指导模拟过程中的原子运动和相互作用。多种ML方法，如神经网络（NNs）、图神经网络（GNNs）、核方法、高维神经网络势（HDNNPs）等，正在推动化学模拟和分子建模的显著进步。这些方法已被集成到各种软件工具中，例如MLatom 3平台提供了用于分子系统的MLFF模型的即用型实现。值得注意的是，MACE等力场在材料应用方面显示出良好前景，例如模拟应力下氧化石墨烯的机械响应、预测金属有机框架（MOFs）的声子性质以及模拟非晶碳。

2.3. 在线参数优化

经典的ML方法通常能达到与DFT模拟相当的预测精度。这些模型的精度可以通过采用“在线”参数优化来进一步提高，即模型参数在模拟运行期间自适应地微调，以持续最小化预测误差。这种混合方法显著减少了系统误差，从而实现了比经典DFT方法更高的精度和计算效率。

2.4. MLFFs的应用、预测能力与挑战

经过训练的MLFFs可以高效预测结构的能量最小值，以远低于传统量子方法的计算成本提供高级ab initio方法的精度。它们特别适用于快速几何优化和结构筛选，也可作为分子动力学（MD）模拟的计算廉价替代方案，从而探索传统量子方法不切实际的长时间尺度或大系统。除了结构和动态建模，某些基于ML的方法对关键材料性质（如电子带隙、热导率和吸附能）表现出强大的预测能力。这些预测优势也支持逆向材料设计。通过明确定义目标属性，ML模型可以逆向生成满足特定功能需求的分子结构或材料。MLFFs的利用可以显著减少试错实验，从而节省资源并加快开发时间表。此外，许多ML模型固有地便于量化其预测不确定性，这是一个关键特征，为研究人员提供了置信度估计，实现了更明智的决策。然而，MLFFs/MLIPs的一个主要限制是其有限的可转移性。另一个挑战是非共价相互作用（包括伦敦色散力、偶极-偶极相互作用和极化效应）的准确表示，这对许多MLFFs/MLIPs来说仍然是一个挑战。

2.5. 用于单原子催化剂的机器学习势函数：当前能力与展望

MLIPs通过弥合量子力学精度与大规模模拟之间的差距，正在改变单原子催化剂（SACs）的研究。这些方法有助于更有效地探索催化稳定性、结构-活性关系和反应能量学，帮助缩小仅用传统QM方法研究成本过高的广阔组成空间。通过以降低的计算成本捕获复杂的原子相互作用，ML势不仅能指导合理的催化剂设计，还能补充实验工作，提高性能和选择性的预测能力。

3. AI支持的合成

3.1. 有机合成中的AI工具

人工智能模型已进入化学合成领域，迄今为止开发的计算机辅助合成规划（CASP）工具不仅在有机合成和逆合成分析中展示了成功应用，也为材料科学提供了灵感。各种AI工具在逆合成分析中显示出强大的预测性能，超越了传统的计算机辅助搜索方法。

3.2. AI驱动的材料合成

建立在有机合成进步的基础上，人工智能（AI）如今在材料合成中扮演着越来越重要的角色。与分子系统不同，材料呈现出独特的挑战。它们的结构涵盖从周期性晶体到非晶固体和纳米结构的一系列维度和有序度，并且它们的可合成性通常取决于复杂的热力学景观、动力学约束和加工环境。尽管为分子开发的AI模型提供了有价值的架构和概念蓝图，但直接转化为材料需要调整表示和目标。为了满足这些需求，已经出现了一些AI驱动的平台，例如合成过程编码器-解码器（SPENDE）神经网络和计算自主材料发现（CAMD）框架。

3.3. AI驱动的材料发现

基于AI的工具在新材料发现中具有巨大潜力。Graph Networks for Materials Exploration (GNoME) 项目就是一个典型的例子，它使用先进的ML模型预测形成能和稳定性等关键性质。这种方法导致了超过220万种新型晶体结构的预测，其中约38万种被确定为稳定或接近凸包。然而，GNoME项目的一些成果也受到了批判性评估，例如忽略了高温合成中熵驱动的无序，以及许多预测结构可能缺乏实验可行性和功能性。其他工作，如用于逆向无机材料设计的生成扩散模型MatterGen，能够直接生成跨周期表的稳定、多样且新颖的晶体结构，同时允许精确控制目标属性。AI4Mater框架则提供了一个旨在解决AI辅助材料发现中关键瓶颈的综合模块化生态系统。

3.4. 自主实验室

自主实验室的概念在过去二十年中已经从简单的机械臂和自动进样器发展为日益复杂的集成平台，能够以最少的人工干预来设计、执行和分析实验。AI的渗透将自主实验室从被动的自动化工具转变为自适应、决策系统。AI使自主实验室不仅能够执行预定义的实验，还能设计和优化新的合成路径，实时分析数据，并通过闭环反馈完善实验策略。已经开发了多个自主实验平台，例如用于优化光化学反应的RoboChem、用于合成金属卤化物钙钛矿量子点的平台、用于合成无机化合物的Berkeley A-Lab以及利用GPT-4模块进行精确化学实验的Coscientist系统。

3.5. 移动机器人与紧凑平台

为了克服大型自主实验室的高成本和基础设施需求等障碍，移动和紧凑型机器人平台被探索用于分布式、灵活和资源高效的操作。例如，Cooper实验室开发的移动机器人化学家可以自主导航实验室空间，在688次实验中优化光催化反应。其他系统采用模块化方法，将实验室功能拆分。紧凑型自主平台则优先考虑便携性、模块性和实时控制。

3.6. 自主实验室软件

构建AI实验室需要通用的软件框架。ChemOS 2.0是一个受UNIX架构启发的适应性平台，提供小型、专用功能，结合了设备通信、数据管理和通过集成DFT计算进行的模拟。基于GPT-4的ChemCrow集成了18种专用工具，分为四类：通用工具、分子工具、安全工具和反应工具。它使用一个多智能体系统，其中专用工具与GPT-4规划器模块协同工作，以处理复杂的化学合成任务。此外，通用化学编程语言χDL已成为编码和执行化学协议的平台无关标准。

3.7. 社区迈向标准化和FAIR数据的努力

AI驱动的材料发现的一个重要挑战在于高质量数据集的可用性，这些数据集需要完全符合FAIR（可查找、可访问、可互操作、可重用）原则。为此，社区投入了大量精力开发共享模式、本体论和程序化接口，使材料数据更易于AI处理。OPTIMADE API的引入是一个重要的进步，它可以联合访问异构材料库，从而减少碎片化。尽管取得了这些进展，但仍然存在显著差距。

4. LLMs与智能体在材料发现中的应用

大型语言模型（LLMs）的快速发展为科学发现开辟了新前沿，将其能力从狭窄的代理模型扩展到能够进行推理、对话和假设生成的系统。与通常为单一属性或任务设计的传统ML模型相比，LLMs在研究人员和计算基础设施之间提供了灵活的接口。其对话性质降低了与传统高级建模相关的技术障碍，使非专家能够用自然语言查询数据、设计模拟和生成假设。这种访问的民主化在材料科学领域尤其具有前景，因为该领域的数据跨尺度和学科碎片化，并且训练和部署定制模型的成本限制了更广泛的参与。例如，BioinspiredLLM通过基于1000多篇同行评审文章对Llama-2/Orca-2进行微调，在知识检索、假设生成和辅助任务方面显著优于其基础版本。多智能体框架，如SciAgents、ProtAgents、Sparks和AtomAgents，通过模拟科学研究的协作和批判性性质，将LLMs、基于物理的模拟、多模态分析和多智能体推理集成到单一工作流程中，用于假设生成和验证。自然语言处理（NLP）技术也被用于挖掘大量科学出版物、专利和技术报告，提取合成方案、材料性能和结构-功能关系等结构化知识。

5. 前景与展望

人工智能（AI）已在材料科学全流程中确立了其变革性力量。然而，尽管取得了这些成功，该领域仍处于动态和过渡阶段，许多机遇和关键挑战尚待完全解决。一个核心限制在于当前AI方法的碎片化。数据基础设施问题同样重要。另一个新兴问题是现代AI方法的计算可持续性。从方法论角度看，最有前景但发展不足的方向之一是AI与物理和化学知识的紧密结合。一个重大机遇在于自主实验室革命，其中AI不仅预测或规划，而且执行和适应。与技术进展同步，必须制定稳健的伦理框架以最小化潜在误用。在技术转化层面，弥合AI生成的预测与现实世界实施之间的差距仍然是一个重大挑战。最后，人的维度不容忽视。

6. 结论

AI通过提供前所未有的效率和预测精度，正在从根本上重塑材料科学。然而，重大挑战依然存在。当前的ML模型通常缺乏足够的可转移性，导致出现许多专用模型而非单一通用模型。此外，计算预测与实验测量属性之间存在显著差距，主要原因是表征技术整合不足。此外，当前的AI模型通常涉及显著的功耗，带来可持续性担忧。未来的研究应致力于开发混合AI方法，将设计、合成和表征无缝结合，特别是在自主实验框架内。降低AI模型的能量需求和提高计算效率也将是一个重点。建立全面、高质量且理想情况下开源的数据集对于训练稳健、可泛化的AI模型至关重要。解决这些挑战将使AI能够充分实现其在材料科学中的变革潜力。然而，即使在这种先进 scenario 下，科学家仍将发挥关键作用，将AI生成的数据和假设转化为解决现实世界问题的实际方案。

热点排行