《Digital Discovery》:Achieving a scalable machine learning workflow for crystal structure discovery with experimental validation
编辑推荐:
机器学习(ML)已成为数据驱动材料发现的核心组成部分,但其实际影响严重依赖于这些预测如何转化为可实验实现的结果。在本综述中,研究人员通过推荐(recommendations)以及无约束生成(unconstrained generation)的视角审视ML引导的
机器学习(ML)已成为数据驱动材料发现的核心组成部分,但其实际影响严重依赖于这些预测如何转化为可实验实现的结果。在本综述中,研究人员通过推荐(recommendations)以及无约束生成(unconstrained generation)的视角审视ML引导的晶体结构发现,以强调嵌入化学直觉(chemical intuition)、物理约束(physical constraints)和实验验证(experimental validation)的可解释工作流。通过考察独立ML、混合ML-DFTDFT和机器学习原子间势(MLIP)方法,研究人员强调了约束设计空间(constrained design spaces)、数据预处理(data preprocessing)和验证策略(validation strategies)如何塑造新颖发现的成功。基于研究人员自身经过实验验证的案例研究,涵盖监督学习(supervised learning)到无监督学习(unsupervised learning)以及推荐型探索(recommendation-type explorations),研究人员概述了向可解释和可说明ML模型的转变,这些模型指导合成决策、揭示以前难以识别的趋势、确认既定模式并发现新规律。总体而言,研究人员强调了可解释ML的结果,当部署在实验工作流中以桥接学习和化学时,它更为有效,从而为固态材料提供可靠发现路径。
论文主体部分总结如下:
**1 Introduction**
**1.1 Forward and inverse paradigms in data-driven materials discovery**
本部分介绍数据驱动固态材料发现的两种互补范式:正向预测(forward prediction)和逆向设计(inverse design)。正向预测使用监督ML模型在大型静态数据集(通常来自密度泛函理论(DFT))上预测性质,用于快速筛选和排名。逆向设计从目标性质出发,通过贝叶斯优化(Bayesian optimization)、主动学习(active learning)或进化搜索迭代缩小搜索空间。第三种范式是物理信息机器学习(PIML),显式地将物理知识(如控制方程、结构、组成、化学和物理约束)纳入模型架构、描述符或训练目标,以提高泛化能力并减少产生物理不可行候选的风险。大型语言模型(LLMs)代表另一分支,但不在本文重点讨论范围内。本综述将成功的ML驱动材料发现定义为实验验证的结果,包括成功合成预测相、预测与测量性质的一致性以及合成途径的可重复性。
**1.2 Data sources and preprocessing for solid state learning**
本部分讨论数据来源和预处理对ML引导发现的影响。实验数据源包括无机晶体结构数据库(ICSD)、剑桥晶体学数据中心(CCDC)、国际衍射数据中心(ICDD)和皮尔逊晶体数据库(PCD),而现代工作流主要依赖高通量DFT存储库,如开放量子材料数据库(OQMD)和Materials Project。OPTIMADE提供跨数据库查询的标准化应用程序接口,AFLOW提供对称性归一化、原型分配和标准化描述符生成的补充基础设施。预处理选择(如结构标准化、对称性约简和去重)对模型学习效果至关重要。一个反复出现的限制是零开尔文稳定性标签与实验可实现性之间的脱节,这促使了合成感知策略的发展,如自主实验和温度相关相稳定性预测。研究表明,约束ML工作流可能优于无约束生成,在保持化学物理规律方面表现更佳,例如在Li超离子导体搜索中,ML引导搜索识别快离子导体的概率是随机探索的2.7倍,F1分数约是随机选择的3.5倍。
**2 Machine learning strategies for materials discovery**
**2.1 ML approaches without first principles coupling**
独立ML方法在不显式耦合第一性原理计算的情况下预测或提出材料。常见类别包括基于结构或组成的性质预测模型(如晶体图卷积神经网络(CGCNN)变体)和生成或序列模型(如自回归和扩散模型)用于提出新晶体结构。这些模型在保守、明确定义的任务中有效,但作为生成引擎比作为独立发现工具更可靠,其验证通常依赖下游稳定性筛选而非内在可合成性保证。
**2.2 Recent experimentally-validated ML works**
本节介绍近期的实验验证ML工作。推荐型ML方法通过从预定义且物理有意义的空间中排名候选来避免无约束生成。以Fe
2P型磁热化合物为例,构建了一个包含603个样本的实验数据集,使用前馈神经网络预测磁转变温度,在保持数据上达到约20 K的平均绝对误差和R
2=0.89。该工作流作为推荐引擎在物理允许的设计空间内操作,通过合成实验验证了Mn-Fe-P-Si和Co取代组成。证据型推荐器和矩阵分解方法已被应用于合金发现,在标记数据稀疏时优先考虑可能形成目标相的组成。无监督和基于相似性的工作流通过渐进缩小候选集,实现了实验确认的发现。总体而言,ML独立方法在预测目标保守且紧密关联可用数据时成功,但当模型外推超出训练集的结构或组成支持时,失败最常见。表1总结了2020-2025年间未使用第一性原理计算的实验验证ML预测案例,涵盖Co基高温合金、高熵合金、过渡金属硼化物/碳化物、MnZnSb金属间化合物等,预测性质包括相形成概率、居里温度、硬度、热导率等。大多数研究仅报告成功合成,少数报告了失败案例。大多数实验验证研究在ML工作流中显式纳入了领域约束。
**2.3 Hybrid DFT and ML discovery pipelines**
混合发现管道将ML与DFT结合,在大型候选空间中利用ML进行排名,然后通过DFT进行验证。图基模型预测总能量并引导进化或自适应遗传算法,贝叶斯优化结合对称性和Wyckoff约束可有效探索假想晶体。ML势能面(ML potentials)可实现有限温度采样和自由能估计,预测合成相关稳定性窗口。闭环工作流将ML排名、DFT精修和实验反馈整合为连续发现循环,例如高熵因瓦合金的主动学习框架,通过引入DFT和CALPHAD描述符将测试误差从约19%降低到14%。表2总结了2020-2025年间嵌入第一性原理计算的ML预测案例,涵盖磷化物、硫族化物、Mn-Fe-P-Si金属间化合物、高熵合金、Laves相、金属氧化物等,设计空间显著扩大,算法包括梯度提升模型、高斯过程(GP)、神经网络、符号回归(如SISSO)、图神经网络和闭环发现框架。这些成功反映了物理知识、保守能量排序和迭代验证的整合。
**2.4 Machine learning interatomic potentials as engines for structure and phase exploration**
机器学习原子间势(MLIPs)通过学习第一性原理势能面,作为原子模拟引擎用于探索相稳定性、动力学和结构转变。以高熵碳化物TiZrNbHfTaC
5为例,低秩势能面模型基于DFT超胞能量训练,约600个独立参数,验证误差约9 meV/原子。通过与蒙特卡洛模拟结合,预测了低温相分离和高温熵稳定单相行为,并通过电弧合成实验验证。MLIPs可推荐低能结构、亚稳相、扩散路径和变形机制。图基架构的通用势能面支持跨化学系统的多样化模拟。数据高效公式表明,精心选择的低维描述符在训练数据有限时优于高表达性表示。MLIPs还支持温度相关相图预测,产生与实验观察一致的相界。
**2.5 Experimental validation, practical shortcuts, and hidden assumptions**
实验验证是区分计算演示与材料发现的关键标准。成功的实验工作流常通过在设计空间中预先限制(如已知原型、固定化学计量比)来降低外推风险并提高实验成功率。A-Lab自主平台是一个高度约束、以验证为中心的例子:在17天内执行355次合成实验,成功实现58个目标化合物中的41个(成功率71%)。但零开尔文热力学稳定性与实验成功之间仅弱相关,表明实验可行性还需考虑动力学因素。许多研究使用合成能力分类器、合成感知排名方案等辅助推荐层来弥补这一差距。验证通常是选择性的,仅关注排名最高的候选,限制了对假阴性率的评估。
**3 Approaches with a focus on interpretability/explainability**
**3.1 Recommendations as a test set for ML models**
**3.1.1 Classifying binary equiatomic AB structures (RhCd)** 通过特征选择和支持向量机(SVM)对974个二元等原子AB化合物进行分类,仅保留7种常见结构类型的706个化合物。模型准确率达93.2%。基于预测概率推荐RhCd,合成了超过15年来的首个新二元AB化合物,验证了ML预测。
**3.1.2 Interpreting experimental outcomes of ML prediction in ternary ABC phases** 对1037个三元等原子ABC相进行结构分类,SVM模型准确率达96.9%。发现模型在TiNiSi型和ZrNiAl型结构之间的概率位于中间区域(0.3-0.7)时,反映了多晶型现象(如TiFeP共存两相),表明模型捕捉了热力学-动力学竞争,而非模型混淆。最新工作通过微调大型语言模型(LLMs)从CIF文本描述预测可合成性,优于仅使用化学计量比的方法。ParetoCSP
2通过多目标优化保持对称多样性,恢复了实验报告的多晶型。
**3.2 Elemental reactivity maps as a constrained recommendation framework for ternary materials discovery** 将元素反应性预测为二元分类任务,使用正-未标记(PU)学习,从Materials Project和ICSD获取数据。通过kNN相似度评分构建可靠负样本,使用排列不变神经网络预测三元元素集的反应性。模型[75%]在预测反应性未报告元素集中达到24%真阳性率。实验验证Co-Al-Ge系统,预测反应性评分0.987,成功合成两个新化合物,表明该方法在组成-结构约束之外能发现新相。
**3.3 Unsupervised ML approaches (TbIr
3)** 使用无监督学习方法预测TbIr
3 (PuNi
3型)。从PCD数据库提取2366个条目,97个特征。通过PCA和聚类(K-means、DBSCAN、层次聚类)识别结构家族,推荐引擎将TbIr
3评分为最高候选。实验验证(在两个实验室独立重现)确认了PuNi
3型结构,同时发现多相混合物难以避免,符合先前三元问题中的动力学抑制转变。监督验证步骤(PLS-DA、SVM、XGBoost)达到96.7-99.9%准确率。
**3.4 Recommendation engines with exploratory purposes (Gd
10RuCd
3)** 推荐引擎用于预测新金属间化合物Gd
10RuCd
3 (Y
10RuCd
3型),结合中子吸收和负热膨胀性质。通过PLS-DA对晶体学位点解析,构建化学意义投影空间,提供三种互补推荐模式(无限制、保守、聚类),最终加权共识选出Gd
10RuCd
3,实验确认其结构并具有异常低热导率。
**3.5 Constraint-aware, interpretable chemical recommendation framework (CRAFT)** 基于上述推荐策略,将STEx演进为CRAFT框架。该框架应用PLS-DA进行位点解析元素分类,通过PCA构建低维化学相似空间,支持固定位点替代、替代组合探索和约束条件(如电荷平衡)后处理。CRAFT提供可泛化、可解释的化学推荐,增强直觉并兼容实验可行性。
**3.6 Targeted discovery of layered ternary antimonides via formation energy screening and interpretable structural classification** 结合DFT形成能预筛选和可解释ML结构分类(SISSO符号回归),发现三元锑化物A-Al-Sb (A=Rb或Cs)。SISSO方法构建显式数学表达式,实现结构图可解释。实验验证了RbAlSb
2、CsAlSb
2和Rb
2Al
2Sb
3的层状结构,Cs
2Al
2Sb
3未能合成,展示了ML引导的结构靶向。
**3.7 Inverse design of FeNiCrCoCu MPEAs with explainable AI** 使用粒子群优化(PSO)引导分子动力学(MD)生成富集数据集,训练堆叠集成ML模型(SEML)预测不稳定堆垛层错能(USFE)和1D卷积神经网络(CNN)预测体模量。通过SHAP分析解释特征重要性,Fe和Ni对USFE贡献最大。五个候选组成经电弧熔炼合成,全为单相FCC结构,硬度超过3.0 GPa,最高杨氏模量达197.74 GPa。
**4 Conclusions**
成功的ML引导材料发现由推荐框架驱动,尊重物理、化学和实验约束。独立ML在保守任务中有效,混合ML-DFT管道和MLIPs提供物理基础,可解释结构感知模型捕捉能量竞争和多晶型不确定性。通过显式编码约束、优先可解释性并与实验闭环,ML从描述性工具转为主动决策引擎。未来进展将依赖于ML与化学直觉、第一性原理见解和实验验证策略的深思熟虑整合。