基于r2SCAN与主动学习的通用机器学习势函数数据集MP-ALOE构建及其在材料模拟中的突破性应用

《npj Computational Materials》:MP-ALOE: an r2SCAN dataset for universal machine learning interatomic potentials

【字体: 时间:2025年11月23日 来源:npj Computational Materials 11.9

编辑推荐:

  本研究针对当前通用机器学习势函数(UMLIP)在远离平衡结构及极端条件下预测精度不足的问题,开发了基于r2SCAN泛函的大规模数据集MP-ALOE。通过主动学习算法优化采样策略,该数据集覆盖89种元素的近百万个DFT计算帧,显著提升了材料在高温高压等极端条件下的模拟稳定性。研究证明MP-ALOE训练的MACE模型在能量体积扫描、分子动力学稳定性等关键测试中优于现有基准,为跨元素周期表的高精度原子模拟提供了重要数据基础。

  
在计算材料科学领域,原子尺度模拟长期以来面临着精度与效率难以兼得的困境。虽然基于密度泛函理论(Density Functional Theory, DFT)的第一性原理计算能够提供接近实验精度的结果,但其计算成本限制了模拟规模至数百个原子、时间尺度至皮秒量级。对于需要大体系或长时模拟的研究,如扩散路径探索、非晶材料弛豫等,传统DFT方法显得力不从心。经典力场虽能实现高效计算,但其固定函数形式导致精度受限,特别是对固态反应中的键拉伸等远离平衡状态的结构描述能力不足。
近年来,机器学习势函数(Machine Learning Interatomic Potentials, MLIPs)的出现为这一领域带来了新的希望。特别是图神经网络(Graph Neural Networks, GNNs)的应用,使得MLIPs能够通过训练DFT数据来近似势能面(Potential Energy Surface, PES)。研究者们一直致力于开发通用机器学习势函数(Universal Machine Learning Interatomic Potentials, UMLIPs),以期在整个元素周期表上准确近似特定DFT泛函。然而,现有UMLIPs大多基于Perdew-Burke-Ernzerhof (PBE)广义梯度近似(Generalized Gradient Approximation, GGA)级别的数据训练,对于弱键合、离子性及弥散键合体系的描述存在局限。
针对这一挑战,加州大学伯克利分校和劳伦斯伯克利国家实验室的研究团队在《npj Computational Materials》上发表了题为"MP-ALOE: an r2SCAN数据集 for universal machine learning interatomic potentials"的研究论文。该工作引入了MP-ALOE数据集——一个包含近百万个基于精确r2SCAN元GGA泛函的DFT计算数据集,覆盖89种元素,专门为解决UMLIPs在远离平衡结构和极端条件下的预测问题而设计。
研究团队采用主动学习(Active Learning)策略中的Query By Committee (QBC)方法,对原型结构进行元素替换,生成约1亿个候选结构,并通过DIRECT采样技术筛选出最具代表性的样本。与仅包含近平衡结构的现有数据集不同,MP-ALOE特别注重对高能结构、大作用力和高压环境的采样,使其在描述材料极端行为方面具有独特优势。
关键技术方法包括:基于元素替换的结构生成技术、Query By Committee主动学习算法、DIRECT下采样方法、维也纳从头算模拟包(Vienna Ab-Initio Simulation Package, VASP)进行r2SCAN DFT计算,以及基于MACE (Multiscale Atomic Cluster Expansion)架构的机器学习势函数训练。
数据集特征分析
MP-ALOE数据集包含909,792个DFT计算帧,源自303,264个结构弛豫计算。元素分布分析显示,氧元素的高占比与实验数据库ICSD (Inorganic Crystal Structure Database)的统计特征一致。数据集的内聚能分布(-3.65 eV/atom平均值)比MatPES数据集(-4.01 eV/atom)更宽,表明其包含更多高能结构。原子间作用力分布显示MP-ALOE在大于2 eV/?的力值区域有更好采样,压力分布覆盖-50至100 GPa范围,远宽于MatPES的-20至30 GPa。
平衡性质预测性能
在平衡性质预测测试中,研究人员使用来自WBM (Wang-Botti-Marques)数据集的约1000个结构,比较了仅MP-ALOE训练、仅MatPES训练以及两者联合训练的MACE模型。对于内聚能预测任务,MatPES-only模型(MAE=48 meV/atom)略优于MP-ALOE-only模型(MAE=64 meV/atom),而联合模型(MAE=51 meV/atom)表现出与MatPES-only模型相当的性能。在指纹距离(衡量结构相似性)任务中,三个模型表现相当,表明它们对结构的弛豫能力相似。
非平衡作用力预测
对于远离平衡状态的作用力预测,研究团队通过对弛豫结构施加5%平均原子间距的随机位移,生成测试集。结果显示,MP-ALOE-only模型(MAE=0.152 eV/?)略优于MatPES-only模型(MAE=0.158 eV/?),而联合模型达到最佳性能(MAE=0.147 eV/?)。这一结果表明MP-ALOE有效缓解了以往UMLIPs在远离平衡区域普遍存在的“软化”现象。
极端变形下的物理合理性
能量-体积扫描(Energy-Volume Scan, EV-scan)测试评估了模型在±20%均匀应变下的表现。理想的能量-体积曲线应仅有一个极值点,导数符号只改变一次。MP-ALOE-only模型的失败率为2.5%,显著低于MatPES-only模型的14.8%。联合模型表现最佳,失败率仅为0.8%。具体案例显示,MP-ALOE训练的模型在高压下保持物理合理性,而MatPES-only模型可能出现非物理的能量下降。
分子动力学稳定性
在极端条件下的分子动力学(Molecular Dynamics, MD)稳定性测试中,MP-ALOE-only模型在NVT (恒温恒容)模拟中完成98.8%预定时间步长,优于MatPES-only模型的94.7%。在同时升温(300-3000K)升压(0-100GPa)的NPT (恒温恒压)模拟中,MP-ALOE-only模型(90.6%完成率)显著优于MatPES-only模型(83.7%),联合模型达到最高稳定性(93.2%完成率)。这一优势归因于MP-ALOE对高压环境更全面的采样。
6Ga3和(b)Ti4Zr4O12的能量-体积曲线的性能'>
研究结论表明,MP-ALOE数据集通过主动学习策略有效扩展了对势能面特别是远离平衡区域的覆盖,显著提升了UMLIPs在极端条件下的预测精度和稳定性。与MatPES数据集结合使用可进一步优化模型性能,在平衡性质预测、非平衡作用力计算、极端变形物理合理性和分子动力学稳定性等方面均表现出色。该工作为材料科学领域提供了高质量的计算资源,推动了高通量材料设计和发现的发展。MP-ALOE的公开可用性将为更广泛的研究社区在开发下一代UMLIPs时提供重要基础,特别是在处理高温高压等极端条件下的材料行为模拟方面具有重要价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号