LAMBench:大尺度原子模型基准测试平台推动材料科学通用势能面发展

《npj Computational Materials》:LAMBench: a benchmark for large atomistic models

【字体: 时间:2026年01月05日 来源:npj Computational Materials 11.9

编辑推荐:

  本研究针对大尺度原子模型(LAMs)缺乏跨领域评估标准的问题,开发了LAMBench基准测试系统,通过通用性、适应性和适用性三大维度对10个前沿LAMs进行系统评估。研究发现当前模型与理想通用势能面存在显著差距,提出跨领域训练数据整合、多精度建模及保守性设计是提升LAMs性能的关键,为原子尺度模拟工具的科学应用建立了标准化评估范式。

  
在计算材料科学领域,原子尺度模拟长期以来依赖第一性原理计算,但面对复杂材料体系时,传统方法犹如用显微镜观察足球场——精度虽高却效率低下。近年来,受大语言模型启发的大尺度原子模型(LAMs)试图通过学习海量量子力学数据来构建通用势能面(PES),以期实现"一次训练,多方应用"的目标。然而这些模型究竟能否真正突破领域壁垒?其可靠性如何验证?这些问题成为制约LAMs发展的关键瓶颈。
针对这一挑战,由AI for Science Institute领衔的研究团队在《npj Computational Materials》发表了题为"LAMBench: A Benchmark for Large Atomistic Models"的里程碑式研究。团队构建了首个全面评估LAMs的基准系统LAMBench,通过对10个前沿模型的系统测试,揭示了当前LAMs与理想通用模型之间的性能鸿沟,为下一代原子模拟工具的发展指明了方向。
研究采用多模块协同的自动化工作流设计,核心技术创新体现在三个方面:首先建立了跨材料、催化、分子三大领域的12个测试数据集,通过标准化预处理消除交换关联泛函(XC functional)差异带来的偏差;其次创新性提出无量纲误差指标FFmPCm,解决了不同物理量级难以直接比较的难题;最后开发了基于ASE计算器接口的统一模型调用框架,实现高通量测试流程。特别值得关注的是,团队引入了基于线性回归的能量漂移量化方法,首次将分子动力学稳定性纳入系统评估体系。
通用性测试结果
在力场预测任务中,多任务训练的DPA-3.1-3M(MPtrj)模型以0.175的综合误差表现最佳,但在催化领域的能垒预测误差仍达0.53,显著高于专业模型EquiformerV2-31M(0.31)。
属性计算性能
在声子谱和弹性模量计算中,保守性模型(如MACE-MPA-0)误差较非保守模型Orb-v2降低60%,证实能量守恒设计对二阶导数计算的必要性。分子体系测试显示,采用SPICE2任务头的DPA-3.1-3M误差从0.31降至0.10,凸显了交换关联泛函匹配的重要性。
适应性表现
基于MatBench的微调实验表明,预训练模型在形成能预测任务中较从头训练模型误差降低55%(DPA-3.1-3M:13.9 meV/atom vs 24.2 meV/atom),验证了预训练策略在数据稀缺场景下的优势。
适用性评估
效率测试揭示模型对结构特征敏感度差异:Orb-v2凭借非保守设计达到1.341的效率值,而SevenNet-MF-ompa仅0.084。稳定性方面,保守模型在10 ps分子动力学模拟中能量漂移控制在10-4eV/atom/ps量级,而非保守模型出现数量级漂移。
研究结论强调,当前LAMs虽在单一领域表现良好,但距离真正的通用势能面模型仍有差距。跨领域泛化能力不足主要源于训练数据分布不均,特别是催化领域过渡态数据的缺乏。团队建议未来研究应聚焦三个方面:开发支持多精度推理的模型架构,平衡保守性设计与计算效率,建立动态更新的基准测试体系。LAMBench的开源化(https://github.com/deepmodeling/lambench)为社区提供了持续迭代的评估平台,这项研究不仅为原子模拟领域建立了标准化评估范式,更指引了机器学习驱动科学发现的新路径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号