LAMBench：大尺度原子模型基准测试平台推动材料科学通用势能面发展

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《npj Computational Materials》：LAMBench: a benchmark for large atomistic models

【字体：大中小】 时间：2026年01月05日 来源：npj Computational Materials 11.9

编辑推荐：

　　本研究针对大尺度原子模型(LAMs)缺乏跨领域评估标准的问题，开发了LAMBench基准测试系统，通过通用性、适应性和适用性三大维度对10个前沿LAMs进行系统评估。研究发现当前模型与理想通用势能面存在显著差距，提出跨领域训练数据整合、多精度建模及保守性设计是提升LAMs性能的关键，为原子尺度模拟工具的科学应用建立了标准化评估范式。

在计算材料科学领域，原子尺度模拟长期以来依赖第一性原理计算，但面对复杂材料体系时，传统方法犹如用显微镜观察足球场——精度虽高却效率低下。近年来，受大语言模型启发的大尺度原子模型(LAMs)试图通过学习海量量子力学数据来构建通用势能面(PES)，以期实现"一次训练，多方应用"的目标。然而这些模型究竟能否真正突破领域壁垒？其可靠性如何验证？这些问题成为制约LAMs发展的关键瓶颈。

针对这一挑战，由AI for Science Institute领衔的研究团队在《npj Computational Materials》发表了题为"LAMBench: A Benchmark for Large Atomistic Models"的里程碑式研究。团队构建了首个全面评估LAMs的基准系统LAMBench，通过对10个前沿模型的系统测试，揭示了当前LAMs与理想通用模型之间的性能鸿沟，为下一代原子模拟工具的发展指明了方向。

研究采用多模块协同的自动化工作流设计，核心技术创新体现在三个方面：首先建立了跨材料、催化、分子三大领域的12个测试数据集，通过标准化预处理消除交换关联泛函(XC functional)差异带来的偏差；其次创新性提出无量纲误差指标_FF^m和_PC^m，解决了不同物理量级难以直接比较的难题；最后开发了基于ASE计算器接口的统一模型调用框架，实现高通量测试流程。特别值得关注的是，团队引入了基于线性回归的能量漂移量化方法，首次将分子动力学稳定性纳入系统评估体系。

通用性测试结果

在力场预测任务中，多任务训练的DPA-3.1-3M(MPtrj)模型以0.175的综合误差表现最佳，但在催化领域的能垒预测误差仍达0.53，显著高于专业模型EquiformerV2-31M(0.31)。

属性计算性能

在声子谱和弹性模量计算中，保守性模型(如MACE-MPA-0)误差较非保守模型Orb-v2降低60%，证实能量守恒设计对二阶导数计算的必要性。分子体系测试显示，采用SPICE2任务头的DPA-3.1-3M误差从0.31降至0.10，凸显了交换关联泛函匹配的重要性。

适应性表现

基于MatBench的微调实验表明，预训练模型在形成能预测任务中较从头训练模型误差降低55%(DPA-3.1-3M:13.9 meV/atom vs 24.2 meV/atom)，验证了预训练策略在数据稀缺场景下的优势。

适用性评估

效率测试揭示模型对结构特征敏感度差异：Orb-v2凭借非保守设计达到1.341的效率值，而SevenNet-MF-ompa仅0.084。稳定性方面，保守模型在10 ps分子动力学模拟中能量漂移控制在10^-4eV/atom/ps量级，而非保守模型出现数量级漂移。

研究结论强调，当前LAMs虽在单一领域表现良好，但距离真正的通用势能面模型仍有差距。跨领域泛化能力不足主要源于训练数据分布不均，特别是催化领域过渡态数据的缺乏。团队建议未来研究应聚焦三个方面：开发支持多精度推理的模型架构，平衡保守性设计与计算效率，建立动态更新的基准测试体系。LAMBench的开源化(https://github.com/deepmodeling/lambench)为社区提供了持续迭代的评估平台，这项研究不仅为原子模拟领域建立了标准化评估范式，更指引了机器学习驱动科学发现的新路径。

联系信箱：

粤ICP备09063491号

热点排行