编辑推荐:
本研究针对大尺度原子模型(LAMs)缺乏跨领域评估标准的问题,开发了LAMBench基准测试系统,通过通用性、适应性和适用性三大维度对10个前沿LAMs进行系统评估。研究发现当前模型与理想通用势能面存在显著差距,提出跨领域训练数据整合、多精度建模及保守性设计是提升LAMs性能的关键,为原子尺度模拟工具的科学应用建立了标准化评估范式。
在计算材料科学领域,原子尺度模拟长期以来依赖第一性原理计算,但面对复杂材料体系时,传统方法犹如用显微镜观察足球场——精度虽高却效率低下。近年来,受大语言模型启发的大尺度原子模型(LAMs)试图通过学习海量量子力学数据来构建通用势能面(PES),以期实现"一次训练,多方应用"的目标。然而这些模型究竟能否真正突破领域壁垒?其可靠性如何验证?这些问题成为制约LAMs发展的关键瓶颈。
针对这一挑战,由AI for Science Institute领衔的研究团队在《npj Computational Materials》发表了题为"LAMBench: A Benchmark for Large Atomistic Models"的里程碑式研究。团队构建了首个全面评估LAMs的基准系统LAMBench,通过对10个前沿模型的系统测试,揭示了当前LAMs与理想通用模型之间的性能鸿沟,为下一代原子模拟工具的发展指明了方向。
研究采用多模块协同的自动化工作流设计,核心技术创新体现在三个方面:首先建立了跨材料、催化、分子三大领域的12个测试数据集,通过标准化预处理消除交换关联泛函(XC functional)差异带来的偏差;其次创新性提出无量纲误差指标FF m 和PC m ,解决了不同物理量级难以直接比较的难题;最后开发了基于ASE计算器接口的统一模型调用框架,实现高通量测试流程。特别值得关注的是,团队引入了基于线性回归的能量漂移量化方法,首次将分子动力学稳定性纳入系统评估体系。
通用性测试结果
在力场预测任务中,多任务训练的DPA-3.1-3M(MPtrj)模型以0.175的综合误差表现最佳,但在催化领域的能垒预测误差仍达0.53,显著高于专业模型EquiformerV2-31M(0.31)。
属性计算性能
在声子谱和弹性模量计算中,保守性模型(如MACE-MPA-0)误差较非保守模型Orb-v2降低60%,证实能量守恒设计对二阶导数计算的必要性。分子体系测试显示,采用SPICE2任务头的DPA-3.1-3M误差从0.31降至0.10,凸显了交换关联泛函匹配的重要性。
适应性表现
基于MatBench的微调实验表明,预训练模型在形成能预测任务中较从头训练模型误差降低55%(DPA-3.1-3M:13.9 meV/atom vs 24.2 meV/atom),验证了预训练策略在数据稀缺场景下的优势。
适用性评估
效率测试揭示模型对结构特征敏感度差异:Orb-v2凭借非保守设计达到1.341的效率值,而SevenNet-MF-ompa仅0.084。稳定性方面,保守模型在10 ps分子动力学模拟中能量漂移控制在10-4 eV/atom/ps量级,而非保守模型出现数量级漂移。
研究结论强调,当前LAMs虽在单一领域表现良好,但距离真正的通用势能面模型仍有差距。跨领域泛化能力不足主要源于训练数据分布不均,特别是催化领域过渡态数据的缺乏。团队建议未来研究应聚焦三个方面:开发支持多精度推理的模型架构,平衡保守性设计与计算效率,建立动态更新的基准测试体系。LAMBench的开源化(
https://github.com/deepmodeling/lambench )为社区提供了持续迭代的评估平台,这项研究不仅为原子模拟领域建立了标准化评估范式,更指引了机器学习驱动科学发现的新路径。