CatBench框架：机器学习势在异相催化吸附能预测中的基准测试研究

《Cell Reports Physical Science》：CatBench framework for benchmarking machine learning interatomic potentials in adsorption energy predictions for heterogeneous catalysis

【字体：大中小】 时间：2025年11月23日 来源：Cell Reports Physical Science 7.3

编辑推荐：

　　本研究针对机器学习势(MLIP)在催化吸附能预测中缺乏系统评估标准的问题，开发了CatBench基准测试框架。研究人员通过多类别异常检测机制，对13种主流MLIP模型在≥47,000个吸附反应中的表现进行了系统评估。结果表明最优模型可实现~0.2 eV的吸附能预测精度，接近实际应用可靠性要求。该研究为MLIP在催化剂发现中的合理选择提供了定量指导，推动了机器学习在催化材料设计中的实际应用。

在计算催化研究领域，吸附能预测一直是连接理论计算与实验研究的重要桥梁。密度泛函理论(DFT)作为第一性原理计算的黄金标准，虽然能够提供准确的吸附能预测，但其O(N³)的计算复杂度严重限制了在大规模催化剂筛选中的应用。随着机器学习势(MLIP)的快速发展，研究人员看到了加速催化材料设计的曙光，但这些模型在实际催化系统中的可靠性亟需系统验证。

传统的基准测试方法如MatBench和开放催化剂项目(OCP)排行榜存在明显局限性：MatBench主要关注体相性质而忽略了表面催化现象，而OCP虽然提供了系统的能量和力预测评估，但缺乏对实际吸附能预测的综合评估框架。更为关键的是，MLIP在实际应用中进行全弛豫计算时，常常面临重现性失败、结构畸变和吸附质迁移等问题，这些挑战尚未在现有评估体系中得到充分重视。

为了解决这些问题，首尔国立大学的研究团队在《Cell Reports Physical Science》上发表了CatBench框架，这是一个专门为评估MLIP在催化吸附能预测性能而设计的系统化基准测试工具。该框架的创新之处在于将实际应用中的三个核心原则整合到评估体系中：全弛豫的必要性、多类别异常检测机制的应用，以及对不同MLIP架构在用户指定系统上的灵活评估能力。

研究人员首先建立了系统的评估流程，通过Catalysis-Hub数据集或用户自定义数据，自动将吸附板(adslab)、裸板(slab)和气相参考结构转换为标准化的吸附能基准测试数据集。CatBench采用的多类别异常检测框架能够将弛豫结果精确分类为正常、吸附质迁移和异常三大类别，其中异常类别进一步细分为重现失败、非物理弛豫和能量异常。这种精细分类使得研究人员能够区分真正的模型失败与物理合理的结构变化。

在技术方法层面，研究团队开发了四步异常检测机制：通过多次独立弛豫检测重现性失败，通过结构完整性检查识别非物理弛豫，基于键长变化率算法检测吸附质迁移，以及通过能量偏差阈值识别能量异常。同时，CatBench引入了平均阈值内距离(ADwT)和平均最大阈值内距离(AMDwT)等结构精度指标，为MLIP性能评估提供了多维度的量化标准。

研究团队对13种先进的通用MLIP(uMLIP)模型进行了全面评估，包括CHGNet、MACE、SevenNet、GemNet-OC、Equiformer、eSEN、UMA等。在小分子吸附测试中，使用MamunHigh2019数据集的45,130个吸附反应，涵盖了37种金属的2,035种双金属合金表面。评估结果显示，不同模型在正常率(73.20%-84.82%)和平均绝对误差(MAE，0.295-1.417 eV)方面表现出显著差异。

帕累托分析揭示了精度与效率之间的权衡关系。UMA-s模型在0.099秒/步的计算成本下实现了0.200 eV的正常MAE，展现了最优的平衡性能。GRACE模型以0.010秒/步的速度优势成为高效率选择的代表，而UMA-m则以0.210秒/步的成本获得了最高的正常率(84.82%)。这些结果为不同应用场景下的模型选择提供了明确指导。

在大分子吸附评估中，研究团队使用FG数据集的2,651个吸附反应，测试了C₁-C₁₀分子在14种过渡金属表面的吸附行为。由于大分子体系中色散作用的重要性，所有MLIP模型都配备了色散校正。结果显示，大分子吸附对MLIP提出了更大挑战，正常率范围扩大至36.74%-93.79%，吸附质迁移率显著升高(最高达49.34%)。

色散校正的引入明显改善了预测性能，以UMA模型为例，MAE从0.735 eV降至0.130 eV，正常率从44.06%提升至79.37%。值得注意的是，GRACE模型在大型分子体系中仍能保持93.79%的正常率和0.023秒/步的计算效率，证明了高效架构处理复杂分子系统的能力。

除了基础性能评估，CatBench还展示了在微调策略评估、预训练数据集比较、色散校正效果分析、力预测方法选择和优化器比较等方面的多样化应用。例如，通过针对大型有机氢载体(LOHC)分子的微调实验，GemNet-OC模型的MAE从1.263 eV显著降低至0.065 eV，正常率从64.27%提升至100%，证明了针对性训练对提升模型性能的重要性。

在力预测方法评估中，研究人员比较了直接方法和保守方法的表现。虽然直接方法计算速度提升30%，但保守方法在能量守恒方面表现更优，这种权衡关系需要通过CatBench进行系统评估。类似地，优化器选择(LBFGS与FIRE)虽然在本研究中差异不大，但在其他材料体系中可能产生显著影响。

研究结论部分强调，CatBench框架通过系统化基准测试为MLIP在催化研究中的实际应用提供了可靠依据。多模型比较表明，当前MLIP在小分子吸附预测中已达到接近实际应用的精度水平(正常MAE约0.2 eV)，而通过色散校正，大分子吸附预测也显示出令人满意的准确性。UMA模型在各项测试中表现出色，在小分子和大分子体系中分别实现0.200 eV和0.127 eV的正常MAE，展现了平衡的性能特征。

该研究的重要意义在于建立了一套标准化评估协议，使研究人员能够根据具体应用需求在准确性、计算效率和鲁棒性之间做出明智权衡。CatBench不仅提供了模型选择的定量依据，还支持各种优化工作流程的评估，为机器学习方法在计算催化中的可靠应用奠定了基础。随着MLIP技术的不断发展，这种系统化基准测试方法将确保从DFT到MLIP加速催化剂发现的转变既保持科学严谨性，又实现计算效率的提升。

需要指出的是，MLIP的准确性受到其训练数据DFT计算系统误差的限制，通常与实验吸附能存在0.1-0.3 eV的偏差。因此，在实际应用中仍需结合实验验证，但CatBench提供的可靠性评估将大大增强研究人员对MLIP预测结果的信心，推动机器学习方法在催化材料设计中的广泛应用。

热点排行