面向反应性机器学习势函数优化的海量分子Hessian数据库HORM

《Scientific Data》:A Large Scale Molecular Hessian Database for Optimizing Reactive Machine Learning Interatomic Potentials

【字体: 时间:2025年12月05日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对机器学习势函数(MLIP)在过渡态(TS)优化中因缺乏大规模Hessian数据而精度受限的问题,开发了目前最大的量子化学Hessian数据集HORM,包含184万wB97x/6-31G(d)级别的Hessian矩阵。研究人员提出随机行采样的Hessian信息训练方法,使MLIP的Hessian平均绝对误差降低63%,TS搜索效率提升200倍,为反应网络的规模化探索提供了关键数据和方法支撑。

  
在计算化学领域,过渡态(TS)的精确表征是揭示反应机理、区分竞争反应路径以及预测反应动力学和热力学的关键。传统方法依赖于昂贵的密度泛函理论(DFT)计算,需要在巨大的反应空间中评估能量和力,同时还需要Hessian计算用于鞍点优化。然而,在现代药物发现和材料科学中,化学空间的指数级增长使得这种高成本计算越来越难以满足大规模反应预测的需求。
机器学习势函数(MLIP)作为一种有前景的工具,能够以较低的计算成本准确表征势能面(PES),通过高效评估能量景观、原子间力和Hessian矩阵,自然整合了基于物理的过渡态搜索算法。然而,当前大多数MLIP仅基于能量和力进行预训练,缺乏大规模Hessian数据,这严重限制了其在过渡态优化中的应用。这一局限源于两个核心挑战:可用数据集的缺乏以及训练过程中融入二阶信息的高成本。
针对这一关键问题,Deep Principle公司的研究人员在《Scientific Data》上发表了题为"A Large Scale Molecular Hessian Database for Optimizing Reactive Machine Learning Interatomic Potentials"的研究论文,引入了HORM(用于优化反应性MLIP的Hessian数据集),这是迄今为止最大的反应系统量子化学数据库,包含184万个在wB97x/6-31G(d)理论水平下计算的Hessian矩阵。
研究团队采用了多项关键技术方法开展此项研究。数据集构建方面,几何结构从两个反应数据库Transition1x和RGD1中采样,覆盖含C、H、O、N的分子,最多10个重原子。DFT计算使用GPU4PYSCF v1.3.0进行,采用ωB97X泛函和6-31G(d)基组。机器学习势函数训练中,团队提出了随机行采样策略来降低Hessian计算复杂度,结合能量、力和Hessian的损失函数进行模型优化。过渡态搜索验证采用四步工作流程,包括端点优化、最小能量路径构建、TS细化和IRC验证。
数据集组成
HORM数据集中的几何结构来自两个反应数据集Transition1x和RGD1。Transition1x最多允许6个键变化,而RGD1最多允许2个键断裂和2个键形成。从Transition1x的10,073个反应中,研究人员采用基于反应标识的数据分割,将9,000个反应分配到训练集,其余1,073个分配到验证集。从中,训练反应的1,725,362个几何结构和验证反应的50,844个几何结构被纳入HORM数据集,分别占每个分割中可用几何结构的20%和5%。对于RGD1数据集,研究人员利用在GFN2-xTB理论水平下进行的IRC计算生成的反应路径,从约950,000个可用反应中随机选择80,000个,并沿其IRC结果对每个反应采样最多15个几何结构,最终随机选择60,000个几何结构构成RGD1子集。
技术验证
数据集概述显示,与Hessian-QM9相比,HORM涵盖了更广泛的化学空间区域,HORM-Transition1x子集比Hessian-QM9多包含约40倍的分子几何结构,包括各种非平衡结构。HORM-RGD1子集形成了与HORM-Transition1x重叠最小的独特分布。性质分布方面,HORM数据点的分子尺寸平均较小,但原子化能量范围明显更广,反映了其对势能面(PES)更大部分的覆盖。虚频分布进一步突显了HORM对非平衡态的广泛采样。
能量、力和Hessian预测实验评估了不同训练策略。分布内性能表明,对于自梯度和直接力架构,加入Hessian监督一致提高了几乎所有评估指标的性能。在自梯度模型中,加入Hessian损失使能量平均绝对误差(MAE)降低达25%,Hessian和相应特征值MAE分别降低59%和78%。直接力模型从Hessian监督中获益更大,特别是EquiformerV2,在能量、力、Hessian和特征值预测中分别实现了58%、24%、97%和99%的MAE降低。
分布外性能评估了模型对未见数据的泛化能力。自梯度模型在能量和力预测方面改善有限,但二阶性质显著改善,Hessian和特征值MAE分别降低25%和24%。在所有模型中,EquiformerV2 E-F-H变体不仅实现了最大的预测误差降低,而且成为整体最佳模型。
过渡态搜索性能
为评估反应性MLIP在实际TS搜索场景中的能力,研究人员使用端到端TS搜索工作流程评估了四个关键指标:成功的GSM计算数量、预期TS数量、优化TS结构的均方根位移(RMSD)和预测能垒高度的平均绝对误差(MAE)。结果表明,训练中加入Hessian信息(E-F-H)显著提升了TS搜索性能。预期TS数量改善最为显著,EquiformerV2从E-F下的仅3个预期TS增加到E-F-H下的684个。能垒预测在所有模型中一致改善,能垒MAE降低达63%。在所有评估模型中,EquiformerV2(E-F-H)在TS RMSD和能垒预测方面表现最佳,中位TS RMSD为0.017?,能垒MAE为0.538 kcal/mol。
研究结论表明,HORM数据集填补了反应性机器学习势函数开发中的关键数据空白,使MLIP的Hessian质量显著提升,适用于直接力和自梯度架构。通过随机行采样的Hessian信息训练方法,有效控制了融入Hessian的计算开销。特别是对于直接力模型,当使用Hessian约束来强制力对称时,代表性直接力模型EquiformerV2在Hessian精度和TS搜索性能上表现出30至200倍的提升。这一发现为克服直接力MLIP的关键限制指明了有前景的方向。
HORM数据集和方法论的突破,使得能够训练更准确、更稳健的反应性MLIP,为反应网络的规模化探索提供了重要工具,有望在计算化学和材料科学领域产生深远影响。该研究不仅提供了宝贵的数据资源,还开创了高效的二阶信息融入方法,为未来MLIP的发展奠定了坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号