机器学习电荷与长程相互作用:从能量和力中准确建模静电力的新方法
《Nature Communications》:Machine learning of charges and long-range interactions from energies and forces
【字体:
大
中
小
】
时间:2025年10月02日
来源:Nature Communications 15.7
编辑推荐:
本研究针对机器学习原子间势能(MLIPs)在模拟静电和色散等长程相互作用时的局限性,引入了隐式埃瓦尔德求和(LES)方法。该方法通过从能量和力中学习隐变量(可解释为原子电荷),无需显式学习电荷定义即可准确预测长程静电作用。研究团队在带电分子、离子液体、电解质溶液、极性二肽、表面吸附及固液界面等多种挑战性体系上验证了LES的优越性。结果表明,LES不仅能复现经典固定电荷体系的精确原子电荷,还能推断量子力学体系的偶极矩、四极矩及玻恩有效电荷等物理可观测量,且预测精度优于显式学习电荷的方法,为复杂体系的高精度原子尺度模拟提供了强大工具。
在材料与化学体系的原子尺度模拟中,准确描述长程相互作用一直是一个核心挑战。传统的机器学习原子间势能(Machine Learning Interatomic Potentials, MLIPs)大多基于短程近似,即假设每个原子的能量贡献仅由其局部原子环境决定。这种假设虽然保证了计算效率,使其能够随体系尺寸线性缩放,但在静电作用、色散力等长程相互作用起关键作用的体系中存在显著局限。例如,在涉及电化学界面、带电分子二聚体、离子液体、极性材料以及存在电荷态变化或长程电荷转移的场景中,忽略长程效应会导致模拟结果严重失真。
为了克服这一瓶颈,研究者们曾尝试多种方案。一种主流思路是直接预测每个原子的有效部分电荷,进而计算长程静电相互作用。例如,第三代高维神经网络势能(3G-HDNNP)包含了基于原子神经网络预测的、依赖于局部环境电荷的静电相互作用。其升级版第四代HDNNP(4G-HDNNP)则通过预测每个原子的电负性,并利用电荷平衡方案来分配电荷。然而,这些方法需要直接学习来自量子力学计算的原子部分电荷,而电荷值本身依赖于特定的划分方案,并非物理可观测量,这引入了不确定性。另一种思路是针对绝缘体系学习最大局域瓦尼尔中心(Maximally Localized Wannier Centers, MLWCs),例如深度势能长程(DPLR)模型,它使用与原子核和预测的MLWCs平均位置相关的球形高斯电荷来计算长程静电。此外,还有不显式学习电荷的方法,如埃瓦尔德消息传递、RANGE以及长程欧拉描述符(LODE)等。
近期,Bingqing Cheng团队在《Nature Communications》上发表了题为“Machine learning of charges and long-range interactions from energies and forces”的研究论文,引入了隐式埃瓦尔德求和(Latent Ewald Summation, LES)方法。该方法将总势能分解为短程和长程两部分。其核心创新在于,通过一个多层感知机将每个原子的不变特征映射到一个隐变量(可解释为潜电荷),而无需参考任何特定的电荷定义。这些潜电荷随后被用于通过埃瓦尔德求和计算长程势能。LES框架具有高度的通用性,可与任何短程MLIP架构(如HDNNP、GAP、MTP、ACE、MPNNs等)相结合。
为开展研究,作者主要应用了以下几项关键技术:基于笛卡尔原子簇展开(Cartesian Atomic Cluster Expansion, CACE)的机器学习势能模型构建;隐式埃瓦尔德求和(LES)算法实现长程静电相互作用的计算;基于密度泛函理论(DFT)的参考数据生成用于模型训练与验证;分子动力学(MD)模拟用于评估势能模型在界面体系等复杂环境下的表现;以及集成学习策略用于模型不确定性的量化。
LES方法将体系总势能E分解为短程能Esr和长程能Elr。短程能是各原子能量的加和,每个原子能量取决于其局部特征Bi。长程部分通过一个多层感知机将原子i的不变特征映射到隐变量qi。当q被限制为一维时,可将其解释为原子电荷。长程静电相互作用通过埃瓦尔德求和计算,在周期性体系中,其在倒易空间的表达式为E1lr= (2π/V) Σ0<|k|<kc(1/k2) e-σ2k2/2|S(k)|2,其中结构因子S(k) = Σi=1Nqieik·ri。重要的是,LES通过拟合总能和力来学习隐变量,无需显式电荷标签或电荷平衡约束。
研究首先在一个由128个原子(64个带+1e电荷,64个带-1e电荷)构成的随机点电荷气体模型上测试LES。结果表明,即使仅使用10个训练构型,结合LES的长程CACE模型(CACE-LR)也能近乎精确地复现真实的原子电荷。学习曲线显示,长程模型在能量、力和电荷预测上的误差比短程模型低一个数量级以上,且适当减短截断半径rcut有助于提升学习效率。这证明了LES在明确电荷定义体系中的卓越学习能力。
研究人员构建了氟化钾水溶液数据集,浓度范围0-2 mol/L,包含体相电解质和电解质-蒸汽界面构型。参考计算采用柔性SPC/Fw水模型和固定电荷离子模型。CACE-LR模型在训练数百个样本后即可准确恢复真实电荷。与短程模型相比,长程模型在力和电荷预测上表现出更高的学习效率和精度,即使体系包含多种物种、介电介质和界面屏蔽效应。
在LODE分子二聚体数据集(C3N3H10+/C2O2H3-)上,仅使用10个二聚体分离距离变化的构型进行训练。CACE-LR模型能够准确预测结合能曲线和力,其预测的分子总电荷(经平均调整后)与真实值(+1e/-1e)非常接近,原子电荷分布也符合化学直观。
由于量子力学中原子电荷并非严格的可观测量,研究的关键在于评估LES电荷能否用于预测物理可观测量。作者利用SPICE数据集中的极性二肽,训练CACE-LR模型仅学习能量和力,然后评估其在测试集上推断DFT偶极矩、四极矩和玻恩有效电荷的能力。结果显示,LES电荷与MBIS、Mulliken、Hirshfeld等DFT电荷定义之间存在定性相关但定量差异,这与不同DFT电荷定义之间的差异程度相似。然而,由LES电荷计算得到的偶极矩与DFT参考值高度吻合,其平均绝对误差与直接从DFT密度衍生的MBIS电荷相当。四极矩和玻恩有效电荷的预测也与DFT值有良好一致性。这表明LES能够令人信服地模拟分子电荷密度的可观测量,而无需在训练中显式输入任何电荷信息。
研究比较了CACE-LR与CACE-SR、3G-HDNNP、4G-HDNNP以及χ+η(ACE)在四个涉及不同电荷态和电荷转移的挑战性体系上的表现。在C10H2/C10H3+、Ag3+/-、Na8/9Cl8+和Au2-MgO(001)体系中,CACE-LR在大多数情况下取得了最低的预测误差。特别是在Au2-MgO(001)界面体系中,CACE-LR的误差比其它方法低约一个数量级,并能准确预测掺杂与未掺杂基底上金二聚体吸附构型的相对稳定性。分析表明,LES预测的电荷更侧重于反映与能量和力预测相关的电荷重分布响应,而非DFT计算得到的尖锐峰值电荷,这可能是其性能更优的原因。
在Pt(111)/KF(aq)和TiO2(101)/NaCl+NaOH+HCl(aq)两个电解质/固体界面体系上,CACE-LR的预测精度优于DPLR模型。分子动力学模拟表明,短程模型由于缺乏长程静电约束,会在溶液体相区域产生不合理的电荷失衡(Cl-离子过量),而长程模型则能消除此伪像,并改变双电层内的离子分布,获得更真实的界面结构。
以LiCl(001)/GaF3(001)界面体系为例,评估模型在分布外数据的可转移性。结果表明,长程模型在扩展的异质结构上的力预测误差远低于短程模型,并且其基于集成学习的力不确定性估计能有效识别短程模型失效的区域,展现了更优的分布外检测能力和模拟可靠性。
本研究对隐式埃瓦尔德求和(LES)方法进行了全面且深入的基准测试。LES框架具有高度的物理可解释性:当隐变量q被限制为一维时,其对应于描述静电相互作用的部分电荷。对于由经典力场描述的体系,LES能准确复现其固定电荷;对于量子力学体系,LES电荷可理解为电子密度极化的净静电效应的粗粒化近似,并能高精度推断偶极矩、四极矩和玻恩有效电荷等物理可观测量。
研究结果表明,LES仅通过学习和拟合能量与力,无需显式电荷标签或额外输入,即可在能量和力预测上达到优于显式学习DFT部分电荷方法的精度。LES的成功揭示了直接学习特定的、存在定义模糊性的DFT电荷可能并非构建精确原子间势能的最佳途径,甚至可能引入不必要的复杂性。避免直接学习电荷使得LES无需显式电荷平衡,降低了计算开销。
该研究强有力地证明了长程相互作用在原子尺度模拟中的关键作用。忽略长程效应会导致一系列严重问题,如无法预测带电分子二聚体的正确结合曲线、无法区分金二聚体在掺杂与未掺杂MgO上的吸附行为、在界面模拟中产生电荷失衡等。值得注意的是,常用的集成不确定性量化方法可能无法检测到短程模型在分布外情况下的巨大误差,这凸显了在依赖传统不确定性量化的同时,采用物理上更完备的模型的重要性。
综上所述,LES是一种通用、高效且物理意义明确的工具,能够有效解决长程相互作用起关键作用的各类挑战性体系的模拟问题,为未来开发适用于整个元素周期表的通用机器学习原子间势能奠定了坚实基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号