通过稀疏高斯过程机器学习技术加速材料发现的可能性

《Accounts of Chemical Research》:Accelerating Materials Discovery Through Sparse Gaussian Process Machine Learning Potentials

【字体: 时间:2025年12月23日 来源:Accounts of Chemical Research 17.7

编辑推荐:

  量子计算效率低制约材料发现,基于稀疏高斯过程回归(SGPR)与鲁棒贝叶斯专家机器(RBCM)的框架通过少量量子数据(100-1000次)实现万原子级加速模拟,在固态电解质、钙钛矿太阳能电池、电催化等领域取得突破性应用,提供精准的不确定性量化与模块化扩展能力。

  
摘要图片
概述

量子力学计算能够高精度地预测原子行为,但其计算复杂度呈立方增长,这限制了其常规应用范围,通常只能处理数百个原子。这一计算瓶颈阻碍了在复杂化学现象发生的实际尺度上进行材料发现。设计下一代电池、太阳能电池和催化剂需要预测多种条件下的原子行为,然而直接进行量子模拟的成本非常高昂。

机器学习方法通过利用有限的量子计算结果来加速模拟过程,从而提供了一种变革性的解决方案。本文介绍了稀疏高斯过程回归(SGPR)这一统计上严谨的框架,它解决了两个关键问题:一是如何用最少的训练数据达到量子级别的精度;二是如何提供用于探索未知化学空间的可靠不确定性估计。与传统的图神经网络方法不同,后者通常需要1万到10万多个训练样本才能模拟大约10^4到10^5个原子,而SGPR仅需100到1000次量子计算就能实现实际所需的精度,并将数据需求降低了10到100倍,不过它更适合针对特定化学体系(原子数少于3000个的系统),而非广泛的多元元素体系。

SGPR框架通过智能降秩技术利用化学环境中的冗余信息,仅选择最具信息量的局部化学环境作为训练样本。当模型不确定性超过预设阈值时,系统会自动触发新的量子计算,从而实现高效的数据生成。该框架采用了鲁棒的贝叶斯委员会机器(RBCM)架构,将大型模型分解为针对特定化学成分的专用模型,然后通过置信度加权的方式将这些模型组合起来。这种模块化方法的时间复杂度为O(nm^2/p^2)(其中n表示数据点数,m表示训练样本集数量,p表示专家模型的数量),使得系统能够扩展到复杂的多组分体系而无需重新训练整个模型。

实际应用表明,该框架在解决多种材料科学问题时具有很强的通用性。对于固态电解质,基于约100个选定结构训练得到的SGPR势能模型,其力场预测精度足以支持可靠的分子动力学模拟,使得Li7P3S11超胞的模拟速度比直接使用密度泛函理论(DFT)快了10^4倍。计算结果显示该材料的固有导电率高达数十mS/cm,激活能也与核磁共振(NMR)测量结果一致。这些模拟得到的单晶数据接近多晶样品实验测量的上限,这可能是因为理想化模型中不存在晶界电阻。在钙钛矿太阳能电池研究中,SGPR-MD模拟表明SnO2/钙钛矿界面会自发形成稳定的FASnCl3中间层,这一发现需要超出传统DFT能力范围的广泛构型采样。在电催化领域,SGPR筛选出Pt-C2N2单原子催化剂,其在氯气演化反应中的过电位约为30 mV,远优于工业催化剂(约100 mV)。对于有机体系,统一的势能模型能够以亚卡路里/摩尔的精度预测碳氢化合物的π-π堆叠相互作用,并准确预测聚合物的折叠动态,而这些动态是经验力场模型无法准确预测的。

当训练数据有限、不确定性量化至关重要且需要针对特定化学体系实现高精度预测时,SGPR-RBCM框架具有显著优势。通过在接近经典计算成本的条件下实现量子级精度模拟,这些方法大大加速了多种材料体系的高通量筛选过程。其模块化的专家模型架构为开发全面的材料预测模型奠定了基础,有望推动清洁能源、电子学和可持续化学领域的研究进展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号