机器学习攀登光电性质的"雅各布天梯":从独立粒子近似到随机相位近似的迁移学习突破

【字体: 时间:2025年09月01日 来源:Nature Communications 15.7

编辑推荐:

  研究人员针对机器学习(ML)预测光电性质时训练数据集精度不足的问题,通过借鉴密度泛函理论中的"雅各布天梯"概念,创新性地将迁移学习(TL)应用于从独立粒子近似(IPA)到随机相位近似(RPA)的跃升。研究表明仅需300个RPA计算即可微调基于10,000个IPA数据训练的图注意力网络(GAT),其预测精度接近直接训练6,000个RPA光谱的模型。该成果为高效预测包含多体效应的光学性质提供了新范式。

  

在光电材料研发领域,准确预测光学和光电性质对光伏、光学数据处理乃至量子计算等关键技术至关重要。然而传统的第一性原理计算方法面临严峻挑战:虽然多体微扰理论(MBPT)和Bethe-Salpeter方程(BSE)能提供精确结果,但其计算复杂度随系统尺寸呈指数增长,使得实际应用仅限于小体系。与此同时,基于独立粒子近似(IPA)的机器学习模型虽速度快,但因忽略局部场效应和屏蔽效应等关键物理过程,预测结果与实验存在显著差距。

这一困境与密度泛函理论(DFT)发展历程惊人相似——正如John Perdew提出的"雅各布天梯"所描述,计算精度与计算成本构成难以调和的矛盾。Malte Grunert、Max Gro?mann和Erich Runge团队在《Nature Communications》发表的研究,创新性地将这一概念拓展至光电性质计算领域,构建了从IPA(最低阶)、RPA(第二阶)到BSE(第三阶)的理论阶梯,并通过迁移学习实现了计算精度的阶梯式跃升。

研究团队采用三项关键技术:1)基于量子 espresso(YAMBO)软件包完成约6,000种材料的RPA光谱计算,构建目前最大的收敛数据库;2)沿用OPTIMATE架构的图注意力网络(GAT),将晶体结构转化为多图结构进行特征提取;3)设计相似性系数(SC)定量评估不同理论级别光谱的差异,指导迁移学习策略优化。

主要研究结果

迁移学习显著提升预测效率

通过比较直接学习(DL)和迁移学习(TL)策略发现,TL仅需300个RPA训练样本即可达到DL需要3,000样本的精度水平。如图2所示,TL预测的RPA光谱(橙色)与真实计算结果(黑色)高度吻合,而DL在小数据集下产生严重失真的单峰结构。

小体系训练数据实现大体系泛化

突破性发现是:仅用最多4个原子/原胞的1,500个材料进行TL训练,模型对含8个原子/原胞体系的预测精度仍保持SC>0.85(图3)。这一发现极大降低了高精度训练数据的获取成本,因为RPA计算耗时随原子数呈O(N3)增长。

RPA与IPA光谱的普适关联性

通过分析图4的二维直方图发现,模型预测RPA光谱的能力与其预测IPA光谱的能力高度相关(面板b与d的SC分布相似)。这表明网络首先构建了材料空间的通用表征,再将其映射到特定理论级别的光学性质。

局部场效应的材料特异性规律

通过UMAP降维可视化(图7)发现,卤化物(如KF3)和氮化物(如NaN3)构成两个明显的低SC集群,表明这些材料具有最强的局部场效应。这为针对性选择理论计算级别提供了直观依据。

这项研究通过构建"光电性质雅各布天梯"的理论框架,证实迁移学习能有效跨越不同精度理论之间的鸿沟。其重要意义体现在三方面:1)实践层面,发布的RPA数据库和预训练模型使研究者能以千分之一的计算成本获取接近RPA精度的预测;2)方法学层面,证实小体系训练数据可预测大体系性质的规律,为GW-BSE等更高精度方法的机器学习化铺平道路;3)物理机制层面,通过SC预测模型揭示了材料化学组成与局部场效应的关联规律。这些突破为最终实现与实验精度匹配的机器学习预测奠定了关键基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号