少样本学习突破了钙钛矿材料设计中的数据瓶颈

《Materials Today Physics》:Few-Shot Learning Breaks the Data Bottlenecks in Perovskite Materials Design

【字体: 时间:2025年10月23日 来源:Materials Today Physics 9.7

编辑推荐:

  提出物理驱动型少样本学习框架,通过离子扰动生成35325个合成数据点,结合原子轨道(AO)描述符揭示d-p轨道杂化调控能带间隙的机制,模型在真实数据验证集上MAE降低36%,并成功逆向设计1916种潜在光电催化材料。

  在材料科学领域,尤其是针对钙钛矿氧化物(ABO?)的光电材料设计中,带隙工程一直被视为核心挑战之一。传统上,研究者们通过实验手段来获取材料的带隙信息,但由于实验数据稀缺以及传统描述符的“黑箱”特性,这种方法在机器学习(ML)中的应用受到了严重限制。为了解决这一难题,本研究提出了一种基于物理原理的少样本学习框架,成功生成了35,325个高保真度的合成数据点,从而有效缓解了数据不足的问题。这一方法不仅在合成数据生成方面展现出强大的能力,还首次在机器学习中解码了d-p轨道杂化对带隙的影响机制,揭示了关键的原子尺度电子相互作用。

带隙是钙钛矿氧化物的一项重要特性,它在不同的应用领域中发挥着不同的作用。例如,在铁电材料中,需要较宽的带隙(2.7-4 eV)以减少介电损耗;而在光催化剂或光伏材料中,则需要较窄的带隙(1.4-3.8 eV)以提高太阳能利用率,但同时也可能加剧电子-空穴对的复合。因此,为了满足特定的应用需求,必须对材料的带隙进行优化。传统的测量方法依赖于迭代实验和表征技术,不仅耗费大量资源,而且浪费时间。因此,开发精确、快速且具有指导意义的带隙预测方法对于设计新型钙钛矿材料至关重要。

在材料基因组计划的推动下,机器学习已成为材料设计的重要工具。准确预测材料属性是机器学习在材料设计中的核心应用,但仍然面临一些持续的挑战。通常的做法是将材料属性转化为数值向量,称为描述符,这些描述符可以分为结构描述符和组成描述符。尽管结构描述符在机器学习模型中具有较高的保真度,但它们依赖于对未知化合物的先验知识以及计算上繁重的密度泛函理论(DFT)优化,这严重限制了其可扩展性。另一方面,带隙值的变化主要来源于组成差异,因此,组成描述符在带隙预测任务中占据重要地位。然而,传统的Magpie描述符(Mag)采用全局统计方法来获取整体元素信息,未能捕捉ABO?系统中原子之间的局部电子效应,且具有不可解释的“黑箱”特性,阻碍了机器学习模型对带隙调控机制的理解。

面对实验数据或高精度计算数据的极端稀缺,机器学习模型可能会出现过拟合现象,从而严重限制模型预测的准确性。可解释机器学习(XML)需要同时整合具有物理意义的描述符和足够大的数据集,以揭示潜在的因果关系。然而,数据稀缺严重阻碍了XML的应用,使得无法揭示能量带结构与材料组成性质之间的因果机制,这正是实现合理材料设计的关键条件。

为了解决数据稀缺带来的困境,研究者们探索了三种主要方法:数据集扩展、建模算法选择和少样本学习框架。这些方法在材料少样本学习研究中取得了显著进展,但仍然存在一些固有的局限性。数据集扩展成本高昂,而建模算法通常具有任务特定性,缺乏通用性。主流的少样本学习框架包括主动学习(AL)和迁移学习(TL)。AL通过选择性标注数据来降低标注成本,但频繁的模型更新导致计算资源消耗较高。TL依赖于大规模标注数据集,这在数据有限的场景中难以实施。幸运的是,合成数据作为新的数据增强策略,现在被广泛用于机器学习模型,以解决数据稀缺问题。结合阳离子扰动策略与改进的结构无关学习方法CrabNet_s,为生成材料合成数据集和预测带隙提供了一种强大手段。这一方法利用阳离子扰动生成大量合成材料数据,并通过CrabNet_s网络模型进行标注,该模型整合了MP_m数据库中的成分、元素比例和空间群编号,包含140,000种材料样本,并具有HSE质量的带隙值。

面对传统描述符的“黑箱”性质,引入详细的电子结构信息,如轨道能量水平、形状和电子分布,可以充分捕捉ABO?的复杂电子结构。结合大量合成数据,将有助于提高带隙预测模型的准确性和可解释性。本研究提出了一种基于物理原理的少样本学习框架,以克服数据稀缺条件下的钙钛矿设计瓶颈。从MP_m数据库中严格筛选出的52个真实样本数据在严格的物理约束下具有接近实验精度的带隙值,这与特定应用场景下实验数据稀缺的实际情况相符。

利用阳离子扰动策略结合CrabNet_s神经网络模型,生成了具有带隙值的35,325个合成数据点,旨在解决数据稀缺的挑战。此外,为了提高在少样本数据集下带隙预测模型的准确性和泛化能力,我们整合了基础物理描述符与原子轨道描述符(AO),以充分编码ABO?的电子结构特征。优化后的带隙预测模型在包含52个ABO?样本的验证集上取得了均方误差(MAE)为0.382 eV的性能。通过XML方法,我们揭示了B位阳离子价电子和轨道能量对ABO?带隙调控的基本作用。我们的框架在共掺杂系统中表现出卓越的泛化能力,并结合了带隙调控规律,实现了1916种潜在光催化剂的逆向设计。

在材料发现和设计过程中,具有特定性质和技术可行性的立方ABO?晶体结构尤其值得关注。这些结构表现出相对较小的光生电子有效质量和较高的电荷载流子迁移率,这对于优越的光催化性能至关重要。本研究聚焦于具有空间群221的立方ABO?样本。从MP_m数据库中提取出的52种三元ABO?样本根据四个筛选标准,包括带隙值范围在0.5到4 eV之间、空间群编号为221、化学式包含三种元素,以及遵循ABO?的化学计量比。这些52个ABO?的带隙值被用作验证集,以评估模型的真实泛化能力。图1(a)展示了立方钙钛矿结构以及A位和B位可能的元素分布。A位由碱金属、碱土金属、稀土元素和少量类金属占据,而B位主要由过渡金属组成,伴有少量非金属元素。图1(b)展示了初始52个材料样本的带隙分布。仅关注元素描述符对带隙的影响,使得难以训练出有效且可解释的模型,以揭示描述符与带隙之间的因果关系,尤其是在仅有52个样本的有限数据集中。

为了验证数据集的生成,我们执行了基于阳离子扰动策略的阳离子替换,生成了原始合成数据集,包含136,522个样本。这些样本挑战了计算效率,因此需要消除冗余信息。首先,通过使用基于新容忍因子公式的新方法,对110,000个合成材料数据进行理论判断,以评估钙钛矿相的稳定性。公式如方程(1)所示,其中A位元素的氧化态、离子i的Shannon半径、Shannon半径大于另一个值,以及Shannon半径小于4.18表明为钙钛矿。不同的元素、不同的价态和不同的配位数将导致不同的Shannon半径。详细信息请参见支持信息,备注1。经过初步筛选后,107,634个符合钙钛矿相的合成样本被保留下来,并通过CrabNet_s网络模型根据成分、元素比例和空间群信息分配带隙标签。

材料具有钙钛矿相时,可以采用多种空间群,包括立方、正交、四方和单斜晶体系统。通过阳离子替换获得的合成材料可能因晶格参数变化、电子云再分布或晶格畸变而发生相变,因此除了考虑合成材料是否形成钙钛矿相外,还需要确保材料形成立方晶体系统,符合空间群221。因此,我们建立了具有正负对称性的训练数据集。为了实现最佳分类,基于遗传编程的树基管道优化工具(TPOT)非常适合小数据集的机器学习任务。经过交叉验证的10折训练后,通过TPOT选择的最佳分类模型在训练集上获得0.981的分类性能得分,在测试集上获得0.967的得分。从107,634个符合钙钛矿相的材料中筛选出73,522个立方结构材料。详细的流程和信息请参见支持信息,备注2。

当CrabNet_s网络模型将带隙值作为预测目标时,每个结果的输出是交叉验证的5折数据,这些数据在不同折之间有所变化,且对于某些样本,5折数据之间的值范围较广。直接应用平均值处理会高估那些三折预测为0的材料的带隙值,并增加模型分析的数据偏差。为了进一步探索和分析数据集,我们应用了无监督机器学习中的K-means聚类算法。5折带隙数据可以被分为2个聚类,每个聚类包含带隙值差异较小的邻近样本,而取值最多的聚类的平均值被用作筛选对应材料的带隙值。最终,我们筛选出35,325个三元ABO?数据,带隙值高于0.5,并对这些材料直接使用5折交叉验证的平均值进行处理。图1(c)展示了优化后的合成材料数据集的带隙分布。所有模型在本文中都将使用这些35,325个合成数据,并按照4:1的比例分为训练集和测试集。

为了提高在少样本数据集下带隙预测模型的准确性和泛化能力,我们整合了基础物理描述符与原子轨道描述符(AO),以充分编码ABO?的电子结构特征。优化后的带隙预测模型在包含52个ABO?样本的验证集上取得了均方误差(MAE)为0.339 eV的性能。AO在测试集上弥补了Phy与Mag之间的性能差距,提高了R2值6%并减少了MAE 0.049 eV。对于原始52个样本,验证误差显著降低,R2值增加了约13%,MAE减少了约0.1 eV。通过全面评估模型的准确性和可解释性,本研究最终选择了结合Phy和AO的机器学习模型,以探究控制ABO?带隙大小的关键成分元素特性。

在模型验证之后,我们使用SHAP框架进行解释,这是可解释机器学习(XML)的一种方法。SHAP基于Shapley值,量化每个特征对模型预测的贡献,提供了一种高度可解释的方法,用于全局和局部模型解释。图7(a)展示了ETR模型的SHAP摘要图,其中特征按平均|SHAP|值降序排列,点密度表示样本集中度,颜色表示特征值的大小。红色表示特征值高,蓝色表示低,水平轴表示正负SHAP值。图7(b)和(c)展示了特征对带隙的影响。因此,可以看出,对ABO?带隙影响最大且具有明显影响模式的因素是B位阳离子的价电子数量、d轨道电子数量、B位与A位阳离子价电子数量的差异以及B位的最高占据分子轨道能量。

为了验证合成数据的合理性,本研究生成的合成数据通过阳离子扰动策略具有清晰的物理合理性和计算可验证性。该策略系统地替换ABO?中A/B位的阳离子,以生成140,000级的假设材料,同时保持晶体结构的稳定性,并通过HSE06校准的代理模型(CrabNet_s)分配带隙标签。这有效克服了传统GGA计算低估实验值(MAE = 0.91 eV)的缺陷,并将合成数据的预测误差降低到0.399 eV。合成数据的核心优势在于其嵌入了材料的内在物理机制:阳离子替换模拟了真实材料设计中电子结构的连续调控,而空间群编码作为对称描述符,确保了生成材料与原始材料晶体相的结构兼容性。实验验证表明,合成数据预测的ZnBi?O?带隙(2.2-3 eV)与测量值高度一致,而通过SHAP可解释性分析揭示的带隙主导因素(B位阳离子的总价电子数和电负性)与固体能带理论中的离子-共价平衡机制一致。这种基于物理约束的数据生成范式突破了小样本数据稀缺的瓶颈,实现了组成-结构-性能的定量相关性,为高置信度材料机器学习提供了可扩展的计算实验平台。

在多个位点的共掺杂系统中,实验验证了本研究提出的带隙预测模型的泛化能力。模型被应用于预测共掺杂后的ABO?材料的带隙。模型的有效性通过预测值与文献中实验值之间的误差大小进行评估。以SrTiO?为例,该材料具有较高的水分解活性,但其3.25 eV的宽带隙限制了紫外吸收。我们生成了La-Cr、La-Mn和La-Sc共掺杂结构,其位点替换比为0.01。在La?Sr???Cr?Ti???O?中,x和y的范围从0到0.2,图8(a)展示了随着La或Cr掺杂浓度的增加,带隙的均匀减少。模型预测纯SrTiO?的带隙为3.09 eV,与实验值3.25 eV相差0.16 eV。对于La?.?Sr?.?Cr?.?Ti?.?O?,模型预测的2.35 eV与实验值2.31 eV仅相差0.04 eV。图8(b)中的红线圈出的五个点表示La和Cr在相同掺杂比例下从0.01到0.05的预测结果,详细比较实验值见图8(b)。对于预测和实验数据,带隙变化的趋势随着掺杂比例的增加而下降。两者的平均误差为0.34 eV,这作为模型的原始误差,表明预测结果具有极高的准确性。

在实验数据不可用的La-Mn和La-Sc系统中,我们通过DFT研究进行了验证。虽然Perdew-Burke-Ernzerhof(PBE)计算低估了SrTiO?的带隙值为1.83 eV,而实验值为3.25 eV,La-Mn系统的带隙趋势显示整体下降,与Xiong等人通过GGA预测的导带趋势一致。在La-Sc共掺杂系统中,模型预测的带隙在相同掺杂比例下与Nabi等人使用HSE06杂化泛函计算的带隙趋势几乎一致。观察到随着La在固定Sc掺杂下的增加,带隙减少,而随着Sc在固定La掺杂下的增加,带隙扩展,这与实验文献中的测量结果一致。这些一致性共同验证了模型在ABO?共掺杂预测中的有效性,并在图S3和S4中提供了完整的趋势可视化。

为了尽可能探索材料空间,我们考虑了在共掺杂场景下ABO?系统的31种常见A位元素和22种B位元素。由于实验中掺杂比例通常不超过0.3以避免结构变化,本研究将A位和B位的共掺杂比例范围设置为0.01到0.3,并以0.01为步长。因此,化学空间包含567,000种组合,化学式为A?Sr???B?Ti???O?(x和y的范围从0.01到0.3)。为了高效搜索具有预期带隙值的材料组成,本研究应用了贝叶斯优化(BO)方法。我们将元素和掺杂比例视为BO的目标参数,以实现材料的逆向设计。同时,通过整合实验文献和之前引用的光催化剂研究,我们将带隙范围0.8-2.7 eV设为目标带隙区间,并通过筛选符合目标带隙范围的35,325个合成数据构建理想材料数据集。随后,我们统计确定理想数据集内25个特征值的分布区间,并将其设为候选材料的属性阈值区间。此外,我们使用归一化方法计算四个关键描述符的个体损失权重,并根据其SHAP重要性筛选出理想的候选材料。最终,通过BO方法,我们逆向设计了1,916种潜在的光催化剂,这些催化剂由SrTiO?的多种元素共掺杂生成。BO的具体设计过程在支持信息中描述。

在材料机器学习中,输入描述符对模型性能起着决定性作用。本研究引入了全面的原子轨道描述符(AO)用于ABO?带隙预测,弥补了Mag的泛化缺陷和Phy的准确性限制,实现了复杂性、准确性和泛化之间的最佳平衡。我们揭示了四个关键AO的影响力模式,这些AO具有可解释的物理机制,与材料的基本原理一致。通过整合阳离子扰动和CrabNet_s,我们生成了35,325个合成数据,从初始的52个点扩展而来,为可解释学习建立了坚实的基石。这种方法相较于基线模型提升了36%的预测性能,使得在少样本条件下的预测准确性达到前所未有的水平,同时揭示了潜在的物理原理。关键的是,该框架展示了卓越的泛化能力。对于La-Cr/Mn/Sc共掺杂的SrTiO?,它与实验值的误差为0.04 eV,并且在实验掺杂比例不可用的情况下,与DFT趋势保持一致。此外,贝叶斯优化迅速设计了1,916种SrTiO?修改候选材料,这些材料具有目标带隙(0.8-2.7 eV)从567,000种组成中筛选出来,证明了其在可见光水分解等应用中的实用性。这一基于物理原理的少样本学习框架可以扩展到钙钛矿以外的少样本材料研究,但合成标签的偏差仍然是主要的误差来源。未来的工作应整合物理信息数据与实验验证,以缓解这一限制。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号