化学特征工程与缺陷感知结构指纹：面向二维材料复杂缺陷的表征新方法

《Journal of Chemical Information and Modeling》：Chemical Feature Engineering and Defect-Aware Structural Fingerprint Representations for Complex Defects in 2D Materials

【字体：大中小】 时间：2026年02月16日 来源：Journal of Chemical Information and Modeling 5.3

编辑推荐：

　　本文综述了一项针对二维材料中复杂缺陷的创新表征研究。针对现有物理描述符难以区分相同成分不同缺陷构型、深度学习模型依赖大数据且可解释性差的瓶颈，该研究提出了一种结合化学特征工程（PF-Scaling）与缺陷感知结构指纹（DA structural fingerprints）的物理信息描述符构建方法。研究结果表明，该方法在高维特征空间中显著提升了数据点的区分度，在预测单缺陷位点形成能时，能平衡特征依赖、增强模型解释性与泛化能力，为高通量筛选稳定缺陷候选者提供了一种高效且可解释的机器学习替代方案。

引言与动机

二维（2D）材料中的点缺陷为实现广泛潜在应用（如基于过渡金属硫族化合物和六方氮化硼的固态单光子源）提供了可能。然而，仅基于第一性原理计算对这些缺陷进行全面研究，由于可能的缺陷种类繁多且性质相似，需要耗费巨大的计算资源和时间，这使得详尽研究变得不切实际。

过去十年，机器学习在包括材料科学在内的科学领域兴起。结合日益增长的实验和计算模拟材料数据库，机器学习为推进材料研究提供了额外工具。该领域的核心挑战之一是开发有效的表示（描述符或特征）来编码材料信息，作为机器学习算法的输入。

由完整块体结构衍生的表征已被证明可有效描述晶体结构中的缺陷。2020年，Frey等人提出了一种表征二维材料中点缺陷的显著方法，其描述符是相对于其原始对应物的相对量。最近，Kazeev等人证明，为深度学习模型MEGNet构建的特征在回归任务中显著优于传统集成学习模型中使用的物理信息描述符。然而，尽管预测性能优越，深度学习模型由于其复杂性通常被认为比传统方法可解释性差，且通常需要大量训练数据集。

本工作旨在填补这一空白，研究将物理信息描述符与基于决策树的梯度提升模型（CatBoost）结合，用于预测二维材料中缺陷的单缺陷位点形成能和HOMO-LUMO能隙。

方法论

数据集与描述符

本研究使用的数据集来自2D材料缺陷数据集（2DMD），共包含14,866个缺陷结构。这些结构分为高密度和低密度缺陷两类。使用matminer Python包从非弛豫结构生成经典力场启发描述符（CFID）特征作为基线特征。CFID包含四类数值特征：平均化学特征、基于晶胞尺寸的特征、平均径向电荷和分布特征，汇总于表1。

平均化学特征捕捉材料的整体化学成分和平均元素属性。基于晶胞尺寸的特征编码晶格几何和体积特性。平均径向电荷特征描述原子周围平均的局域电子环境和成键。分布特征捕捉局域原子环境的变化性，编码结构多样性和几何排列。这四类特征共同提供了材料化学和结构特性的全面表示。

为了使描述符更适合缺陷体系，本工作的重点是通过以下方式增强原始CFID：(i) 使用基于晶胞尺寸特征中的堆积分数（PF）对平均化学特征进行工程化；(ii) 使用统计距离从分布特征构建缺陷感知结构指纹。生成每个特征组件的整体过程如图2所示。该方法不捕捉基于图或局域环境特征的完整结构复杂性，但提供了一种计算成本低廉的方法来捕获足以区分缺陷类型的基本结构信息。

PF-Scaling

化学特征仅从组成元素推导而来，这种方法已成功应用于原始成分。然而，缺陷构型的多样性使得它们不足以区分具有相似成分的复杂缺陷结构；例如，六方氮化硼（hBN）中的C_BC_N和C_BC_B缺陷具有相同的化学特征。同时，基于晶胞尺寸的描述符，如堆积分数（PF），通过捕获引入空位或杂质原子后超胞中原子总体积的变化来解决这一限制。因此，我们将PF整合到平均化学特征中，以增强特征空间的区分能力。对每个结构，整合过程简单地对化学特征执行算术运算（例如，将化学特征除以PF或乘以PF）。我们将这种化学特征工程方法称为PF-Scaling。

缺陷感知结构指纹

平均化学特征在复杂缺陷系统中遇到的另一个困难是，化学指纹在点缺陷中可能不如在完整体系中有效。然而，CFID中的结构特征包括五个分布：径向分布函数（RDF）、最近邻分布（NN）、至第一（ADF1）和第二（ADF2）最近邻的角度分布函数以及二面角分布函数（DDF）。它们可以捕获由缺陷本身引入的初始几何变化。因此，本工作从这些分布构建了缺陷感知结构指纹，可以为区分不同缺陷类型提供更具辨别力的表征。

对于每个分布，我们将其归一化为类似于概率质量函数，并计算其与相应原始主体材料分布的统计距离。这一过程总共产生五个额外特征。为了找到最有效的距离类型，我们探索了三种度量：总变差距离（TVD）、海林格距离（Hellinger distance）和推土机距离（EMD）。在本工作中，我们使用Scipy库提供的Wasserstein距离函数。

特征选择

我们的方法包含两个组件：(i) PF-Scaling和(ii) 结构指纹，每个都有三种实现选择。因此，我们评估了PF-Scaling和统计距离度量的所有可能组合，以确定最佳配置。也考虑了仅对一个组件应用于CFID的配置。此外，为了进一步评估结构指纹的性能，我们包括了去除所有分布特征的场景。表2总结了本研究中考虑的所有特征集组合。

我们从两方面验证描述符的有效性。首先，它们必须满足描述符构建的三个标准：(1) 特征空间中的可区分性；(2) 在整个感兴趣材料域中的泛化性；(3) 计算效率。其次，我们评估描述符对机器学习模型性能的影响，识别哪些组合最能提高预测准确性，并通过特征重要性分析提取有意义的见解。

实验设置遵循相关工作的方法以进行直接比较。这包括2DMD数据集、基于决策树的梯度提升算法CatBoost以及加权平均绝对误差（MAE）作为评估指标。数据集使用分层分割方法分为80%训练集和20%测试集。使用scikit-learn Python包中的RandomizedSearchCV在训练集上进行超参数调优。

结果与讨论

对聚类与表征的影响

结构分布特征已被定量证明有利于原始结构中形成能的模型预测。对于具有复杂缺陷的2D材料，我们的t-SNE可视化表明，分布特征与高维特征空间中的数据分离相关，因为当它们被移除时，数据点变得更加重叠和分散。当包含分布特征时，我们的方法仅导致聚类质量的微小变化。然而，当没有纳入分布特征时，聚类得到显著改善。

去除分布特征的原始CFID的t-SNE图如图3a所示，其中数据点按主体材料着色，图3c仅显示WSe₂中低密度缺陷的数据，数据点按缺陷类型标记。两个图都显示投影数据点没有表现出清晰的分离。然而，应用PF-Division与DA Hellinger后，分离更加清晰，如图3b,d所示。为了进一步阐明这种效果，我们分别应用PF-Division和DA Hellinger以确定哪些组件主要贡献于改进。结果显示，DA结构指纹对聚类的贡献最大。然而，一些数据点之间仍然存在重叠，特别是对于TMD材料。这表明结合两个组件能产生最有效的表征。值得注意的是，原始CFID中实现良好聚类所需的特征数量从1557个减少到825个。

PF-Scaling和DA指纹所有组合的t-SNE可视化结果表明，距离度量的选择对聚类行为没有显著影响，而PF-Subtraction的性能比其他操作符差。当排除分布特征时，PF-Division和PF-Multiplication产生相当的结果。然而，当包含分布特征时，PF-Multiplication在数据点间表现出明显的重叠。因此，PF-Division在所有考虑的操作符中表现出最有效的聚类性能。

单缺陷位点形成能预测

进行随机搜索交叉验证后，每个特征组合的最佳结果总结在表3中。当排除分布特征时，出现了一个有趣的趋势：基线MAE从148 ± 3 meV降低到129 ± 8 meV，而特征数量同时从1557个减少到820个。这是所有测试模型中最大的改进。

与此同时，纳入DA结构指纹的扩展实现了与包含分布特征的原始CFID相当的性能。仅对化学特征应用PF-Scaling的模型产生略低的MAE，范围在133–137 meV。由于这些方法之间的性能差异没有统计学意义，我们选择PF-Division与海林格距离作为候选，用于测试集最终评估和特征重要性分析。

测试集上关于单缺陷位点形成能的最终评估结果如表4所示，并与相关工作进行了比较。为了确保统计稳健性，我们报告了12次独立运行的平均绝对误差（MAE）和均方误差（MSE）。当包含分布特征时，我们的PF-Division与海林格距离方法在大多数主体材料上相比原始CFID持续改善预测。例如，在组合数据集中，MAE从153 ± 6 meV（原始CFID）降低到142 ± 6 meV。然而，结果也表明，当分布特征被移除时，模型受益更多。在组合数据集中，原始CFID实现了最佳性能，MAE为128 ± 7 meV。虽然我们的方法产生的141 ± 8 meV略高（约10%），但两种方法的MSE在统计上相同。这表明我们的特征工程方法有效地减轻了大的离群误差。尽管如此，我们的扩展在具有高密度缺陷的BN和黑磷（P）主体上优于基础模型和先前工作。

特征重要性分析揭示了CatBoost模型如何利用特征，从而可以提取物理见解。对于预测单缺陷位点形成能的基线描述符，化学特征对模型的贡献最高，如图5中的饼图所示。在包括和排除分布特征的两种情况下，观察到的关键特征包括堆积分数和非对角项弹性常数（C-4， C-10， C-25和C-33）。更高的堆积分数表明晶胞内原子排列更紧密，这通常导致更低的总体能量。因此，准确确定这个量对于预测缺陷形成能至关重要，因为它明确进入缺陷形成能方程。除此之外，热学性质，如熔化热、沸点和熔点，也出现了。这些量可用于估计材料的键强，从而间接指示形成缺陷的难易程度。

性能最佳的模型（排除完整分布特征的原始CFID）严重依赖两个特征，即堆积分数和C-33（如图5b所示）。虽然堆积分数属性似乎相当关键，但该特征的支配地位表明模型可能捕获了特定于此数据集的强模式或相关性，这引发了对应用于更广泛或未见数据时泛化能力有限的担忧。相比之下，我们的扩展有助于平衡两种情况下特征的重要性集中。它增加了对化学特征的依赖，并减少了基于晶胞尺寸描述符的作用。弹性常数仍然是排名靠前的重要特征，与原始模型相似。其他与键强间接相关的化学性质，如沸点（bp）、Voronoi配位数（voro_coord）和熔化热（hfus），也作为重要的贡献者出现。

为了实证检验我们关于改进泛化的假设，我们在一个外部分布外（OOD）数据集上评估模型，该数据集包含块体六方氮化硼中的缺陷。该数据集包括83个中性缺陷结构，具有各种杂质原子，这些原子模型之前未曾见过。此外，由于其更宽的能量分布，它构成了一个重大挑战。当在完整的OOD数据集上评估时，基线模型和我们提出的模型都表现出相似的性能局限，如图4底部图表所示。然而，当我们关注适用的物理域时，我们的描述符方法（PF-Division + 海林格距离）在包括和排除分布特征的情况下都优于原始CFID，实现了更低的MAE，更重要的是，在12次独立运行中不确定性降低。这一结果证实，通过减少对单一主导特征的依赖，我们设计的描述符为未见过的结构和化学构型提供了更稳定和鲁棒的表征。此外，它提供了支持证据，表明模型不仅从晶格刚度学习，还从与掺杂剂化学特性相关的信息中学习。这些有希望的结果，特别是模型在稳定能量范围内泛化到化学环境的能力，加上远低于最先进的图神经网络MEGNetSparse的计算成本，指向了直接的实际应用。我们提出该框架可以作为一个计算高效的高通量缺陷发现预筛选工具。通过快速估计数千个缺陷构型的形成能，该模型允许研究人员在进行昂贵的、第一性原理验证之前，有效过滤掉不稳定的候选者。

HOMO–LUMO能隙预测

HOMO–LUMO能隙预测器的最佳结果报告在表5中。与形成能的情况不同，我们的扩展都没有对基线模型带来显著改进。基础预测器已经达到了124 ± 5 meV，没有变体能产生更低的MAE。

对于基线CFID，关键驱动HOMO–LUMO能隙预测的特征主要是结构性的，结构密度一项就占模型重要性的近30%。这与先前研究中报告的原始带隙预测形成对比，后者的化学特征占主导。与缺陷形成能不同，HOMO–LUMO能隙反映了多个性质之间复杂的非线性相互作用。我们的方法没有改善带隙预测，因为带隙源自量子力学性质，通常由特定轨道重叠决定，而平均描述符无法捕捉这些。因此，模型对密度的强烈依赖可能反映了数据集特定的模式，而非一般趋势。

引入海林格指纹和PF-Division，类似地增强了化学描述符作为主要贡献的作用，最小氧化态（min_oxid_s）出现在顶部附近。然而，密度始终是一个主要因素，排名最靠前的特征仍然是结构性的。这在包括和排除完整分布特征的场景中都有观察到，这解释了在测试数据集中性能增益有限的原因。

结论与展望

本研究考察了针对二维材料中复杂缺陷的物理信息表征方法，采用CFID作为基线描述符集，并对其进行扩展以更好地捕捉晶体固体中的缺陷特性。CFID的扩展包括两个部分：(i) PF-Scaling，将从组成元素衍生的化学特征与堆积分数整合；(ii) 使用统计距离从分布特征中提取缺陷感知（DA）结构指纹。我们的扩展成本低廉，适用于感兴趣的整个领域。此外，t-SNE可视化表明，同时使用(i)和(ii)两部分有利于高维空间中的数据区分，使我们的描述符方法满足先前工作提出的材料表征构建标准。PF-Division提供了最佳的聚类效果，但统计距离的选择没有显著差异。我们进一步使用机器学习算法（CatBoost）评估了它们在预测单缺陷位点形成能和最小HOMO–LUMO能隙方面的性能。基于两个目标的五折交叉验证，在不同PF-Scaling操作符和统计距离类型之间没有观察到显著改进。因此，我们选择PF-Division与海林格距离以及基线模型进行最终评估和解释。

在测试数据集上评估的MAE和特征重要性分析揭示，这种描述符方法对形成能预测更有效。对于另一个目标预测器，无论是基线还是扩展描述符，都没有从基线CFID中获得显著改进。此外，模型依赖于与结构性质相关的特征，没有提供物理见解。这指出了该方法在应用于电子性质（如带隙）时的局限性。在预测单缺陷位点形成能时，排除分布特征的基线CFID取得了最佳性能。尽管我们的扩展在组合数据集上实现了约<10%的稍高预测误差，但它提供了跨描述符的更平衡依赖，这意味着更好的泛化性和可解释性。这一主张通过对块体hBN缺陷的外部分布外（OOD）数据集的评估得到了实证验证，该数据集包含训练期间未见过的杂质。在适用域内（<5 eV），与基线相比，我们的模型表现出更低的不确定性和更优的稳定性，证实了其对抗数据集特定伪影的鲁棒性。

我们的发现为缺陷感知描述符在使用传统机器学习算法预测单缺陷位点形成能和HOMO–LUMO能隙时的表现提供了见解，同时也突出了其局限性。这指向了一个直接的实际应用：高通量预筛选。我们建议使用这种可解释且计算高效的框架来快速估计数千个假设缺陷构型的形成能。通过在昂贵的、第一性原理计算之前过滤掉不稳定的候选者，这种方法显著加速了二维材料中功能性缺陷的发现和设计，为深度学习模型提供了一种透明的替代方案。

热点排行

新闻专题