机器学习加速计算设计用于氮还原反应的仿生催化剂

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Advanced Materials》：Machine Learning Accelerated Computational Design of Bio-Inspired Catalysts in the Nitrogen Reduction Reaction

【字体：大中小】 时间：2026年06月09日 来源：Advanced Materials 26.8

编辑推荐：

　　开发用于将氮转化为氨的高效催化剂对于替代高能耗的哈伯-博世（Haber–Bosch）工艺的可持续方案至关重要。然而，在真实条件下复杂的结构-功能关系使得理性催化剂设计仍然极具挑战性。在此，研究人员提出了一个集成的计算框架，将量子化学计算与27个机器学习模型相结

开发用于将氮转化为氨的高效催化剂对于替代高能耗的哈伯-博世（Haber–Bosch）工艺的可持续方案至关重要。然而，在真实条件下复杂的结构-功能关系使得理性催化剂设计仍然极具挑战性。在此，研究人员提出了一个集成的计算框架，将量子化学计算与27个机器学习模型相结合，以预测金属-配体复合物中的实验催化指标。这些模型在大型实验数据库上进行训练和验证，并在多个任务中表现出高预测准确性。对于分类任务，家族1和家族2催化剂的测试准确率最高达到1。回归模型在家族1中，对于周转频率（turnover frequency, TOF）和周转数（turnover number, TON）的预测分别获得了0.91和0.88的测试R²值，在家族2中分别为0.96和0.99。值得注意的是，模型准确捕捉了新复合物的TOF和TON的时间依赖性变化，预测值与实验结果高度吻合。此外，对于结构不同的配位架构，观察到了强大的迁移学习能力。特征解释揭示了最优催化剂的设计原则，涉及金属自旋态、配体几何、电荷分布和实验条件。综上，本研究建立了一个高效实用的框架，用于在真实条件下发现和逆向设计高性能催化剂，并对电催化具有广泛适用性。

氨（NH₃）是生产肥料和工业化学品的关键原料，也可作为无碳燃料。当前工业合成氨主要依赖高能耗的哈伯-博世（Haber–Bosch）工艺（温度400–550°C，压力15–25 MPa），该过程消耗全球约2%的年能量输出并贡献约1.3%的二氧化碳排放。相比之下，生物固氮酶（含FeM辅助因子，M=Mo、V、Fe）在温和条件下（<40°C、常压）即可实现氮还原反应（NRR），优化周转频率（TOF）约1 s^?1。受此启发，研究人员致力于开发仿生催化剂以在环境条件下促进NRR。然而，催化剂理性设计仍面临巨大挑战，主要源于真实条件下复杂的结构-功能关系，反应条件（如溶剂、电解质、施加电位）的微小变化即可显著影响催化活性、选择性和稳定性。传统密度泛函理论（DFT）计算虽可提供定性结构-性质关系，但难以定量预测实验催化性能；而单纯基于机器学习的模型（如分子指纹）无法追溯性能的物理本源。因此，亟需一种结合量子化学计算与机器学习的方法，在真实反应条件下系统预测均相仿生NRR催化剂的性能。

为此，研究人员开发了一套集成计算框架，结合量子化学计算与27种机器学习（ML）模型，预测金属-配体复合物的实验催化指标（TOF、TON和选择性比值）。研究基于约524个实验数据点（涵盖218种催化剂，主要来自Peters和Nishibayashi研究组），将催化剂按几何结构分为四个家族。通过量子化学计算提取62种特征（包括几何性质、非共价相互作用、电子和原子层面性质等），并利用主成分分析（PCA）、Pearson/Spearman相关性分析及化学推理进行特征筛选。研究人员训练了多种分类器和回归器，用于预测催化活性、稳定性和选择性。最终建立了一个可通过简化分子线性输入规范（SMILES）快速预测新催化剂性能的工作流程，并展示了强迁移学习能力。该研究发表于《Advanced Materials》。

为开展研究，研究人员主要采用了以下关键技术方法：首先，基于文献编译了约524条实验数据（218种催化剂，主要源自Peters和Nishibayashi课题组），按几何结构分为四个家族。量子化学计算采用多级几何优化流程（UFF、GFN2-xTB、B97-3c和PBE0-D4/def2-SVP）及最终单点计算（PBE0-D4/def2-TZVPD），所有计算均通过CPCM隐式溶剂化模型考虑溶剂效应。机器学习部分，研究人员使用了10种分类器（如随机森林RF、自适应增强AB、决策树DT等）和17种回归器（如极端随机树ET、梯度提升决策树GBDT、多层感知器MLP等），通过网格搜索与嵌套10折交叉验证优化超参数。针对分类任务中的样本不平衡问题，应用合成少数类过采样技术（SMOTE）进行数据增强。特征分析方面，采用PCA降维、Pearson/Spearman相关性矩阵、Shapley加法解释（SHAP）和部分依赖图（PDP）方法识别关键特征并揭示设计原则。

以下为研究结果各部分总结：

**2.1 数据分析**
研究人员编译了约524条实验记录（218种催化剂），分为家族1（103条，36种结构，主要为Peters型催化剂）和家族2（391条，167种结构，主要为Nishibayashi型催化剂），金属以Mo（46.89%）和Fe（28.09%）为主。家族3和4因数据量不足未独立训练。

**2.2 量子化学计算**
通过量子化学计算（DFT）获取催化剂第一配位层（金属及最近六个原子）的化学性质，包括几何参数、电子性质（如HOMO–LUMO能隙）及分子层面性质。初步分析未发现HOMO–LUMO能隙与实验TOF的明确关联，表明需借助ML方法。

**2.3 属性精炼**
对家族1，PCA确定13个主成分解释95%方差，重要特征包括HOMO、Hirshfeld自旋布居HS5和排斥能；家族2需19个主成分，关键特征为键距D6、键序BO3和Hirshfeld电荷HC3。经相关性分析和化学推理，研究人员分别筛选出18个特征（家族1）和16个特征（家族2）用于后续ML建模。

**2.4 机器学习模型性能**
分类任务中，家族1的RF（反应性）和AB（稳定性）测试准确率达1；家族2的DT（反应性）和AB（稳定性）测试准确率最高达1和0.96，RF（选择性）为0.82。回归任务中，家族1的ET模型（TOF）和AB模型（TON）的测试R²分别为0.91和0.88；家族2的ET（TOF）和GBDT（TON）分别达到0.96和0.99。归一化误差指标（RMAE、RRMSE）均低于50%，表明模型性能良好。实验条件（如酸当量、反应时间）显著影响预测精度。

**2.5 基于SHAP和PDP的特征分析**
SHAP分析表明，家族1最优催化剂需具备高自旋金属中心、最小空间排斥的顶部基团及略正电荷的侧位P原子；实验条件包括近零pKa的酸（如H[(OEt)₂]⁺）和强还原剂（KC8或CoCp*₂）。家族2最优催化剂为单体八面体几何，三齿配体中心位点带正电荷，单齿配体带负电荷，实验条件为高pKa酸（如水）和还原剂（KC8或SmI₂(THF)₂）。SHAP瀑布图准确再现了所选催化剂的预测过程，预测值与实验值高度吻合。

**2.6 候选催化剂预测**
利用最优模型（MLP、ET、DT预测TOF；GBDT、AB、MLP预测TON）预测43种未包含在训练集中的分子复合物的催化性能。预测结果与最近报道的实验值趋势一致，TOF和TON的预测数量级和相对排序得到良好重现。例如，催化剂22和24在5分钟反应中的实验TOF约37000和54000 h^?1，预测值约30500和31400 h^?1；2小时TON实验约8500和8700，预测约9000和7600，模型成功捕捉了TOF和TON的时间依赖性变化。

**2.7 迁移学习**
将家族1的最优模型应用于结构差异显著的家族3催化剂，预测TOF和TON的R²分别为0.65和0.86，表明模型具有良好的迁移能力和普适性。

**2.8 模型泛化性**
合并家族1和2数据训练通用ML模型，TOF预测（DF模型）测试R²=0.95，TON预测（ET模型）R²=0.91。但当用家族3数据集评估时，性能显著下降。进一步通过推导有效活化能描述符（从TOF去除实验变量影响）训练模型，家族2的AB模型测试R²=0.82，SHAP分析结果与含实验条件的模型一致，表明模型学习了内在结构-性质关系而非琐碎关联。

**2.9 计算工作流**
研究人员开发了基于SMILES输入的自动化工作流，包含四个模块：结构生成（从SMILES和实验条件生成XYZ结构）、结构描述（多级几何优化和单点计算）、数据分析（提取分子描述符）和ML预测（利用预训练模型输出TOF、TON和分类结果）。该工作流高效（在32核超算上测试通过），基于开放数据库，便于扩展和大规模筛选。

总结讨论部分，研究人员指出：模型成功预测未见催化剂性能，并捕捉TOF和TON的时间依赖性；迁移学习验证了模型的普适性；特征分析揭示了催化剂设计原则。研究结论（翻译自原文Section 3 Conclusion）：本研究开发了集成量子化学计算与机器学习技术的计算工作流，用于加速金属-配体复合物催化性能的预测。与常规研究不同，该方法直接针对实验催化指标，并在大型编译的实验数据库上得到验证。通过系统特征分析和特征集调优，研究人员训练了分类器预测催化剂反应性和稳定性，以及回归器定量预测TOF和TON。分类方面，家族1的RF和AB模型分别在反应性和稳定性上取得高测试准确率，家族2的DT和AB模型也表现强劲；家族2的RF选择性分类器获得良好测试准确率。回归方面，家族1的ET（TOF）和AB（TON）模型表现优异，家族2的ET（TOF）和GBDT（TON）分别达到R²=0.96和0.99。特征分析阐明家族1最优催化剂需高自旋金属中心、四价底部原子、最小第一配位层空间排斥及顶部基团，侧位P原子略带正电荷；家族2最优催化剂倾向单体八面体几何，金属中心高自旋，三齿配体中心结合位点带正电荷，单齿配体带负电荷且与金属结合强于Mo–P基团。实验条件方面，家族1建议使用近零pKa酸和强还原剂，家族2建议高pKa酸和特定还原剂。这些分析使催化性能的准确预测成为可能，预测值与实验值高度一致。更重要的是，当应用于先前未训练的分子复合物时，模型成功复现了正确数量级和相对性能趋势，并捕捉了TOF和TON的强时间依赖性变化，凸显了集成ML方法的鲁棒性和预测准确性。为进一步验证模型泛化性，研究人员在结构不同的家族3催化剂上评估了迁移学习性能，TON和TOF的R²分别达0.86和0.65，展示了强可移植性和普适性。为加速设计过程，研究人员开发了基于SMILES输入预测新催化剂性能的工作流，并可整合开放数据库实现新催化剂设计。总之，本研究为在真实条件下发现高性能NRR催化剂提供了基于实验的实用框架，并为其他电催化剂设计提供了见解；更重要的是，为未来开发更高效、更准确的方法（如集成图神经网络）以及大规模计算筛选和闭环实验-模型反馈工作流铺平了道路，有望通过机器学习驱动的仿生催化剂发现方法进一步推进氨合成研究。

联系信箱：

粤ICP备09063491号

热点排行