综述:用于催化的机器学习:架起数据驱动发现与物理洞察之间的桥梁

《Materials Today Chemistry》:Machine learning for catalysis: Bridging data-driven discovery and physical insight

【字体: 时间:2025年09月26日 来源:Materials Today Chemistry 6.7

编辑推荐:

  本文系统梳理了机器学习在催化领域的三阶段演进:数据驱动筛选→物理导向建模→符号回归与机理揭示,并探讨数据质量、特征工程、模型泛化等挑战,提出融合小数据学习、标准化数据库及大语言模型的未来方向。

  
吴红静|谢尚康|李旭瑞|赵雅双|郭丽霞|涂新蕾|冯飞宇|王青涛|刘景辉|冯峰|卢春山|方如波|张群峰|李晓年
浙江工业大学绿色化学合成技术国家重点实验室育种基地,中国杭州,310032

摘要

催化领域正在经历从传统的试错和理论驱动模式向一个新的时代的转变,这个新时代的特点是数据驱动方法和物理洞察的深度整合。作为人工智能的核心技术,机器学习(ML)凭借其在数据挖掘、性能预测和机理分析方面的能力,已成为改变催化研究格局的强大工具。ML已广泛应用于光催化、热催化、电催化和异相催化等领域。本文系统地概述了ML在催化领域的发展历程:从基于实验和计算数据的早期高通量筛选,到使用具有物理意义的描述符进行性能建模,最终发展到旨在揭示通用催化原理的先进符号回归。在此框架下,我们重点讨论了数据采集和数据库构建、特征工程和物理描述符设计方面的最新进展和关键挑战,以及模型泛化和可解释性方面的问题。最后,我们对未来发展方向提出了展望,包括小数据学习、标准化催化剂数据库、基于物理的可解释模型以及大型语言模型增强的机理建模。

引言

催化是能源科学、环境科学和材料科学中的核心学科,在推动绿色发展和构建高效反应系统方面发挥着关键作用。然而,传统的研究范式——主要依赖于经验性的试错策略和理论模拟——在处理复杂的催化系统和庞大的化学空间时日益受到效率的限制。
近年来,作为人工智能的一个关键分支,机器学习(ML)在物理学[14,15]、化学[16,17]和生物学[18,19]等多个基础领域取得了革命性的进展,这得益于其在数据挖掘、快速性质预测和机理建模方面的能力。ML在催化领域的应用显著提高了催化剂筛选的效率[21],并在理解结构-性能关系和预测反应路径方面显示出独特优势。
催化的发展历程可以分为三个阶段:最初的直觉驱动阶段、以密度泛函理论(DFT)为代表的理论驱动阶段,以及当前这个数据驱动模型与物理原理相结合的新兴阶段。在这个第三阶段,ML已经从一个单纯的预测工具发展成为一种“理论引擎”,有助于机理发现和通用催化规律的推导。
尽管之前的综述已经涉及了算法开发[22]、描述符提取[23]和高通量实验整合[24]等主题,但很少有研究从学科发展的角度探讨ML如何推动催化领域的范式转变。为了解决这一空白,我们提出了一个“三阶段”的ML应用框架:从数据驱动的筛选开始,逐步发展到基于物理的建模,最终实现符号回归和以理论为导向的解释。在此框架下,我们系统地回顾了每个阶段的代表性算法、关键描述符和里程碑式成就,并进一步探讨了与数据质量、特征工程、模型可解释性和泛化能力相关的关键挑战。最后,我们讨论了催化机器学习(MLC)的未来发展方向,包括小数据算法、标准化数据库和大型语言模型(LLM)增强的机理建模。

机器学习概述:模型开发与评估

机器学习(ML)是人工智能(AI)的一个关键子领域[25],通过训练现有数据集来构建预测或推理模型。根据标记数据的可用性,ML方法大致可以分为监督学习、无监督学习和强化学习[26]。ML模型开发与应用的典型工作流程包括以下关键阶段:
  • 数据采集:收集和整理高质量的原始数据集。
  • 机器学习在催化中的应用

    传统的试错实验和理论模拟在加速催化剂筛选和优化方面的能力越来越有限。机器学习的出现提供了一种数据驱动的替代途径来克服这些瓶颈[47]。虽然当前的催化领域ML研究主要集中在预测催化性能和指导材料设计上,但相对较少的研究致力于阐明反应机理。
    本节概述了机器学习在催化中的应用框架。

    机器学习在催化领域面临的当前挑战

    ML模型在催化中的性能高度依赖于数据的质量和数量[63,64]。尽管高通量实验方法和开放获取数据库的兴起显著促进了催化领域的数据积累[65],但数据采集和标准化仍然是该领域ML应用的主要挑战。大型语言模型(LLM)为数据库开发提供了新的解决方案。同时,构建能够有效表征催化剂和反应的特征描述符也是一项重要任务。

    结论

    人工智能(AI)在推动基础科学进步方面的关键作用得到了广泛认可。作为AI的一个核心子领域,机器学习(ML)在化学、材料和生物学领域取得了革命性的突破,从根本上重塑了传统的科学范式。与传统依赖试错实验和理论模拟的催化研究不同,ML提供了一种低成本、高通量和高精度的方法来揭示催化机理。

    作者贡献声明

    吴红静:撰写——综述与编辑、原始稿撰写、方法论设计、实验研究、数据分析、概念构建。谢尚康:可视化处理、方法论设计、数据分析。李旭瑞:可视化处理、方法论设计、数据分析。赵雅双:验证工作、实验研究。郭丽霞:可视化处理、实验研究。涂新蕾:验证工作、实验研究。冯飞宇:可视化处理、实验研究。王青涛:方法论设计。刘景辉:方法论设计、数据分析。冯峰:

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。

    致谢

    我们衷心感谢国家自然科学基金(项目编号22078292和22008212)以及国家自然科学基金-浙江工业化与信息化融合专项基金(项目编号U20A20119)提供的财政支持。这些支持对于我们的研究工作和科学贡献具有重要意义。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号