编辑推荐:
为解决传统丙烷脱氢(PDH)和氧化脱氢(ODH)研究中试错策略的不足,研究人员构建数据集评估机器学习算法性能。结果显示,CatBoost 和随机森林在 PDH、LightGBM 在 ODH 中预测性最佳,还明确了关键影响因素,为催化系统设计优化提供依据。
在化学工业蓬勃发展的当下,乙烯和丙烯作为重要的化学基础原料,其需求持续攀升。从塑料制造到精细化工产品合成,它们都发挥着不可或缺的作用。目前,通过催化氧化轻质烷烃来生产烯烃,是一种既经济又环保的途径。然而,传统的催化剂研发主要依赖试错策略,科学家们凭借经验和化学直觉进行反复试验。这一过程不仅耗费大量的时间和资源,而且在实验过程中会产生有毒废弃物,对环境和人体健康构成严重威胁。因此,寻找一种更高效、可持续的催化剂筛选和设计策略迫在眉睫。
在这样的背景下,机器学习技术的崛起为催化科学带来了新的曙光。它能够从海量数据中挖掘隐藏的模式和趋势,为催化剂的研究提供全新的视角。许多领域中机器学习的成功应用,让科研人员看到了将其引入催化科学的潜力。于是,来自多个研究机构的研究人员携手合作,开展了一项关于 “Small - dataset - orientated data - driven screening for catalytic propane activation” 的研究,相关成果发表在《Artificial Intelligence Chemistry》上。
该研究主要运用了以下关键技术方法:首先,研究人员使用 Python 编程语言(版本 3.9.11),借助多个第三方库,如 scikit - learn(版本 1.2.0)、lightgbm(版本 1.7.4)、catboost(版本 1.0.6)以及基于 Amazon AutoGluon(版本 0.7.0)自动机器学习框架的 Automated Machine Learning(AutoML),实现各种机器学习算法的构建与训练。其次,从文献中收集丙烷直接脱氢(PDH)和氧化脱氢(ODH)的数据,并根据催化剂描述、催化条件描述和催化性能描述这三个类别,整理出相关特征,构建数据集。
研究结果主要从 PDH 和 ODH 两方面展开:
- 丙烷直接脱氢(PDH):
- 数据集分析:通过对文献中 PDH 反应数据的整理,发现实验报道的丙烯产率主要集中在 5 - 40%,这初步反映了现有 PDH 反应催化剂的催化性能。
- 模型性能评估:利用 AutoGluon 初步筛选算法,发现集成算法如 CatBoost、随机森林回归(RFR)、Extra Trees Regression(ETR)和 XGBoost 在测试集中表现较好,其中 CatBoost 算法构建的模型性能最优。进一步对比其他算法并优化超参数后,结果表明集成算法对小数据集的模型预测性能优于传统机器学习算法。同时,随着训练集规模增加,模型性能提升,说明集成算法构建的模型对小数据集有足够的泛化能力。
- SHAP 分析:运用 SHAP(Shapley Addition Method of Interpretation)分析,发现低温不利于丙烯生成,催化剂中镓(Ga)的存在会降低丙烯产率,而钒(V)含量的增加则会提高丙烯产率。此外,反应时间、温度、气体流速和载体组成等对预测的丙烯产率影响显著。
- 丙烷氧化脱氢(ODH):
- 数据集分析:分析 ODH 数据集发现,使用非金属催化剂时,丙烯选择性主要分布在 75 - 90%;使用金属基催化剂时,丙烯选择性较低,主要在 40 - 50%。同时,丙烷转化率和丙烯选择性之间难以确定负相关关系,显示出 ODH 系统的复杂性。
- 模型性能评估:对不同类型数据集进行预处理后筛选算法,发现 Extra Tree Regression 算法在非金属催化剂数据集(NonMData)、LightGBM 算法在金属基催化剂数据集(MData)、CatBoost 算法在全数据集(FullData)表现最佳。对比不同模型性能,发现基于全数据集训练的模型(Model - F)比融合模型表现更优,且 LightGBM 算法在预测和筛选丙烷 ODH 方面是较优选择。
- SHAP 分析:通过 SHAP 分析可知,低进料保护气和低丙烷转化率下丙烯选择性通常较高。对于 V 催化剂,存在合适的负载范围,超出该范围,丙烯选择性会降低;对于六方氮化硼(BN)催化剂,较高的 BN 含量有利于提高丙烯选择性。此外,载气、转化率、催化剂组成(V、BN 等)和温度等对机器学习模型预测值影响显著。
研究结论和讨论部分指出,该研究成功将机器学习应用于数据有限的多相催化领域,以丙烷转化为丙烯为研究对象,评估了一系列重要的机器学习算法,推荐了适用于 PDH 的 CatBoost 模型和适用于 ODH 的 LightGBM 模型。通过 SHAP 分析,明确了催化剂组成和操作条件等因素对反应的影响,为实验研究提供了指导。针对催化数据量有限、数据集存在稀疏和不平衡的问题,研究人员提出了相应策略:采用集成算法处理小数据集,避免对不平衡小数据集使用模型融合方法,利用自动机器学习(如 Autogluon)筛选合适算法。这些策略不仅为丙烷催化活化研究提供了新的思路,也为其他面临类似数据困境的科学问题提供了借鉴,有助于推动催化系统的合理设计与优化,在催化科学领域具有重要的理论和实践意义。