通过大型语言模型数据提取和浅层机器学习技术加速对催化作用的理解

《JACS Au》:Accelerating Catalysis Understanding via Large Language Model Data Extraction and Shallow Machine Learning Techniques

【字体: 时间:2025年10月23日 来源:JACS Au 8.7

编辑推荐:

  催化反应加速器设计:基于大语言模型的数据提取与浅层学习解析

  催化反应是一个高度复杂的过程,其背后涉及诸多因素,如催化剂的微观环境、活性位点、反应机制以及在实际反应条件下的变化。目前,实验研究者在深入了解催化剂行为方面面临诸多挑战,尤其是在利用深度学习等人工智能算法预测催化剂性能时。由于缺乏对这些微观因素的精确知识,实验研究者在使用人工智能模型时常常受到数据质量的限制。本文提出了一种新的框架,通过结合大型语言模型(LLM)和浅层学习方法,以一种高效、可解释的方式从科学文献中提取信息,为实验研究者提供有关催化剂设计的新见解。

在催化领域,人工智能和机器学习技术的应用正在迅速发展。虽然已有研究表明,机器学习在预测材料合成、结构或物理性质方面具有显著效果,但将其应用于预测催化剂在特定条件下的反应性能(如反应速率、选择性、能量效率等)仍然面临困难。这是因为催化反应涉及众多变量,包括催化剂的表面性质、反应条件(如温度、压力、电压等)以及未被完全记录的复杂因素,如反应物中的杂质、催化剂合成过程中的缺陷等。这些因素使得构建高质量的实验数据集变得极具挑战性,而高质量数据是深度学习模型有效运行的基础。

为了解决这一问题,本文提出了一种基于大型语言模型的框架,通过从科学文献中提取文本数据,构建一个低精度但广泛的实验数据集。这种框架的关键在于如何利用语言模型的文本提取能力,以及如何对这些数据进行适当的编码和处理,以便浅层学习模型能够从中提取有价值的催化信息。不同于传统的深度学习模型,该框架强调使用浅层模型,如决策树和随机森林,这些模型在处理低精度数据时表现出更强的可解释性。浅层模型能够揭示不同特征之间的关系,并为实验研究者提供清晰的解释,这对于理解催化反应中的选择性机制至关重要。

为了验证该框架的有效性,研究者将其应用于两个典型的催化反应:二氧化碳电还原反应(CO?RR)和氧气还原反应(ORR)。在CO?RR的研究中,研究者发现,使用Cu催化剂时,反应倾向于产生多碳产物,而Sn和Bi则更倾向于产生甲酸或甲酸盐。此外,电压的负值程度对多碳产物的形成具有关键作用,当电压低于某个阈值时,更可能促进多碳产物的生成。这些发现不仅与已知的催化趋势一致,还揭示了某些未被广泛讨论的机制,例如电压与催化剂之间的相互作用对产物选择性的影响。

在ORR的研究中,研究者同样采用了该框架,并构建了一个包含多种特征的数据集。通过分析,发现Pt、纳米结构、Fe、KOH电解液和Pd等特征对预测半波电位是否高于中位数具有显著影响。这些特征的存在表明,反应条件对催化性能具有重要影响。然而,值得注意的是,一些关键的催化参数,如法拉第效率、催化剂支持材料等,由于在文献中未被统一报告,因此在构建数据集时被排除。这些参数虽然重要,但目前难以通过语言模型进行自动提取,需要进一步结合计算机视觉技术。

此外,研究者还测试了将年份作为特征是否会影响模型的预测能力。结果表明,即使将年份纳入模型,其预测准确性也未显著提升,这说明模型主要依赖于催化相关特征进行决策,而非时间因素。这也进一步证明了该框架在处理低精度数据时的有效性。

该框架的核心创新在于其提示工程(prompt engineering)和数据编码策略。通过精心设计的提示语句,研究者能够从大量文献中提取关键的催化信息,并将其整理成结构化的数据集。随后,通过混合编码方法(包括标签编码和独热编码),确保数据在机器学习模型中的兼容性和可解释性。这种编码方式在保持数据维度较低的同时,保留了不同类别之间的数值关系,使得浅层模型能够更有效地提取信息。

在实验结果方面,该框架在多个分类任务中表现出较高的准确性。例如,在预测电子转移是否为低或高时,决策树模型的平均准确率为0.82,而随机森林模型的准确率则略高,达到0.86。在预测产物为CO还是甲酸时,两个模型的准确率均在0.81左右。而在预测单碳产物与多碳产物的分类任务中,准确率分别达到0.86和0.85。对于CO与乙烯的产物选择性预测,准确率最高,达到0.93。这些结果表明,该框架在处理低精度数据时仍然能够提供有价值的催化信息。

通过SHAP(SHapley Additive exPlanations)分析,研究者进一步揭示了各个特征对催化反应的具体影响。例如,在预测电子转移时,Cu催化剂和电压是主要的决定因素,而Sn和Au则更倾向于产生低电子转移产物。在预测产物选择性时,电解液的种类和催化剂结构同样发挥了重要作用。例如,KOH电解液和氧化衍生的Cu催化剂更可能促进多碳产物的形成,而多孔结构则可能抑制这一过程。这些发现不仅为实验研究者提供了新的见解,还帮助他们更好地理解催化剂设计中的关键因素。

总的来说,本文提出的框架为实验研究者提供了一种新的方法,使他们能够利用机器学习技术快速处理文献,生成新的假设,并设计实验以加速催化剂开发。该框架的核心在于其可解释性,使得研究者能够更直观地理解模型的预测依据。此外,通过将复杂的催化问题分解为多个二分类任务,研究者可以更深入地分析各个特征对反应性能的影响,从而获得更全面的催化信息。随着人工智能和大型语言模型的不断发展,这种框架有望在催化研究中发挥更大的作用,帮助研究者更高效地探索催化剂设计的可能性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号