基于集成机器学习的MOFs储氢能力智能筛选:实验数据驱动的高精度预测模型

【字体: 时间:2025年09月25日 来源:Next Energy CS1.3

编辑推荐:

  本研究针对金属有机框架(MOFs)储氢能力预测中实验数据有限、模型泛化能力不足的问题,开发了基于委员会专家系统(CES)的集成机器学习框架。通过整合501组实验数据,利用BET比表面积、孔体积、压力和温度四个关键描述符,实现了高达0.9958的预测精度(R2),显著优于单一模型。该研究为MOFs材料的快速筛选提供了准确高效的计算工具,对清洁能源存储技术发展具有重要意义。

  

随着工业革命的推进,化石燃料长期以来一直是技术发展和工业进步的基石。然而,在人口指数增长和工业化加速的驱动下,化石燃料的过度使用导致了严重的环境后果,特别是温室气体排放(主要是CO2)和有害副产品的产生。为了减少碳足迹和有害气体排放,向可再生能源转型变得至关重要。利用风能、太阳能、水热能和地热能进行发电被认为是满足能源需求和解决污染及全球变暖等环境问题的有效长期方案。

氢能因其高比能量和在使用过程中不直接产生CO2排放的特性,被认为是未来汽车应用中有前途的燃料。它通过燃烧提供大量热值,并且仅产生无害的水(H2O)作为副产物,体现了清洁能源的优势。当前的氢储存技术主要包括五种方法:(a) 高压(通常350-700巴)压缩气体储存,具有简单性和技术成熟度;(b) 低于20 K温度的低温液体储存,可实现更高的体积密度;(c) 使用多孔材料(如金属有机框架、活性炭)基于物理吸附的储存;(d) 通过金属氢化物和复合氢化物形成化学键的化学吸附;(e) 通过氢载体(如氨、液态有机氢载体)需要催化反应释放氢的化学储存。

尽管氢的重量能量含量为120 MJ/kg,是汽油(44 MJ/kg)的3倍,但其体积能量密度仅为8 MJ/L,比汽油(32 MJ/kg)低4倍。因此,氢储存解决方案需要比汽油基替代品更大的体积。尽管氢有一系列潜在应用,但其低体积能量密度阻碍了其在便携式应用中的适用性,包括燃料电池汽车。为了缓解这一限制,研究人员一直专注于开发经济实惠的氢储存技术。

美国能源部对氢动力汽车中的氢储存实施了严格标准,包括到2025年要达到的具体目标。为了满足氢储存的实际要求,目标性能指标定义如下:重量储存容量为5.5 wt%,体积储存容量为40 g·L?1,并在-20至40°C的温度窗口内稳定运行。此外,储存系统设计在5-12巴的中等压力范围内运行,确保操作安全性和效率。

液态氢储存需要低温条件,在标准大气压下保持温度低于氢的沸点-252.8°C(20.35 K)。气态氢储存通常需要350-700巴的高压 containment 系统,需要先进的复合容器,如碳纤维增强罐,以确保安全并防止脆化。尽管有这些压力,储存6 kg液态氢仍然需要大型储罐。因此,开发同时满足四个关键要求——(a) 成本效益,(b) 低密度,(c) 近环境温度/压力操作,和(d) 快速吸附动力学——的先进材料是实际氢储存解决方案的基本研究重点。

在氢储存材料研究中,金属有机框架(MOFs)因其卓越的比表面积、高孔体积和化学可调的结构特性而成为有前途的候选材料。MOFs是由金属离子或簇与有机连接体配位构建的先进晶体多孔材料,具有广泛的化学组成和结构架构。MOFs的模块化设计通过战略选择金属节点和有机连接体允许微调其结构特性。这种多功能性使得能够系统优化与氢储存相关的关键参数,包括孔结构、表面积和结合亲和力。此外,由于氢吸收的物理吸附主导性质,MOFs表现出快速吸附和解吸动力学。这些特性刺激了广泛的研究努力,旨在增强现有框架和设计具有改进氢储存性能的下一代MOFs。

然而,尽管MOFs的理论设计空间包含数百万种潜在结构,但只有一小部分被实验合成和表征。这种差异强调了MOFs的巨大未开发潜力以及与其实验实现和详细表征相关的巨大挑战。在所有潜在金属有机框架下不同热力学条件的系统实验评估根本上受到时间和财政资源实际限制的约束。因此,开发准确的MOFs氢储存能力预测模型对于实现潜在候选材料的高通量筛选和指导合理的实验合成工作至关重要。

与需要大量计算资源和时间的分子建模不同,机器学习模型可以在相对短的时间内开发,因为它不需要明确了解问题的底层物理,而是依赖于大型、无噪声和相关数据集的可用性。最近的机器学习进展显示了在优化多孔材料氢储存性能方面的巨大潜力,特别是在预测结构-性质关系和识别高性能材料候选方面取得了特殊成功。

本研究通过使用来自70项研究的501个实验观察数据,并应用一系列机器学习算法来解决已识别的问题。由于普遍存在的数据限制和模型简约性的必要性,仅使用了四个特征——Brunauer-Emmett-Teller (BET)表面积、孔体积、压力和温度。诸如孔径指标、空隙率、金属中心身份和连接体官能团等关键描述符在不同研究中的报告不一致,并且通常通过异质方案导出,无法可靠地整合到统一数据集中。相应地约束特征集降低了模型复杂度和过拟合风险,从而增强了在现实数据约束下的鲁棒性、可解释性和泛化能力。

研究人员采用了支持向量机(SVR)、人工神经网络(ANN)、随机森林(RF)、高斯过程回归(GPR)、梯度提升(GB)和委员会专家系统(CES)六种机器学习算法。与基于可能无法准确反映实际条件的理论模型的GCMC不同,这种方法依赖于实验数据并用实际数据验证结果,从而消除了理论假设。

研究团队遵循严格的迭代工作流程开发机器学习模型:(a) 从实验来源获取策划数据;(b) 全面预处理(清洗、归一化和特征工程);(c) 在需要时进行监督标记;以及(d) 模型训练和验证。该流程确保了稳健的预测,同时解决了材料异质性和稀疏高压数据等特定领域挑战。

处理后的数据集被分成训练和测试子集;训练集用于拟合模型,测试集提供最终模型性能的无偏评估。模型训练涉及选择和拟合适当的算法到训练数据点。超参数优化增强了模型性能,最终评估使用四个关键指标在独立测试集上进行:(a) 决定系数(R2),(b) 均方根误差(RMSE),(c) 平均绝对误差(MAE),和(d) 均方误差(MSE)。这种多指标评估确保了对预测准确性和误差幅度的全面评估。

本研究编译了一个来自70篇同行评审出版物的501个实验推导的氢储存测量值的策划数据集,涵盖了不同的MOFs结构和测量条件(30-298 K,0.1-100巴,0.04-3.77 cm3/g)。数据使用绘图数字化仪提取。为了支持可重复性,提供了数字化绘图与原始实验数据的样本比较。

在方法学方面,研究采用了六种不同的机器学习方法:人工神经网络(ANN)、支持向量回归(SVR)、随机森林(RF)、梯度提升(GB)、高斯过程回归(GPR)和委员会专家系统(CES)。每种算法的架构和超参数都经过优化,以捕捉控制H2吸附的复杂结构-性质关系。

人工神经网络(ANN)通过整合多个连接的神经元到复杂网络中复制人脑中的神经连接。系统复制大脑的基本功能,并组织成三个独立的层:输入层、隐藏层和输出层。输入层包含对应于每个自变量(特征)的神经元,其维度与输入向量大小匹配。隐藏层结合激活或传递函数,包括线性(purelin)、对数S型(logsig)、径向偏差和双曲正切S型(tansig)传递函数,以管理输入权重的求和和转移到隐藏层或输出层中的其他神经元。

支持向量回归(SVR)是支持向量机(SVM)方法的一个专门版本,用于回归问题。它特别构建用于预测连续输出值而不是分类数据。支持向量回归(SVR)利用核函数(如线性、多项式和径向基函数(RBF))将输入特征映射到高维空间,从而能够捕捉数据中的复杂非线性关系。

随机森林(RF)方法是决策树的改进变体,使用随机抽样的训练数据子集构建多棵树。在树木分裂的每个点,使用任意选择的特征来做出决策。这种集成方法有助于减轻过拟合并通过结合所有树的结果来提高预测性能。

高斯过程回归(GPR)是一种基于高斯过程(GPs)的回归技术。GPR是一种贝叶斯和非参数方法,以其均值和协方差函数为特征。高斯过程回归(GPR)基于高斯分布的基本思想,利用核函数对未知数据点进行预测。

梯度提升(GB)是一种先进的集成技术,通过顺序模型优化有效处理回归和分类任务。该算法通过迭代地将弱学习器(通常是浅决策树)拟合到先前迭代的残差误差,然后通过加权聚合结合这些校正来操作。这种加法方法逐步最小化损失函数,产生预测准确性的显著改进,同时保持模型可解释性。

委员会专家系统(CES)是一种集成学习方法,旨在通过整合多个模型来提高预测准确性和鲁棒性。来自多个模型的预测输出可以通过几种集成策略整合:(1) 用于回归任务的算术平均,(2) 用于分类的多数投票,(3) 基于验证性能的可靠性加权平均,或(4) 使用更高级别学习器的元模型堆叠。CES框架专门采用异构基础学习器(例如决策树、神经网络、SVM),这些学习器可以单独训练或通过诸如装袋和提升等多样性增强技术训练。

模型性能通过四个既定指标进行严格评估:决定系数(R2)、均方根误差(RMSE)、均方误差(MSE)和平均绝对误差(MAE)。R2指标量化了目标变量(氢储存容量)中由模型预测因子(MOF特性)解释的方差比例,值范围从0到1,表示没有到完美的解释力。RMSE和MSE提供了预测误差幅度的补充测量,而MAE提供了平均偏差的可解释估计。

相关性分析使用Pearson、Spearman和Kendall相关系数进行,结果显示BET表面积、压力和孔体积与氢储存容量之间存在显著正相关,而温度与氢储存容量呈负相关,这与物理吸附机制一致。较高的BET表面积和孔体积导致更多吸附位点,从而增加吸附容量,这些因素的正相关系数与假设一致,从而证明了数据的相关性。

在所有开发的模型中,梯度提升(GB)获得了最高的预测准确性,R2为0.9783,误差统计最低(MSE = 0.0216,RMSE = 0.1470)。SVR紧随其后,而RF、ANN和GPR显示出逐渐降低的预测性能。然而,出现了一个一致的模式:尽管训练结果显示出高R2值,但在测试阶段模型性能下降,这通过降低的R2和增加的RMSE以及关于1:1参考线的更广泛分散点来证明。

为了解决这个限制,采用了委员会专家系统(CES)方法,该方法导致了预测指标的显著增强,显示出明显改进的模型泛化和鲁棒性。委员会专家系统(CES)使用带有五个基础学习器(人工神经网络(ANN)、支持向量回归(SVR)、随机森林(RF)、高斯过程回归(GPR)和梯度提升(GB))的ANN辅助堆叠方法。每个基础模型在数据集上训练并为每个样本产生预测。然后将这五个预测用作元ANN的输入,该元ANN被训练以重现原始实验目标,即氢储存容量。

CES模型的性能表现出色,训练和测试点与45度线紧密对齐,表明优秀的校准和最小偏差。定量上,CES在测试集上达到R2 = 0.9962,MSE = 0.0085,RMSE = 0.0921和MAE = 0.0627,整体指标保持同样强劲(R2 = 0.9958,MSE = 0.0094,RMSE = 0.0969,MAE = 0.0652)。小的RMSE-MAE差距意味着很少有大误差,与接近零的残差一致。

SHAP (SHapley Additive exPlanations)分析用于梯度提升(GB)模型,显示了一个清晰且物理上一致的重要性层次结构:压力是预测的主要驱动因素,其次是BET表面积,而温度和孔体积发挥较小的、上下文相关的影响。GB beeswarm显示压力的单调正趋势——高值推动预测向上——而BET表面积表现出更广泛的双向扩散,表明GB通过其分段规则捕捉的相互作用。温度和孔体积的紧密、近零簇表明有限的全局影响,偶尔有局部相关性。

统计评估显示,委员会专家系统(CES)产生最低误差(RMSE = 0.181;95% CI = 0.160-0.204),表明优于单一学习器的卓越泛化和明显更紧的误差离散。在单个模型中,梯度提升(GB)最强(RMSE = 0.276;0.197-0.362),其次是GPR(=0.364;0.314-0.416)、SVR(=0.377;0.320-0.436)、ANN(=0.466;0.414-0.525)和RF(=0.469;0.422-0.527)。CES区间不与任何单个模型的中心估计重叠,并且是报告的最窄区间之一,证明了跨重采样的准确性和鲁棒性。

与文献中的机器学习方法进行比较表明,提出的CES模型在501个数据点上训练,达到0.9958的R2和0.0969的RMSE,表明预测和测量之间优秀一致,并且相对于文献具有竞争性误差。值得注意的是,尽管使用中等样本大小,CES匹配或超过了大规模梯度提升模型的预测准确性,同时显著改进了早期的神经网络和分组数据处理多项式神经网络基线。

该研究最终得出结论,委员会专家系统(CES)为MOFs的氢储存能力预测提供了一个准确、数据高效和可解释的框架,具有直接可扩展性到额外描述符、不确定性量化和主动学习策略,以加速材料发现。通过整合多种机器学习方法的优势,CES框架不仅提高了预测准确性,还增强了决策的可靠性,从而在先进计算建模和现实世界技术应用之间建立了 robust 的桥梁。

这项研究的意义远超出MOFs氢储存预测的具体领域,展示了在材料发现、能源系统和医疗诊断等复杂领域中广泛应用的潜力。在这些设置中,数据集通常嘈杂、异构和非线性,CES框架不仅提升了预测准确性,还加强了决策的可靠性, thereby 作为先进计算建模和现实世界技术应用之间的强大桥梁。该研究的成功实施为未来清洁能源存储材料的设计和优化提供了强有力的计算工具,对推动可持续能源发展具有重要价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号