《Journal of Energy Chemistry》:Data-augmented machine learning for predicting biomass-derived hard carbon anode performance in sodium-ion batteries
编辑推荐:
本研究利用机器学习模型预测生物质硬碳在钠离子电池中的性能,通过数据增强提升小样本条件下的模型鲁棒性,结合SHAP和PDP分析揭示关键影响因素,实验验证显示预测精度达R2 0.854-0.868。
陈刚|杨子涵|孙鹏|李俊峰|王成龙|李金良|杨光|潘立坤
中国华东师范大学磁共振与医学分子成像研究所物理学院磁共振实验室,上海200241
摘要
生物质衍生的硬碳因其高容量和优异的循环稳定性而成为钠离子电池(SIBs)最有前景的负极材料。然而,合成参数和结构特征对硬碳电化学性能的影响仍不清楚,这需要耗时且资源密集的实验研究。机器学习(ML)通过在大数据集上进行训练,提供了一种有效的解决方案,可以更高效地预测硬碳的性能,从而节省时间和资源。在本研究中,使用了四种ML模型来预测硬碳的容量和初始库仑效率(ICE)。基于TabPFN技术的数据增强方法被用来提高模型在数据有限条件下的鲁棒性,并研究了特征与电化学性能之间的关系。值得注意的是,XGBoost模型在容量预测方面的R2值为0.854,RMSE为23.290 mA h g?1;在ICE预测方面的R2值为0.868,RMSE为3.813%。Shapley加性解释(SHAP)和部分依赖图(PDP)分析表明,炭化温度(Temperature_2)是影响容量和ICE的最重要因素。此外,我们使用竹子作为前驱体,根据预测方法合成了四种硬碳,这些样品的电化学性能与我们的预测结果非常吻合。通过利用机器学习方法,本研究为加速生物质衍生硬碳候选材料的筛选过程提供了一个有效的框架。
引言
在过去的几十年里,锂离子电池(LIBs)已在便携式电子设备和电动汽车中得到广泛应用[1]、[2]、[3]、[4]。然而,它们仍然面临诸如锂资源分布不均、储量有限和成本高昂等挑战,这些因素阻碍了它们在未来大规模储能系统中的可持续性和经济性要求[5]、[6]。相比之下,由于钠资源丰富、成本较低且安全性较高,钠离子电池(SIBs)被认为是满足大规模储能系统需求的理想技术[7]、[8]、[9]、[10]。最近的技术经济分析表明,钠离子电池是对抗关键矿物供应链波动的战略选择,强调其相对于低成本锂离子电池的商业竞争力取决于最大化电池级能量密度的积极工程路线图[11]、[12]。然而,钠离子较大的离子半径是一个重大挑战,使得传统的石墨负极不适合用于SIBs[13]、[14]。因此,大多数研究人员关注硬碳负极,因为它们具有丰富的孔结构、低电压平台和优异的循环稳定性[15]、[16]、[17]、[18]。目前,硬碳通常是从生物质中制备的。然而,生物质衍生硬碳的实际应用仍面临一系列实质性挑战。前驱体来源的多样性、复杂的热解条件以及多样的后处理过程导致其微观结构高度复杂且不均匀,严重影响了性能的可控性和可预测性[19]、[20]、[21]、[22]。此外,关键的电化学性能指标(如初始库仑效率(ICE)和容量)在很大程度上受到材料微观结构和制备参数之间复杂非线性相互作用的影响[23]、[24]。不幸的是,传统的试错实验方法成本高昂、耗时且缺乏系统性,难以阐明这些复杂的结构-性能关系。这严重阻碍了高性能硬碳负极材料的进一步开发和工业化。
近年来,机器学习(ML)作为能源材料领域的一个强大工具出现,提供了出色的数据分析和高预测效率[25]、[26]、[27]、[28]。利用数据驱动的建模,ML能够快速预测材料性能,揭示结构和性质之间的复杂非线性关系,并有效弥补了传统试错方法的局限性[29]、[30]。这不仅提高了研究效率,还加速了潜在机制的发现。例如,Owusu等人使用多种ML模型预测了柑橘衍生生物质基硬碳的容量,其中表现最佳的梯度提升(Gradient Boosting,GB)模型在测试集上的R2值为0.467,均方根误差(RMSE)为68.413 mA h g?1[31]。Zhang等人使用多种ML模型分析了木质素含量对硬碳结构和容量的影响,其中极端的梯度提升(XGBoost)模型在容量预测上的R2值为0.60[32]。Ji等人使用自助聚合(Bootstrap Aggregating,Bagging)模型预测了通过热机械耦合制备的硬碳的电化学性能,在容量预测上的R2值为0.800,RMSE为25 mA h g?12值为0.710,RMSE为0.04[33]。尽管取得了这些进展,现有研究的预测准确性仍然有限,且大多数研究缺乏必要的实验验证,降低了它们在材料优化方面的实际应用价值。
在这项工作中,我们采用了ML方法来预测SIBs中硬碳的容量和ICE,并研究了工艺参数和结构特征对其电化学性能的影响。我们收集了一个包含350个有效条目的数据集,这些数据来自95个高质量来源,包括工艺参数、结构特征和电化学性能指标。为了克服样本量有限的挑战,我们使用了表格先验数据适配网络(TabPFN)模型进行数据增强,以提高模型的鲁棒性和泛化能力[34]。为了确保预测的准确性,我们选择了四种代表性的集成学习模型——XGBoost、随机森林(Random Forest,RF)、梯度提升回归(Gradient Boosting Regression,GBR)和轻量级梯度提升机(Light Gradient Boosting Machine,LightGBM)。选择这些算法是因为它们在材料科学领域已成为主流选择,并且在最近的研究中显示出比其他潜在模型(如SVM、ANN)更优越的性能[25]、[26]。此外,这些基于树的模型特别适合我们的数据集,因为它们已被证明能够处理中小规模的表格数据,捕捉复杂的非线性结构-性质关系,并与可解释性框架(如SHAP)兼容[35]、[36]、[37]、[38]。结果表明,XGBoost模型在测试集上的容量预测R2值为0.854,RMSE为23.290 mA h g?12值为0.868,RMSE为3.813%,优于以往研究中报道的模型。此外,我们使用Shapley加性解释(SHAP)和部分依赖图(PDP)分析来理解关键特征如何影响电化学性能。为了测试我们ML模型的实际应用价值,我们对预测结果进行了实验验证。研究发现,预测结果、特征重要性分析和实验结果之间具有高度一致性,进一步证实了该模型在预测硬碳性能方面的有效性。我们认为,我们的预测方法为SIBs中硬碳负极的实验优化提供了重要指导。
数据集构建
为了构建一个稳健的数据集,我们使用Web of Science数据库进行了全面的文献搜索。通过严格的手动筛选,保留了95篇经过同行评审的研究,共获得350个有效数据条目。根据提取的信息,变量被分为三个主题组:工艺参数、结构特征和电化学性能。详细的特征变量及其
结论
在这项工作中,我们使用了四种ML模型(XGBoost、RF、GBR和LightGBM)来预测SIBs中硬碳负极的容量和ICE,并通过基于TabPFN的数据增强方法提高了在小样本条件下的模型鲁棒性。对表现最佳模型的特征重要性分析显示了关键特征如何影响电化学性能。在这些模型中,XGBoost的准确率最高,容量预测的R2值为0.854,RMSE值为23.290 mA h g?12值为0.868,RMSE值为3.813%
CRediT作者贡献声明
陈刚:撰写——原始草案、方法论、概念化。杨子涵:正式分析。孙鹏:正式分析。李俊峰:研究。王成龙:撰写——审稿与编辑、软件、研究。李金良:撰写——审稿与编辑、正式分析。杨光:软件。潘立坤:撰写——审稿与编辑、监督、方法论。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
致谢
我们感谢广西科学技术计划(2024AB08156)、上海自然科学基金(25ZR1401102)和中国广州市科学技术计划(SL2024A03J00326)的财政支持,以及华东师范大学多功能创新平台(001)的支持。