机器学习与化学感知填补驱动的富锂NCM材料一次颗粒尺寸不确定性量化预测及其对锂离子电池性能的优化意义

【字体: 时间:2025年10月10日 来源:Advanced Science 14.1

编辑推荐:

  本刊推荐:本研究针对富锂镍钴锰(Li-rich NCM)正极材料在一次颗粒尺寸预测中存在的文献数据缺失问题,创新性地引入化学感知填补方法(MatImpute)结合自然梯度提升(NGBoost)算法,实现了高精度且不确定性量化(UQ)的颗粒尺寸预测。研究揭示二次烧结温度与一次烧结时间是主导因素,而成份影响微弱,为锂离子电池(LIB)正极材料的烧结工艺优化提供了数据驱动的理论依据。实验验证表明预测误差仅0.13μm,不确定性校准误差(AUCE)低至0.133,凸显了该方法在材料微结构调控中的可靠性与推广价值。

  
引言
锂富集镍钴锰(Li-rich NCM)材料作为下一代锂离子电池(LIB)正极,其电化学性能强烈依赖于一次颗粒尺寸。然而,机器学习(ML)在该领域的应用受限于文献数据的不完整性。本研究通过采用多种填补方法(MatImpute、K近邻、链式方程多重填补及均值法)处理缺失数据,并训练自然梯度提升(NGBoost)模型,实现了对一次颗粒尺寸的预测及不确定性量化。研究比较了两种训练策略:包含填补目标值的数据集与仅包含完全观测目标值的数据集,并在完整测试集上验证性能。MatImpute结合的NGBoost模型表现最佳,测试R2达0.866,校准误差为0.133。特征分析表明,二次烧结温度和一次烧结时间是主导因素,成分影响微弱,这与先前实验报道的烧结参数通过原子迁移率和晶粒粗化驱动亚微米晶粒生长的机制一致。实验验证显示多数预测与测量值的偏差在0.13μm内,归一化不确定性接近1.5。这些发现证明了稳健的填补和不确定性量化增强了基于ML的颗粒尺寸预测,并确认烧结条件而非化学计量比主导富锂NCM材料的微结构演化。
结果
数据分析与模型训练
研究首先对文献中报道为区间的一次颗粒尺寸取平均值,以便用于NGBoost预测。所有缺失数据通过四种填补策略处理,形成完整数据集用于模型训练。NGBoost模型在两种策略下训练:一是包含缺失目标值填补后的数据集(293个数据点),二是剔除缺失目标值后填补的数据集(143个数据点)。两种策略均采用10折交叉验证,输入变量包括Li在TM层中的分数、Ni、Co、Mn分数以及两次烧结的温度和时间。模型在完整测试集上评估,使用负对数似然(NLL)、决定系数(R2)和校准误差面积(AUCE)等指标。SHAP分析用于解释各输入特征对预测的影响。
填补数据集上的NGBoost模型分析
四种填补方法中,MatImpute填补的X-y数据集训练的NGBoost模型性能最优(R2=0.88,NLL=-0.79),而KNN和MICE填补的模型表现中等,均值填补则 consistently 表现不佳。当训练集仅包含完全观测目标值时,所有模型的NLL值升高至0.89–1.00,R2降至-1.27,凸显了保留数据并使用化学感知填补的重要性。对293条数据集的143条子样本分析表明,数据组成而不仅是样本量影响模型性能。分布图和相关性分析显示,MatImpute能最佳保持原始数据变异性,而其他方法会引入偏差或压缩特征 spread。
模型性能与校准
MatImpute填补的X-y数据集训练的NGBoost模型在测试集上表现优异,R2为0.8659,NLL为-1.5867,校准曲线最接近理想对角线,AUCE为0.1327,优于其他方法。模型预测均值与实际值高度一致,且不确定性估计自适应于样本难度。代表性折点分析显示,不同折点在准确性和校准间存在权衡,需共同考虑这些指标。训练损失轨迹表明模型收敛稳定,过拟合风险低。
模型解释与特征重要性
SHAP分析表明,二次烧结温度是最重要特征,其高值 consistently 导致更大颗粒尺寸预测;一次烧结时间次之,而第一次烧结温度和第二次烧结时间影响中等。成分变量(Mn、Co、Ni、Li在TM层分数)影响可忽略。交互作用分析显示,二次烧结温度与烧结时间存在强耦合效应,而成分间交互作用微弱。这些发现与物理机制一致,即烧结参数通过原子迁移率和晶粒粗化主导微结构演化,而非化学计量。
实验验证
通过四种合成NCM811样本对模型进行分布外(OOD)验证。SEM图像和粒径分布显示样本形态差异。预测与测量平均粒径的绝对误差在0.024至0.131μm间,归一化误差在-1.51至-0.24间,其中三个样本的归一化误差近1.0,表明统计一致性高。预测标准差(0.0593–0.0740μm)合理,与实验标准差比值约1.5,符合校准目标。
讨论
本研究证明,结合化学感知填补的NGBoost能在数据缺失下实现准确可靠的富锂NCM一次颗粒尺寸预测。MatImpute在保持数据真实变异性方面优于其他方法,保留缺失目标值可提高模型性能。模型在训练和测试集上表现一致,且能推广至OOD条件,不确定性估计良好,适用于风险感知的合成优化。特征重要性分析与物理理解一致,烧结参数主导颗粒尺寸,成分影响微弱。与相关小数据集ML研究比较,本研究通过填补扩大数据集、提供概率输出和外部验证,在数据稀疏场景中实现了可信预测。局限包括文献数据异质性和实验样本量小,但通过分布评分和误差归一化 mitigated。未来工作可扩展至粒径分布预测。
结论
化学感知填补与概率NGBoost回归结合,实现了富锂NCM材料平均一次颗粒尺寸的校准预测。通过填补缺失目标值将训练集从143条扩至293条,测试性能优异(R2≈0.866,AUCE≈0.133),MatImpute提供最佳准确率-校准权衡。SHAP分析确认烧结处理(尤其是二次烧结温度和一次烧结时间)主导颗粒尺寸。OOD验证显示绝对误差≤0.13μm(三例),归一化误差近1.0,不确定性缩放适当。局限源于文献报告异质性和实验集小,但通过分布评分和误差归一化缓解。未来可发展分布感知模型预测粒径分布。
实验部分
数据集来自文献和GPT辅助提取并经人工核对。缺失值用四种方法填补,NGBoost在两种策略下训练:包含填补目标值(293训练条)和剔除缺失目标值(143训练条),测试集均为70条完整数据。输入特征经PowerTransformer转换,NGBoost配置高斯输出分布和决策树基学习器,训练5000轮,学习率0.01,早停基于内部验证集。性能用R2、NLL和AUCE评估,SHAP用于解释。实验在NVIDIA GeForce RTX 4080上运行。
实验验证中,四种NCM811样本通过贝叶斯优化合成,烧结条件各异。采用水热法,前驱体经洗涤、混合锂源、 pelletized 和烧结。用SEM和XRD表征,ImageJ测量粒径(正交直径平均)。计算绝对误差和归一化误差(结合实验和预测方差)。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号