基于集成学习的可解释材料性质预测:以经典原子间势为特征的高效建模方法
《npj Computational Materials》:Interpretable ensemble learning for materials property prediction with classical interatomic potentials
【字体:
大
中
小
】
时间:2025年10月26日
来源:npj Computational Materials 11.9
编辑推荐:
本刊编辑推荐:针对传统机器学习方法在材料性质预测中存在的训练耗时、黑箱回归和特征描述符设计复杂等问题,研究人员开展了基于集成学习的材料性质预测研究。该研究以碳同素异形体为例,利用九种经典原子间势计算的性能作为输入特征,通过回归树集成模型成功预测了形成能和弹性常数。结果表明集成学习方法比单一原子间势具有更高精度,且能自动识别关键特征,为材料设计提供了高效可解释的解决方案。
在材料科学的多尺度建模领域,密度泛函理论(DFT)和分子动力学(MD)模拟已成为不可或缺的研究工具。然而这两种方法各自存在明显局限:DFT计算量巨大,仅能处理数百原子规模体系;而MD虽然可模拟更大体系,但其精度受限于经验性原子间势的准确性。随着机器学习(ML)在材料科学中的广泛应用,神经网络势(NNP)、图卷积神经网络(CGCNN)等深度学习方法虽然表现出色,但仍面临训练耗时、黑箱操作以及需要精心设计特征描述符等挑战。
针对这些难题,亚利桑那州立大学的研究团队在《npj Computational Materials》上发表了一项创新研究,提出了一种基于集成学习的材料性质预测框架。该研究巧妙利用经典原子间势的计算结果作为输入特征,避免了复杂的特征工程设计,为小数据集条件下的材料性质预测提供了高效可解的解决方案。
研究团队选取碳同素异形体作为模型系统,从Materials Project(MP)数据库中提取58种碳结构,使用九种经典原子间势(包括ABOP、AIREBO、LJ、AIREBO-M、EDIP、LCBOP、MEAM、ReaxFF和Tersoff)通过LAMMPS软件计算形成能和弹性常数。这些计算结果与DFT参考值共同构成训练数据集,用于构建四种回归树集成模型:随机森林(RF)、AdaBoost(AB)、GradientBoosting(GB)和XGBoost(XGB)。
关键技术方法包括:1)从MP数据库获取碳结构数据;2)使用九种原子间势通过MD模拟计算材料性质;3)采用回归树集成算法构建预测模型;4)通过网格搜索和交叉验证优化超参数;5)利用主成分分析(PCA)和特征重要性评估进行模型解释。
通过对碳材料形成能的预测结果表明,所有集成学习模型均优于单一原子间势。其中随机森林(RF)表现最佳,其平均绝对误差(MAE)为0.132 eV/atom,低于最准确的经典势LCBOP。投票回归器(VR)通过组合多个模型的预测进一步降低了误差。值得注意的是,集成模型在高形成能结构的预测上存在一定局限,这主要源于训练数据中高能样本的缺乏。
在弹性常数预测这一多目标回归问题上,集成学习方法同样展现出优势。如图3所示,AB、RF、XGB和GB模型的MAE均显著低于Tersoff势。多目标回归器的使用有效解决了单个模型不支持多目标预测的问题。特别值得注意的是,AB模型的性能甚至优于从九种势中为每个结构选择最佳结果的方法(Min)。
通过主成分分析(PCA)发现,基于原子间势计算的特征向量能够有效区分不同结构类型。石墨状、金刚石状和富勒烯状结构在特征空间中形成明显聚类,且其分布与形成能大小一致。特征重要性分析表明,ReaxFF和AIREBO-M在回归树分裂中起关键作用,这与它们的皮尔逊相关系数(PCC)和局部最小误差频率高度相关。
研究还测试了模型对新型碳结构的预测能力。通过将碳化硅和硅结构中的硅元素替换为碳,构建了10个新结构进行测试。结果表明,虽然RF模型在插值预测上表现良好,但其外推能力有限,特别是对高形成能结构的预测趋于保守。这凸显了训练数据多样性和特征可转移性的重要性。
研究团队客观分析了方法的局限性:训练数据集规模有限影响了模型性能;回归树算法对特征精度和线性关系的依赖;多属性预测时特征维度增加导致的性能下降。通过硅氧体系的大数据集测试表明,随着训练数据增加,模型误差逐渐稳定,证实了数据规模对性能的重要性。
特征选择实验表明,仅使用高精度势(LCBOP和ReaxFF)作为特征时,模型性能最优,这说明特征质量比数量更重要。此外,研究还探索了通过k近邻(KNN)插补法减少计算工作量的可行性,为实际应用提供了实用方案。
这项研究证明了集成学习在小样本材料性质预测中的有效性,为材料设计提供了一条可解释、高效率的新途径。通过利用经典原子间势的计算结果作为特征,既避免了复杂的特征工程,又保持了模型的物理可解释性。虽然在外推预测方面存在局限,但该方法在插值预测上的优异表现,以及其白盒特性,使其在材料发现和设计中具有重要应用价值。未来通过扩展训练数据集和优化特征选择,这一方法有望在更广泛的材料体系中发挥作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号