
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于拓扑约束理论的机器学习方法实现CaO-Al2 O3 -SiO2 三元玻璃杨氏模量的外推预测
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Non-Crystalline Solids 3.2
编辑推荐:
针对机器学习在材料发现中难以实现性能外推的难题,研究人员创新性地将拓扑约束理论(TCT)与机器学习结合,通过将玻璃原子网络简化为键拉伸(BS)和键弯曲(BB)约束特征,显著提升了CaO-Al2 O2 -SiO2 玻璃杨氏模量的外推预测能力。该拓扑信息驱动的MLP模型在训练域内外均保持优异性能,为探索新型玻璃材料提供了高效路径。
在材料科学领域,机器学习(ML)技术虽已广泛应用于电池材料、合金和陶瓷等领域的探索,但在玻璃材料设计方面仍面临重大挑战。传统数据驱动的机器学习方法往往受限于材料数据集的有限规模和代表性,虽然在数据插值方面表现良好,但在外推任务中表现欠佳——而这恰恰是新材料发现中最关键的环节。更令人困扰的是,常规的k折交叉验证方法无法有效评估模型的外推能力,而基于特征工程的描述符方法又容易陷入"维度灾难"的困境。
针对这一系列难题,来自中国的研究团队在《Journal of Non-Crystalline Solids》发表了一项创新研究。研究人员将目光投向钙铝硅(CaO-Al2
O3
-SiO2
, CAS)玻璃体系,通过融合拓扑约束理论(Topological Constraint Theory, TCT)与机器学习技术,成功实现了对玻璃杨氏模量的高精度外推预测。这项研究不仅解决了材料发现中的外推瓶颈问题,更为物理知识引导的机器学习方法提供了典范。
研究团队采用了多项关键技术:通过分子动力学(MD)模拟获取231种不同组成的CAS玻璃的杨氏模量数据;运用自主开发的解析模型将玻璃组成转化为拓扑约束特征,包括键拉伸(Bond-Stretching, BS)和键弯曲(Bond-Bending, BB)约束;采用多层感知器(MLP)、随机森林(RF)和多项式回归(PR)等算法构建预测模型;利用SHAP分析进行模型解释。特别值得注意的是,所有数据均通过6次独立模拟取平均值获得,确保了数据的可靠性。
研究结果部分展现了多项重要发现:
3.1 组成信息与拓扑信息输入的对比
通过将CaO和Al2
O3
摩尔分数作为组成输入,与将nC
/V(约束体积密度)和BS/nC
(键拉伸约束比例)作为拓扑输入进行对比。研究发现,拓扑特征在Ca富集区和Al富集区呈现出更明显的分离状态,为外推预测创造了有利条件。
3.2 基于组成信息的机器学习方法
在插值任务中,MLP模型表现出色,测试集RMSE仅为3.43 GPa。然而在外推任务中,所有基于组成信息的模型均告失败,其中MLP模型在Al富集区的预测RMSE高达18.2 GPa,且无法捕捉杨氏模量斜率的变化。
3.3 基于拓扑信息的机器学习方法
研究团队创新性地将玻璃原子结构简化为节点和连杆,通过TCT理论计算拓扑约束特征。结果显示,虽然PR和RF模型仍无法胜任外推任务,但拓扑信息驱动的MLP模型表现惊艳——在Al富集区的外推预测RMSE降至4.65 GPa,较组成信息模型提升近75%。更重要的是,该模型成功捕捉到Ca富集区和Al富集区杨氏模量变化斜率的差异。
模型解释部分揭示了成功的关键:SHAP分析表明nC
/V对预测的影响大于BS/nC
,这与TCT理论中键拉伸约束对刚度贡献更大的观点一致。特征效应分析则显示,拓扑信息模型建立了高度线性化的结构-性能映射关系,这正是其卓越外推能力的根源。
这项研究的结论部分强调了几个关键点:首先,拓扑约束理论提供的物理洞见成功地将复杂的非线性组成-性能关系转化为更易处理的线性拓扑-性能关系;其次,在多种算法中,MLP与拓扑特征的组合展现出最佳外推性能;最后,该方法的核心在于开发能够显著降低材料组成与性能关系非线性的物理特征。
该研究的科学意义不仅限于CAS玻璃体系,其提出的"物理知识引导的特征工程"框架为整个材料发现领域提供了新思路。特别是在实验数据稀缺的新材料探索中,这种融合物理原理与机器学习的方法展现出独特优势。未来工作可望将该策略扩展到更多材料体系和性能预测中,加速功能材料的开发进程。
生物通微信公众号
知名企业招聘