
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于信息理论的原子机器学习模型自由评估框架:数据完整性、不确定性及异常值检测新方法
【字体: 大 中 小 】 时间:2025年04月30日 来源:Nature Communications 14.7
编辑推荐:
研究人员针对原子机器学习(MLIPs)中数据集构建、不确定性量化(UQ)和异常检测等关键问题,提出了一种基于信息熵的模型自由评估框架QUESTS。通过量化原子环境分布的信息熵,该方法可解释MLIPs误差趋势、优化数据集压缩、实现无模型UQ,并成功检测大尺度模拟中的非晶相形成和铜凝固成核事件。该研究为材料计算领域提供了通用工具,发表于《Nature Communications》。
原子机器学习(ML)在材料模拟领域展现出巨大潜力,但其发展面临三大瓶颈:训练集构建依赖经验启发式规则、缺乏可靠的无模型不确定性量化方法、难以识别模拟中的异常或罕见事件。传统方法通常需要训练多个模型或依赖人工定义的结构描述符,既低效又难以保证普适性。美国劳伦斯利弗莫尔国家实验室(LLNL)团队在《Nature Communications》发表的研究,创新性地将信息理论引入原子尺度数据分析,开发了名为QUESTS(快速结构相似性熵与不确定性)的框架。
研究采用核密度估计(KDE)技术,通过定义原子中心化描述符Xi(包含排序的k近邻距离Xi(1)和类消息传递的角向特征Xi(2)),计算原子环境分布的信息熵H。关键技术包括:(1)基于32近邻/5?截断的原子描述符;(2)通过FCC晶体1%应变校准的0.015?-1高斯核带宽;(3)差分熵δH量化新环境与参考集的相似性;(4)对rMD17、GAP-20等基准数据集及32.5M原子Ta模拟系统的验证。
信息熵揭示MLIPs误差机制
分析rMD17分子数据集发现,信息熵饱和点与分子复杂度相关:苯(100样本即饱和)<偶氮苯(1000样本)<阿司匹林(>10000样本)。熵饱和差值与MACE模型的力预测误差呈强相关(ρ=0.89),证实信息缺口决定理论误差下限。在碳GAP-20数据集中,"石墨烯"子集可压缩80%而不影响模型性能(熵保持4.25nats),而"富勒烯"子集压缩会显著增加误差,揭示了数据集冗余度的本质差异。
无模型不确定性量化
以GAP-20"缺陷"子集为参照,测试集重叠度与MACE模型误差呈幂律反比。当δH>0时力误差>0.1eV/?,而δH≤0时误差降低。该方法成功解释了TM23数据集中过渡金属的误差趋势:早期过渡金属(如Re)因高熵/高多样性导致大误差,而硬币金属(如Cu)因低熵易学习。温度迁移测试显示,Tc在0.25Tm→1.25Tm的79%重叠度使其误差低于其他金属,验证了δH预测跨域泛化能力的有效性。
异常与罕见事件检测
在32.5M原子Ta的塑性模拟中,13%原子呈现δH>0(最大55.8nats),精准定位非晶相区域。铜凝固实验则首次通过δH≤0的原子聚类识别临界核尺寸(114原子),与经典成核理论(CNT)预测值高度吻合,而传统自适应近邻分析(a-CNA)仅能检测孤立FCC原子。
该研究建立了原子模拟与信息理论的定量桥梁,其意义在于:(1)首次证明信息熵可解释MLIPs的固有误差极限;(2)提出的δH指标无需模型即可预警外推样本,解决了大尺度MD的实时UQ难题;(3)为相变等罕见事件研究提供了自动检测工具。未来通过引入元素敏感描述符和优化并行计算,该方法有望拓展至合金体系并实现exascale模拟的在线监控。
生物通微信公众号
知名企业招聘