
-
生物通官微
陪你抓住生命科技
跳动的脉搏
领域知识辅助的材料数据异常检测:构建高性能机器学习模型的关键路径
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Materiomics 8.4
编辑推荐:
推荐:为解决材料数据中实验和计算误差导致的异常问题,研究人员提出领域知识辅助的数据异常检测工作流(DKA-DAD),通过编码材料领域知识为符号规则,开发了三个检测模型(S-DAD、M-DCD、SRD)和一个修正模型。实验表明该方法在合成数据集上F1-score提升12%,材料预测模型R2 平均提高9.6%,为构建高性能ML模型提供了新思路。
在材料科学领域,机器学习(ML)正以前所未有的速度推动着材料设计与发现。然而,实验测量、理论计算和工业生产过程中产生的数据异常严重制约了ML模型的性能。当前主流的异常检测方法多为纯数据驱动,难以捕捉材料数据中的复杂因素。这一问题在离子导体、合金等功能材料研究中尤为突出,异常数据会导致模型预测出现显著偏差,甚至得出与物理规律相悖的结论。
针对这一挑战,中国科学院上海硅酸盐研究所等机构的研究人员开发了领域知识辅助的数据异常检测工作流(DKA-DAD)。该方法创新性地将材料领域知识编码为符号规则,构建了三个层次的检测模型:单描述符精度检测(S-DAD)、多描述符相关性检测(M-DCD)和样本可靠性检测(SRD),并设计了统一的修正模型。研究团队通过180个合成数据集和60个真实材料数据集验证了该方法的有效性,相关成果发表在《Journal of Materiomics》上。
研究采用了多种关键技术方法:1)基于3σ检测、Z-Score和箱线图的集成策略用于单描述符异常检测;2)结合皮尔逊相关系数(PCC)和斯皮尔曼相关系数(SCC)的多描述符相关性分析;3)基于K-means聚类的样本相似性评估;4)材料领域知识规则化表达方法。特别值得注意的是,研究使用了NASICON型固体电解质作为典型案例,该数据集包含90个样本和45个描述符。
在单描述符精度检测方面,研究提出了描述符值规则(Rule 1),通过定义数据类型、值范围和单位的三元组来识别异常。实验显示,结合领域知识的S-DAD方法在60个合成数据集上的F1-score比纯数据驱动方法平均提高12%,标准差最小,表现最稳定。以NASICON数据集为例,成功识别出Valence_avg_M和Valence_M1描述符中的异常值。
多描述符相关性检测创新性地提出了描述符相关性规则(Rule 2),包括定性相关规则(QLR)和定量相关规则(QTR)。在NASICON案例中,研究发现晶格参数a、c与晶胞体积Vcell
应符合Vcell
=√3/2a2
c的定量关系,而瓶颈参数BT1、BT2与激活能Ea
应呈负相关。通过PCC和SCC分析,成功识别出与领域知识不符的描述符相关性。
样本可靠性检测提出了相似样本识别规则(Rule 3),通过对特征和材料性能分别
生物通微信公众号
知名企业招聘