
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于子群发现相似性评分(SDSS)的材料科学统计知识与机器学习融合新范式
【字体: 大 中 小 】 时间:2025年06月22日 来源:Materials Today Physics 10.0
编辑推荐:
针对材料科学中统计知识难以有效整合进机器学习(ML)模型的难题,中国科学院团队提出子群发现相似性评分(SDSS)作为关键评价标准。通过子群发现技术从固溶强化(SSS)和压电系数数据集中提取统计知识,采用"分而治之"策略实现0.96相关系数和18.44% MAPE,并揭示FCC与BCC相的不同强化机制。该框架无需先验领域知识即可实现知识驱动建模,为材料智能设计提供新思路。
在材料科学研究的前沿领域,机器学习(ML)与领域知识正形成前所未有的共生关系。传统研究面临一个核心矛盾:虽然ML能挖掘材料数据集中的统计知识(如规则、公式表达式),但这些知识如何有效反馈至后续ML建模却缺乏量化标准。现有方法如构建描述符、数据子集划分或特征重要性评估,往往依赖研究者经验选择整合方式。更棘手的是,传统统计检验(t检验、ANOVA)仅能判断组间差异存在性,无法量化差异程度对ML策略的指导价值——这一关键瓶颈严重制约了知识驱动方法的精准应用。
针对这一挑战,中国科学院团队在《Materials Today Physics》发表创新研究,提出子群发现相似性评分(Subgroup Discovery Similarity Score, SDSS)作为统计知识整合的"度量衡"。该工作通过两个典型案例验证其普适性:在固溶强化(SSS)数据集中,基于SDSS指导的"分而治之"策略不仅实现0.96的惊人相关系数,更首次清晰区分出面心立方(FCC)与体心立方(BCC)相的差异化强化机制;在压电系数数据集中,将统计知识编码为特征嵌入ML模型,显著降低预测误差。这项研究标志着材料科学进入"知识自循环"新阶段——即使缺乏先验领域知识,ML系统也能自主完成从知识挖掘到模型增强的闭环优化。
关键技术方法包括:1) 通过子群发现算法从材料数据集提取规则型统计知识;2) 创新性设计SDSS指标,计算组内与跨组模型性能比值评估知识显著性;3) 根据SDSS阈值选择数据子集划分或规则特征嵌入两种整合路径;4) 采用随机森林、支持向量回归等ML模型验证框架有效性。研究团队构建了包含实验数据和计算数据的多源材料数据库作为验证基础。
【Rule Extraction by Subgroup Discovery】
通过子群发现技术从SSS数据集中提取前五重要规则,质量评分公式(式1)显示变量与原始描述符的强关联。NS参数表明子群覆盖率达38.7%,显著高于随机分布预期值。特别值得注意的是,规则中自动浮现的晶格常数阈值(0.358nm)与材料学理论中FCC/BCC相变临界值高度吻合,证实算法捕捉到本征物理机制。
【Conclusion】
研究确立SDSS作为统计知识整合的黄金标准:低SDSS(<0.3)时采用子集划分策略,使FCC/BCC相建模误差降低42%;高SDSS(>0.7)时采用规则特征嵌入,压电系数预测的MAE改善31%。这一量化框架突破传统"试错法"局限,首次实现统计知识到ML策略的自动化转换。
讨论部分强调,SDSS框架的价值远超具体案例——它构建了材料知识发现与应用的通用管道。未来可扩展至高温合金设计、催化材料筛选等领域。作者特别指出,当SDSS接近0.5时需要结合领域知识判断,这为"人机协同"研究留下接口。该工作由Huiran Zhang团队主导,Mengmeng Dai为第一作者,多学科协作模式确保方法学严谨性。这项研究不仅为材料科学ML研究提供方法论突破,更启示数据驱动与知识驱动范式融合的无限可能。
生物通微信公众号
知名企业招聘