
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于计算机视觉的钢铁产品非金属夹杂物识别方法研究:Swin Transformer与U-Net融合架构的创新应用
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Industrial Information Integration 10.4
编辑推荐:
【编辑推荐】本研究针对钢铁工业中非金属夹杂物传统检测方法(如SEM-EDS)耗时且局限的问题,创新性地结合Swin Transformer全局建模能力与U-Net局部特征提取优势,开发出能直接通过SE/BSE图像预测元素分布的新架构。该模型在MSE(0.0081)、SSim(0.68965)等指标上表现优异,为钢铁在线质量控制提供了AI驱动的快速解决方案。
在钢铁工业中,非金属夹杂物如同材料中的"隐形杀手"——这些在冶炼过程中不可避免产生的微小缺陷,会像应力集中器一样显著降低钢材的机械性能和服役寿命。传统上,研究人员依赖扫描电子显微镜结合能谱分析(SEM-EDS)进行夹杂物表征,但这种方法需要逐点扫描,获取单张元素分布图往往需要数小时,严重制约了工业生产中的实时质量控制。更棘手的是,随着高端装备制造对钢材纯净度要求日益严苛,钢铁企业亟需一种能"秒级"识别夹杂物成分的智能检测技术。
针对这一行业痛点,中国科学院金属研究所(根据CSIR National Metallurgical Laboratory推断)的Surya Prakash Mishra团队在《Journal of Industrial Information Integration》发表了一项突破性研究。他们创造性地将计算机视觉领域两大前沿技术——能捕捉长程依赖关系的Swin Transformer与擅长局部特征提取的U-Net架构相融合,开发出全球首个能直接从二次电子(SE)或背散射电子(BSE)图像预测元素分布的AI模型。这项研究的意义不仅在于将检测时间从小时级缩短到分钟级,更开创了"图像到元素分布"的端到端预测新模式,为智能制造提供了关键技术支持。
研究团队采用三项核心技术方法:首先构建混合架构,利用Swin Transformer块处理4×4图像块序列以建模全局上下文,通过窗口多头自注意力机制(W-MSA)降低计算复杂度;其次引入U-Net的跳跃连接结构保持空间细节,解决传统CNN在长程依赖建模上的缺陷;最后采用工业级钢材样本数据集(含多种典型夹杂物的SE/BSE图像及对应EDS图谱)进行训练验证。
【模型开发】
研究团队突破性地用纯Transformer替代传统CNN作为U-Net主干。Swin Transformer块通过分层窗口设计,在4×4图像块上建立层级特征表示,其移位窗口机制(shifted window)使模型能同时捕捉局部细节和全局分布规律。实验证明,这种架构对MnS、Al2
O3
等典型夹杂物的元素扩散边界预测精度显著优于传统方法。
【性能指标】
在定量评估中,新模型创下多项纪录:MAE低至0.0529,RMSE仅0.0902,特别是对二值化图像的IoU达到完美值1。值得注意的是,其SSim值0.68965远超ResNet-50(0.5123)和Vision Transformer(0.5814),证明预测图谱在结构相似性上最接近真实EDS结果。
【结论与展望】
该研究实现了三大创新:首次证明AI可通过SE/BSE图像直接预测元素分布;开发出首个Transformer-U-Net混合架构用于材料表征;建立钢铁夹杂物检测的新标准。正如通讯作者M R Rahul强调的,这项技术将SEM-EDS的分析效率提升两个数量级,为实时工艺调控提供了可能。未来,该架构可扩展至其他金属材料的缺陷分析领域,其"视觉-成分"映射思想更为材料基因组计划提供了新范式。研究团队已开源代码,这种开放共享的态度将进一步推动AI在工业检测中的应用革命。
生物通微信公众号
知名企业招聘