《Computational Materials Science》:SDSHNet: Dynamic feature fusion with transformer and star operation for efficient detection in aluminum alloys microscopic inclusion
编辑推荐:
铝合金微观夹杂物轻量级检测框架研究:提出动态特征融合与星操作主干网络,结合层级注意力机制和Shape-IoU损失,有效提升小目标检测精度与计算效率,mAP@0.5达90.7%,参数量显著低于主流CNN和Transformer模型。
王天龙|李颖|丁宇石|刘振伟|郝云龙|郑杰|庄春生|张伟
东北大学冶金学院,中国辽宁冶金传感器材料与技术重点实验室,沈阳,110819
摘要 在航空航天和精密制造领域,准确检测微观夹杂物对于铝合金的质量控制至关重要。然而,现有的基于深度学习的检测器在处理复杂微观结构背景下的微小、低对比度夹杂物时,往往难以在检测精度和计算效率之间取得平衡。在本文中,我们提出了SDSHNet,这是一个轻量级的检测框架,它强调任务驱动的动态特征交互,而非架构复杂性。该框架采用Star Operation作为高效的核心机制,以低计算开销保留细粒度结构细节。在此基础上,设计了一个动态特征融合模块,以自适应地增强关键区域的特征表示,显著提高了对微小、低对比度夹杂物的检测能力。此外,还引入了基于HiLo attention的分层注意力机制来增强多尺度表示,并采用了Shape-IoU损失函数来提高对小型和不规则形状夹杂物的边界框回归稳定性。在微观铝合金夹杂物数据集上进行的广泛实验表明,SDSHNet的mAP@0.5达到了90.7%,mAP@[0.5:0.95]达到了60.9%,同时与主流的卷积和Transformer基检测器相比,计算复杂度大幅降低。消融研究进一步验证了各个组件的独立和协同贡献。这些结果表明,SDSHNet为铝合金材料的高通量工业检测提供了一种有效且易于部署的解决方案。代码可访问于
https://github.com/wtl985/SDSHNet 。
引言 铝合金因其强度、耐腐蚀性和可回收性而受到重视,这解释了它们在航空航天、汽车、电子和建筑等领域的广泛应用[1]、[2]、[3]。全球产量已经达到相当大的规模,但在冶炼、铸造和加工过程中不可避免地会形成夹杂物[4]。这些缺陷会破坏基体的连续性,降低疲劳强度、耐腐蚀性和使用寿命[5]。在航空航天等对可靠性要求极高的应用中,即使是微小的夹杂物也可能引发经济损失或安全事故。因此,准确高效的夹杂物检测是质量控制的核心。传统方法包括人工目视检测和物理无损检测。人工检测依赖于操作者的经验,效率低下且容易漏检,无法满足现代生产需求[6]、[7]。射线检测可以识别内部缺陷,但需要昂贵的设备,存在辐射问题,并且经常漏检小尺寸夹杂物[8]。超声波方法对表面或近表面缺陷的检测效果不佳,且处理速度较慢。使用阈值分割或边缘检测的自动化方案虽然提高了速度,但依赖于手工制作的特征。面对复杂的表面纹理或变化的成像条件时,这些方法缺乏工业部署所需的鲁棒性和泛化能力。
深度学习的最新进展彻底改变了计算机视觉领域,为工业缺陷检测开辟了新的途径[9]。基于卷积神经网络(CNN)的对象检测器,包括YOLO[10]、[11]、[12]、[13]、[14]、[15]系列、Faster R-CNN[16]和SSD[17],能够自动学习图像特征,并在检测钢表面缺陷、织物瑕疵和印刷电路板异常方面表现出色。然而,铝合金夹杂物的检测面临独特的技术挑战[18]、[19]。首先,夹杂物的尺寸跨度很大,从微米级的氧化物颗粒到毫米级的熔渣块,单尺度特征提取难以有效捕捉所有目标尺寸。其次,夹杂物形态多样,形状不规则,边界模糊,与背景的对比度低[20]。第三,铝表面的复杂反射、纹理干扰和加工痕迹使得特征区分变得复杂。第四,传统的深度学习模型参数量大,计算需求高,无法在资源有限的边缘设备上实现实时部署。Transformer架构通过其强大的全局建模能力和自适应特征聚合,在计算机视觉领域展现了巨大潜力[21]。Vision Transformer(ViT)首次将纯Transformer设计应用于图像分类,并在大型数据集上超越了传统卷积网络[22]。DETR通过集合预测将Transformer引入对象检测,消除了锚框和非最大值抑制等手工制作的组件[23]。Swin Transformer通过分层结构和移位窗口注意力在多个视觉任务中实现了新的性能标杆[24]。Transformer的核心优势在于其自注意力机制,能够捕捉长距离依赖关系并建立全局上下文,非常适合识别散布在较大背景区域中的夹杂物[25]。然而,标准Transformer的自注意力在复杂性上呈二次方增长,导致参数数量庞大,推理时间过长,无法满足每秒处理大量图像帧的工业应用需求[26]。此外,Transformer通常需要在大型数据集上进行预训练才能达到满意的性能,而铝合金夹杂物的标注数据相对稀缺,进一步限制了其直接应用。
相关工作
相关工作 对象检测已经从传统方法发展到深度学习方法,可以分为两阶段和单阶段检测器。R-CNN[27]、[28]系列算法使用区域提议网络生成候选区域,然后对每个区域进行分类和边界框回归。尽管这些方法具有高精度,但计算开销大,无法实现实时检测。YOLO系列将对象检测简化为单一回归过程
模型架构 传统的CNN模型,如Faster R-CNN和YOLO,通常依赖于非最大值抑制来从多个重叠预测中选择最优边界框。Transformer消除了锚框设计和NMS后处理步骤,但在训练过程中收敛速度较慢,参数数量较多,并且在检测小目标时效果有限。为了解决这些问题,本研究提出了一种基于Transformer和动态特征融合的轻量级铝合金夹杂物检测方法
实验设置、数据集和性能指标 铝合金夹杂物数据集是通过配备CCD相机的金相显微镜从铝合金样品中获取的。该数据集包含了铝合金中常见的六种夹杂物类型,即氧化膜、氧化镁、氮化物、耐火材料、尖晶石和二硼化钛。图像使用MR5000倒置光学显微镜以1280 × 960像素的分辨率拍摄,并在预处理过程中调整为640 × 640像素,以满足模型输入要求。
实验结果与讨论 本研究在一个自定义的铝合金夹杂物数据集上进行了实验。我们将提出的模型与主流的CNN和Transformer基架构进行了比较,分析了实验结果、收敛行为、参数数量和消融研究。为了验证有效性,我们还与多个检测网络进行了全面的性能对比,包括经典模型如VGG-16、ResNet-18、Darknet-53和LSKNet,以及基于Transformer的方法
结论 总之,为了解决铝合金夹杂物检测中精度不足、计算复杂度高以及小目标漏检严重的问题,本研究提出了SDSHNet,这是一种基于Transformer和StarNet动态特征融合的轻量级模型。该方法在减轻模型体积的同时,提高了目标定位精度和边界框准确性,增强了网络捕获有效信息的能力,并实现了自适应优化
CRediT作者贡献声明 王天龙: 写作 – 审稿与编辑,撰写原始草稿,可视化,验证,监督,软件开发,资源管理,项目管理,方法论研究,数据分析,概念化。李颖: 方法论研究,资金获取。丁宇石: 方法论研究,资金获取。刘振伟: 数据分析。郝云龙: 数据分析。郑杰: 数据分析。庄春生: 方法论研究。张伟: 方法论研究。
利益冲突声明 作者声明没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢 本工作得到了国家自然科学基金 (项目编号92475203和52474374)、河南省科技研发计划 联合基金(项目编号225200810035)以及河南省科学院 的高层次人才研究启动资助(项目编号232007016)的财政支持。