一种多层级注意力连接编码器-解码器框架用于杂乱物体分割与厚度预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Results in Engineering》：A Multi-hierarchical Attention Connected Encoder-decoder Framework for Cluttered Object Segmentation and Thickness Prediction

【字体：大中小】 时间：2026年06月14日 来源：Results in Engineering 7.9

编辑推荐：

　　在钢铁制造行业中，采用回收废钢替代铁矿石作为原料可显著降低企业成本。准确识别回收废钢的边缘厚度至关重要，因为一批废钢的采购价格取决于其边缘厚度分类结果。废钢图像的边缘分割有助于计算边缘厚度；然而，每日大量废钢交付的涌入迫切需要一种智能且精确的方法来对杂乱废钢物

在钢铁制造行业中，采用回收废钢替代铁矿石作为原料可显著降低企业成本。准确识别回收废钢的边缘厚度至关重要，因为一批废钢的采购价格取决于其边缘厚度分类结果。废钢图像的边缘分割有助于计算边缘厚度；然而，每日大量废钢交付的涌入迫切需要一种智能且精确的方法来对杂乱废钢物体进行分类并建立准确定价。虽然现有的基于UNet的神经网络凭借高准确率和低计算复杂度被广泛应用于图像分割（尤其在资源受限场景），但它们仍难以处理杂乱的废钢图像。关键局限性包括：细粒度边缘特征提取不足、对不均匀光照和不规则废钢形状的适应性差，以及全局与局部特征信息整合无效。为应对这些挑战，本文提出了一种新颖的U型神经网络模型，专门用于废钢图像的边缘分割与厚度识别。该模型采用Swin Transformer编码器-解码器作为主干，并为UNet引入了一种多头通道注意力连接机制（multi-head channel-wise attention, MHCA），以增强编码与解码阶段之间的信息流。多头注意力（multi-head attention）能够并行学习语义关系，改善复杂背景下废钢区域的定位。通道注意力（channel-wise attention）动态调整特征通道的重要性，放大与厚度相关的线索响应，在杂乱堆叠场景中实现更清晰的边缘分割。通过双重增强特征融合架构，该模型有效整合了浅层纹理、中层形状和高层语义特征，在保持低计算复杂度的同时提升了全局特征建模能力。在废钢图像数据集上的实验结果表明，所提方法优于传统模型，在边缘分割中交并比（IoU）提升了1.21%至12.86%，厚度预测误差降低了1.87%至24.52%，验证了其有效性和实际价值。

研究背景与问题：钢铁制造行业中，采用回收废钢替代铁矿石可显著降低成本，废钢采购价格主要取决于边缘厚度分类。然而，每日大量废钢交付需要智能精确的方法对杂乱物体进行边缘分割与厚度识别。现有基于UNet的神经网络在图像分割中应用广泛，但面对废钢图像时存在细粒度边缘特征提取不足、对不均匀光照与不规则形状适应性差、全局与局部特征整合无效等问题。为此，研究人员提出了一种新颖的U型神经网络模型，专门用于废钢图像边缘分割与厚度预测，论文发表在《Results in Engineering》。

研究方法与结论：研究人员以Swin Transformer编码器-解码器为骨干，引入多头通道注意力连接机制（MHCA）替换UNet的跳跃连接，构建双重增强特征融合架构，整合浅层纹理、中层形状和高层语义特征。在废钢图像数据集上的实验表明，所提方法在边缘分割IoU上提升1.21%–12.86%，厚度预测误差降低1.87%–24.52%，验证了有效性和实际价值。重要意义在于为废钢回收实现无人化智能验收提供了基础，促进钢铁行业数字化、绿色化升级。

关键技术方法：主要采用Swin Transformer层级窗口自注意力机制以线性复杂度建模全局依赖；多头注意力（multi-head attention）并行学习语义关系以优化区域定位；通道注意力（SENet）动态重校准特征通道重要性以增强厚度相关特征；双重增强特征融合架构整合多尺度特征。样本队列来源包括公开数据集ADE20K（20210训练/2000验证/3352测试）、COCO（118000训练/5000验证）以及自收集废钢图像数据集（843张从三个视角采集，结合800张网络图像，共1643张注释图像，7：3随机分割）。

研究结果：
5.1. 在ADE20K数据集上的图像分割：在SceneParse150子集上与UNet、Trans-UNet、SwinTrans-S、Swin-UNet、UCTransNet、CSTUNet、MTUNet、DS-SwinUNet等方法对比。所提模型在准确率（Acc）、召回率（Recall）、交并比（IoU）及计算复杂度（Params和GFLOPs）方面表现竞争性。相比Swin-UNet参数增加19.4%，GFLOPs增加11.7%，但Acc提升0.14%，IoU提升1.11%；平均交并比（mIoU）达到60.53%，优于其他方法。可视化结果显示出更优的分类精度和边缘描绘。
5.2. 在COCO数据集上的图像分割：在COCO验证集上测试平均精度（AP^mask）、AP50^mask、AP75^mask。所提算法分别超越次优方法1.61%、1.95%、1.57%，整体AP^mask达56.97%，表明在目标定位和精细边界拟合方面优势明显。mAcc、mIoU、aAcc也验证了多指标有效性。可视化显示在遮挡和尺度变化场景中分割更稳定准确。
5.3. 在自收集数据集上的边缘分割：针对废钢图像进行二分类边缘分割。所提方法在背景分割上达98.57%准确率和96.75% IoU；边缘厚度分割准确率约75.69%，IoU达58.57%，优于对比方法。边界平均精度（BAP）指标上，BAP、BAP50、BAP75分别提升1.8%、1.45%、1.14%。可视化表明对细长结构和弱边界分割更清晰，但存在标签误判、阴影干扰等典型错误。不同输入分辨率（256×256至1024×1024）实验显示，512×512在性能与计算间取得平衡。
5.4. 消融研究：通过不同跳跃连接配置实验，证明通道注意力和多头注意力均对分割有重要贡献。结合两者效果最优（边缘IoU 58.57%，mIoU 77.65%）。增加连接数量（从0到3）逐步提升性能，但计算复杂度增加。

讨论与结论：训练和验证损失曲线在190轮后稳定收敛。通过骨架提取和正交骨架线方法计算每块废钢的长度/宽度及厚度。跨数据集验证表明双重注意力机制增强了通用场景的语义相关性并适应工业细粒度需求。结论部分翻译如下：本文提出了一种新颖的类似UNet的模型，将Swin-UNet与多头通道注意力机制相结合，用于分割杂乱废钢物体并检测其边缘厚度，为废钢回收的自动化客观定价策略奠定了基础。实验验证了系统在边缘厚度检测上的有效性，但当前厚度测量准确率75.69%仍需进一步改进。尽管存在局限，该系统可作为企业提高回收流程成本计算精度的辅助工具。实际部署中，检测结果将与卡车司机申报交叉验证以确保公平定价。未来工作将聚焦于通过模型优化（如架构改进、损失函数调整）、超参数调优及系统级改进（如传感器集成或计算效率升级）提升精度，并探索先进注意力机制或混合架构以弥合实际应用性能差距。

联系信箱：

粤ICP备09063491号

热点排行