编辑推荐:
为解决工业产品检测中目标尺寸差异及类别代码识别需求,研究人员提出双阶段视觉分类系统。首阶段采用 YOLO-DSF 模型,融合多视角特征提升检测性能,次阶段用 UDNet 预处理增强字符识别。测试显示系统检测精度达 96.3%,分类精度 98.9%,具工业应用价值。
在工业自动化浪潮中,高效精准的产品识别是提升生产线效率与降低误差的核心环节。当前工业场景面临多重挑战: conveyor belt 运输中的货物堆叠可能导致信息丢失,外观相似的产品包装仅靠人工或传统传感器难以快速区分,尤其是包装表面的喷墨类别代码常因编织袋材质反光、工厂光照不均等问题,出现亮度差异与复杂纹理噪声。此外,单一摄像头采集图像需兼顾大尺寸托盘与小尺寸字符区域的特征提取,传统目标检测模型在多尺度目标识别及小目标细节捕捉上表现不足,直接影响产品分类的准确性。如何让机器视觉系统在复杂工业环境中 “看得清、分得准”,成为亟待突破的技术瓶颈。
为攻克上述难题,国内研究团队针对工业塑料颗粒自动化生产场景展开研究。该团队聚焦于 conveyor belt 运输过程中编织袋包装产品的实时识别需求,提出一种双阶段视觉分类系统,相关成果发表在《Engineering Applications of Artificial Intelligence》。研究旨在通过改进目标检测与字符识别技术,实现工业产品从 “粗放式” 检测到 “精细化” 分类的跨越,为智能仓储与自动化生产线提供关键技术支撑。
研究采用的主要技术方法包括:
- 多视角目标检测模型(YOLO-DSF):基于 YOLOv8n 框架,引入双视角主干网络。主视角通过轻量级空间到深度下采样模块(LSPDown)增强细节特征提取,辅助视角利用轻量级 GhostNet 结构捕捉全局特征,两者通过焦点融合模块(FFM)动态加权融合,提升小目标检测能力;检测头增加低层特征层,优化训练中的阶梯收敛问题,并采用轻量级设计平衡计算复杂度与精度。
- 字符识别预处理(UDNet):构建 U 型降噪网络(UDNet)作为字符识别前处理模块,通过降噪与增强字符可见性,提升复杂噪声环境下的字符识别精度。
工业目标检测模型性能验证
在 Northeastern University Surface Defect(NEU-DET)公共数据集及实际工业场景测试中,YOLO-DSF 模型表现显著优于基线模型。与 YOLOv8n 相比,其 mAP0.5(平均精度均值,交并比阈值 0.5)从 94.2% 提升至 98.6%,尤其在小目标检测中优势明显。现场测试显示,系统对托盘、废料包等大目标及包装字符区域的检测精度达 96.3%,验证了多视角特征融合与轻量级设计的有效性。
字符识别网络优化效果
针对编织袋字符区域的复杂噪声问题,UDNet 作为预处理模块嵌入字符识别流程。实验表明,经 UDNet 降噪后,字符识别准确率提升 1.5%,结合目标检测结果,整个分类系统的货物分类精度达 98.9%。该级联策略有效解决了光照不均、纹理噪声对字符识别的干扰,实现了从目标定位到代码解析的全流程优化。
研究结论与意义
本研究构建的双阶段视觉系统通过 “多视角特征融合 + 降噪预处理” 的创新架构,系统性解决了工业场景中多尺度目标检测与低质字符识别的难题。YOLO-DSF 模型通过 LSPDown 与 GhostNet 的双路径设计,实现了局部细节与全局特征的互补,FFM 模块的动态加权机制进一步增强了模型对小目标的敏感性;UDNet 则针对工业图像特性,通过 U 型网络结构有效抑制背景噪声,提升字符区域的可识别性。现场应用结果表明,该系统显著提升了生产线的自动化水平,将人工核对误差降低 80% 以上,为智能制造中 “无人化” 仓储管理提供了可靠的技术方案。
研究成果不仅为工业产品分类提供了新的技术范式,其轻量级设计与单摄像头部署方案也降低了企业的硬件成本,具有广泛的行业适配性。未来,该框架可进一步拓展至电子元件缺陷检测、药品包装追溯等领域,推动机器视觉技术在工业智能化进程中的深度应用。