一种适用于低光照条件下实现稳健商品识别的昼夜跨模态网络
《Engineering Applications of Artificial Intelligence》:A day-night cross-modal network for robust commodity recognition under low-light illumination
【字体:
大
中
小
】
时间:2025年11月18日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
商品识别在低光环境下存在准确率低和适应性差的问题,DNC-YOLO基于YOLOv8提出三阶段方案:RGB/IR并行提取互补特征,HSF模块实现多尺度语义融合,CATH模块通过距离加权IoU优化相似物体分类。实验表明其mAP达0.979,优于单模态及多模态SOTA方法,为智能零售提供可靠解决方案。
在当今的智能零售与制造领域,商品识别技术正扮演着越来越重要的角色。随着自动化和智能化的发展,机器人分拣系统已经成为提升效率、降低人工成本的关键工具。然而,在实际应用中,尤其是在夜间或低光环境下,如何实现高效且准确的商品识别仍然是一个重大挑战。传统基于可见光(RGB)的视觉识别方法在低光条件下表现不佳,图像中会出现大量噪声、模糊和纹理缺失,导致识别精度大幅下降。而红外(IR)成像虽然能在黑暗环境中工作,但其空间分辨率和细节表现能力有限,难以满足高精度识别的需求。因此,单一模态的识别方法在低光环境下的表现往往无法满足实际应用的要求。
为了克服上述问题,本文提出了一种名为DNC-YOLO的多模态商品识别网络,该网络基于You Only Look Once版本8(YOLOv8)框架进行改进。DNC-YOLO通过融合RGB和红外两种模态的数据,提升了在低光环境下的识别能力。具体而言,该网络包含三个核心组成部分:第一,一个并行主干结构,用于分别提取RGB和红外特征,并通过浅层融合实现互补表示,从而增强低光环境下的鲁棒性;第二,一个分层语义融合(HSF)模块,该模块通过多尺度注意力机制,提升特征金字塔中不同层级之间的交互,从而有效识别不同尺寸的商品;第三,一个上下文感知任务头(CATH),结合了距离加权的交并比(IoU)方法,以提高形态相似商品之间的分类准确性并优化定位精度。
实验结果表明,DNC-YOLO在自建的商品抓取数据集上表现优异,其平均精度(mAP)在IoU 0.50至0.95的范围内达到0.817,而在IoU 0.50的情况下达到0.979,显著优于现有的单模态和多模态方法。这一成果不仅为在复杂光照条件下实现可靠的机器人分拣系统提供了新的解决方案,还展示了将跨模态学习、分层语义融合和上下文感知定位相结合的统一框架在智能零售应用中的巨大潜力。
在实际应用中,商品识别的挑战主要体现在三个方面。首先,RGB和红外模态之间的物理成像差异导致了显著的特征域差距,这种差距在浅层空间特征和高层语义表示的融合过程中限制了效率。其次,生产线上的商品尺寸差异较大,传统检测层的表示能力不足以应对这种多尺度问题,尤其是对小目标的识别能力较弱。最后,形态相似的商品容易在仅依赖外观特征的情况下产生分类错误,影响识别的准确性。
为了解决这些问题,DNC-YOLO采用了多模态特征融合策略,通过并行的RGB和红外编码流,分别提取两种模态的特征,并在浅层进行融合,以增强整体识别能力。同时,HSF模块通过多尺度注意力机制,实现了特征金字塔中不同层级特征的有效整合,从而提升了模型对不同尺寸商品的识别能力。CATH模块则通过引入距离加权的IoU方法,增强了分类与回归分支之间的任务交互,减少了形态相似商品之间的误识别问题。
在方法实现上,DNC-YOLO基于YOLOv8框架,利用CSPDarknet作为主干网络,以实现多尺度特征提取。YOLOv8的特征融合层采用了增强的PAN-FPN结构,通过双向的自上而下和自下而上的特征融合,提升了特征的表征能力。随后,模型通过解耦的检测头进行目标分类和定位。为了适应低光环境下的商品识别任务,DNC-YOLO在原有YOLOv8的基础上进行了优化,特别是在特征融合和任务头设计方面,进一步提升了模型的鲁棒性和准确性。
实验部分采用了一台高性能计算平台,配备Intel Xeon 6133 CPU和NVIDIA RTX A5000 GPU,以确保模型训练和推理的高效性。CUDA 11.8和cuDNN 8.6被用于加速计算过程。实验配置详见表1,模型训练采用了150个epoch,其中前3个epoch用于适应IndGrasp-12数据集。在训练过程中,模型权重从预训练的YOLOv8模型中初始化,以加快收敛速度。此外,模型在训练和测试阶段均采用了合理的数据增强策略,以提高其泛化能力。
实验结果表明,DNC-YOLO在低光环境下的表现显著优于现有方法。通过结合RGB和红外模态的互补特性,DNC-YOLO在不同光照条件下均能保持较高的识别精度。HSF模块的引入有效解决了多尺度商品识别的问题,使得模型能够更好地处理尺寸差异较大的目标。而CATH模块则显著提升了对形态相似商品的分类能力,减少了误识别和漏识别的情况。这些改进使得DNC-YOLO在智能零售、工业自动化等实际场景中具备更高的实用价值。
从实际应用的角度来看,DNC-YOLO的提出为机器人分拣系统在复杂光照条件下的稳定运行提供了技术支持。在智能零售环境中,商品识别不仅需要高精度,还必须具备良好的适应性,以应对不同时间段、不同光照条件下的变化。DNC-YOLO通过融合多种模态数据,有效克服了单一模态在低光条件下的局限性,为实现全天候、高精度的商品识别提供了新的思路。此外,该模型在计算效率和识别精度之间取得了良好的平衡,使其能够在实际工业应用中快速部署和运行。
本研究的贡献主要体现在三个方面。首先,提出了一种双流跨模态编码网络,用于提取和融合RGB与红外特征。该网络利用红外图像的轮廓稳定性,提升了RGB特征在低光环境下的鲁棒性。其次,引入了分层语义融合(HSF)模块,该模块通过多尺度注意力机制,实现了特征金字塔中不同层级特征的有效整合,从而显著提高了多尺度商品的识别能力。最后,设计了一个上下文感知任务头(CATH),通过引入距离加权的IoU方法,增强了分类与回归分支之间的任务交互,有效减少了形态相似商品之间的误识别问题。
在实验过程中,研究人员对模型进行了全面的评估,并通过对比实验验证了DNC-YOLO在低光环境下的优越性。实验结果显示,DNC-YOLO在多个指标上均优于现有的单模态和多模态方法,特别是在处理形态相似商品和多尺度目标时表现出更强的适应能力。此外,模型在不同光照条件下均能保持较高的识别精度,这表明其在实际应用中具备较强的鲁棒性。
本研究的意义不仅在于提出了一个高效的低光环境商品识别模型,还在于探索了跨模态学习、分层语义融合和上下文感知定位相结合的新方法。这些技术的结合为未来的智能零售和工业自动化提供了新的发展方向。随着人工智能技术的不断进步,商品识别的精度和效率将进一步提升,而DNC-YOLO的提出则为这一领域的发展提供了重要的参考。
未来的研究方向可以包括进一步优化跨模态特征融合策略,以提升模型在极端低光条件下的表现。此外,可以探索更多模态的融合,如热成像或深度信息,以增强模型的感知能力。同时,模型的泛化能力也需要进一步提升,使其能够适应更广泛的应用场景。最后,可以考虑将DNC-YOLO与其他智能技术相结合,如强化学习或路径规划,以实现更全面的机器人分拣系统。
综上所述,DNC-YOLO的提出为低光环境下的商品识别提供了新的解决方案,其在精度、效率和适应性方面均表现出色。该模型不仅适用于智能零售和工业自动化领域,还为其他需要在复杂光照条件下进行目标识别的应用提供了借鉴。随着技术的不断演进,DNC-YOLO有望成为未来智能机器人系统中的关键技术之一,推动自动化水平的进一步提升。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号