《Pattern Recognition Letters》:LIFR-Net: A Lightweight Hybrid Neural Network with Feature Grouping for Efficient Food Image Recognition
编辑推荐:
食品图像识别研究提出轻量级CNN-ViT混合模型LIFR-Net,通过MV2模块提取局部特征,结合轻量Transformer实现全局建模,采用特征分组、不规则分组和高效通道注意力降低参数量与计算复杂度,在ETHZ Food101、Vireo Food172和UEC Food256三个数据集上分别达到90.49%、91.04%和74.23%的准确率,验证了模型的高效性与实用性。
孙青硕|盛国瑞|朱向义|宋静茹|宋永强|姚涛|王海阳|王莉莉
鲁东大学信息与电气工程学院,中国烟台 264025
摘要
基于深度学习的食品图像识别在食品计算领域发挥着关键作用。然而,其对计算资源的高需求限制了其在终端设备上的应用,无法有效实现智能饮食和营养管理。为了解决这个问题,我们旨在平衡计算效率和识别精度,提出了一种名为Lightweight Inter-Group Food Recognition Net(LIFR-Net)的紧凑型食品图像识别模型,该模型结合了卷积神经网络(CNN)和视觉变换器(ViT)。在LIFR-Net中,设计了一个名为Lightweight Inter-group Transformer(LIT)的轻量级ViT模块,并构建了一个名为Feature Grouping Transformer的轻量级组件,能够高效提取食品图像的局部和全局特征,并优化参数数量和计算复杂度。此外,通过随机排列和融合不规则分组的特征图,增强了通道间的信息交换,提高了模型的识别精度。在三个常用的公共食品图像识别数据集ETHZ Food–101、Vireo Food–172和UEC Food–256上进行的广泛实验表明,LIFR-Net在参数数量和计算量较低的情况下,分别实现了90.49%、91.04%和74.23%的识别精度。
引言
随着对健康饮食需求的增长,研究人员越来越关注基于图像识别的 calorie 估计[1],以评估每日营养摄入量并实现智能饮食和营养管理。作为这一过程的基础任务,食品图像识别依赖于提取独特的视觉特征,而深度学习已成为主要的解决方案。然而,深度模型的高计算成本与移动设备的有限内存和计算能力之间存在冲突,阻碍了其实际应用和大规模部署。为此,我们提出了一种高精度的轻量级食品图像识别模型。
食品图像的独特视觉特性使得轻量级识别比一般对象识别更具挑战性。作为一种细粒度任务[8],食品识别表现出较大的类内变化和较小的类间变化:不同的烹饪方法和成分导致同一类别内的局部差异显著,而不同类别可能具有高度相似的局部区域。如图1所示,这些特点凸显了强大全局特征建模的必要性。
卷积神经网络(CNN)在局部特征提取方面表现出色,但需要深度堆叠来建模长距离依赖关系,这增加了参数数量和计算量,与轻量级设计相矛盾。因此,早期基于紧凑型CNN的轻量级食品识别方法在全局建模能力上受到限制[4]。视觉变换器(ViT)[5] [6] 能够有效捕捉长距离相关性,但密集的令牌交互、高数据需求和繁重的计算阻碍了其轻量级部署。因此,将基于CNN的局部特征与基于ViT的全局特征相结合对于食品图像识别至关重要。
为了应对这些挑战,我们提出了Lightweight Inter-group Food Recognition Network(LIFR-Net),这是一种参数少、复杂度低的紧凑型模型。LIFR-Net包含两个核心模块:MV2模块,改编自MobileNetV2的倒置残差结构[7],以及Lightweight Inter-group Transformer(LIT)模块。MV2使用深度可分离卷积进行高效的局部特征提取和下采样,减少参数和计算量。LIT通过Feature Grouping Transformer块桥接局部和全局信息,有效保留了ViT风格的全局建模能力。为了减轻分组引起的“边缘效应”[19],LIT主要采用不规则分组和高效通道注意力(Efficient Channel Attention)[18],增强了组间和通道间的通信,提高了识别精度。
我们的主要贡献是LIFR-Net,这是一种为资源受限设备量身定制的轻量级食品图像识别模型。具体贡献包括:
- (1)
结合LIT进行轻量级全局特征提取的CNN–Transformer混合架构,以及用于局部特征提取和下采样的倒置残差模块,实现了效率和精度的平衡。
- (2)
具有不规则分组和高效通道注意力的Feature Grouping Transformer,用于减轻“边缘效应”并增强组间和通道间交互。
- (3)
在ETHZ Food101[14]、Vireo Food172[15]和UEC Food256[16]上的广泛实验表明,LIFR-Net在参数数量和计算量较低的情况下,实现了先进的食品图像分类性能。
本文的其余部分组织如下。第2节回顾了轻量级食品图像识别的相关工作。第3节介绍了模型设计和超参数。第4节报告了实验结果。第5节讨论了局限性和未来工作。
相关工作
相关工作
2019年,Min等人提出了食品计算框架,涵盖了感知、识别、检测和检索[3]。其中,食品图像识别是计算机视觉和多媒体[8] [9]中的核心任务。这是一个具有小类间变化和大数据类内变化的挑战性细粒度问题,有效的特征提取至关重要。
卷积神经网络(CNN)能够自动学习层次化特征[4],并且已经开发了许多轻量级变体
方法
LIFR-Net是一个轻量级的CNN-ViT混合网络。它利用ViT的强大全局特征提取能力与CNN的局部特征提取能力相结合,增强了食品图像识别的表示能力。其整体结构如图2所示。与现有的CNN-ViT混合模型(如MobileViT和GSNet)不同,我们的设计遵循两个原则:(1) 用类似卷积的Unfold/Fold操作替换标准的非重叠补丁嵌入,以实现重用
三个食品数据集上的结果
表1总结了LIFR-Net和所有CNN/Transformer基线在ETHZ Food101、Vireo Food172和UEC Food256上的Top-1准确率、参数数量和FLOPs。所有结果均为三次运行的平均值 ± 标准差。除非另有说明,所有模型均从零开始训练,使用相同的训练配方:AdamW(权重衰减0.05),; 余弦学习率调度,包含20k次热身迭代(初始;峰值;300个训练周期;每个GPU的批量大小为32
结论、局限性和未来工作
我们提出了轻量级混合网络LIFR-Net,它结合了基于MV2的局部特征提取和LIT中的Feature Grouping Transformer进行高效的全局建模,并进一步利用高效通道注意力、通道随机排列和不规则分组来减少参数数量和FLOPs,同时保持高精度。尽管LIFR-Net效果显著,但由于计算限制,其可扩展性有限,目前还无法从大规模预训练(例如Foods2k)中受益。
CRediT作者贡献声明
孙青硕:撰写——原始草案,软件实现。盛国瑞:方法论。朱向义:形式分析。宋静茹:撰写——审阅与编辑。宋永强:方法论。姚涛:监督。王海阳:可视化。王莉莉:项目管理。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。