面向工业番茄质量分级的深度学习模型成本感知比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific African》：A cost-aware comparative study of deep learning models for industrial tomato quality grading

【字体：大中小】 时间：2026年06月14日 来源：Scientific African 3.3

编辑推荐：

　　番茄新鲜度分拣是食品加工行业中的关键操作。现有大多数方法依赖二元分拣，即将番茄标记为新鲜或腐烂。这种过于简化的方法会导致大量仍可食用番茄被丢弃。意大利 Barilla 番茄罗勒酱于2019年的一项生产研究发现，在 400 g 规格产品中，20.2%的番茄被剔除

番茄新鲜度分拣是食品加工行业中的关键操作。现有大多数方法依赖二元分拣，即将番茄标记为新鲜或腐烂。这种过于简化的方法会导致大量仍可食用番茄被丢弃。意大利 Barilla 番茄罗勒酱于2019年的一项生产研究发现，在 400 g 规格产品中，20.2%的番茄被剔除。其中约80%仍然可食用，包括青色、轻微损伤、受挤压或误标记的果实。本文利用三种深度学习模型解决这些低效问题：Xception、YOLOv5 和 Swin Transformer。研究人员在一个经整理的三分类数据集上对每种模型进行了训练与评估，以实现新鲜度阶段识别。三个类别分别为新鲜、风险中和腐烂。该研究的新颖性在于：将分拣问题重构为工业三阶段决策问题、构建经整理的基准数据集，并开展成本感知比较分析。为评估泛化能力，研究人员还通过受控跨数据集协议，在第二个独立数据集 FGrade 上对所有模型进行了额外评估。在主数据集上，Swin Transformer 取得最高准确率，为 99.56%。在 FGrade 基准上，Xception 表现最佳，准确率为 86.70%。这些结果表明，数据集特征会影响模型架构选择。在两个数据集上，三种模型相较人工分拣均可将估计经济损失降低80%以上。这证实了其工业可行性。结果支持采用自动化多阶段分拣以减少食物浪费并提高盈利能力。

该文发表于《Scientific African》，围绕工业番茄分拣中“二分类过粗导致可加工番茄被误弃”的现实问题展开。研究背景在于，番茄属于高易腐园艺作物，采后分选质量直接影响加工效率、供应链收益与食物损耗控制。现有人工分拣受疲劳和主观性影响，稳定性不足；既有计算机视觉研究虽常报告较高准确率，但多数仅区分“新鲜/腐烂”两类，无法识别介于两者之间、虽不适合鲜食但仍可用于工业加工的“风险中”番茄。论文指出，这种结构性缺陷会在大规模工业处理中造成显著经济损失，因此有必要将番茄新鲜度评估重新定义为与工业决策一致的多阶段分类任务。

研究人员据此提出三阶段分类框架，将番茄划分为新鲜、风险中和腐烂三类，并在统一实验协议下比较三类代表性深度学习架构：基于卷积神经网络（CNN，卷积神经网络）的 Xception、由目标检测框架改造而来的 YOLOv5m 分类模型，以及基于层次化视觉 Transformer 的 Swin Transformer。研究目标包括识别低效分拣造成的采后损失、构建自动化三阶段分拣系统、在统一条件下比较不同架构的分类性能，并进一步评估误分拣可能造成的经济影响。研究结论表明，三种模型在主数据集上均达到98%以上准确率，在第二独立数据集上也表现出较强可用性；数据分布特征会显著影响最优模型选择；自动化多阶段分拣相较人工分拣可大幅降低经济损失，具备实际工业应用潜力。

在技术方法上，研究主要采用以下关键策略：其一，使用两个公开番茄图像数据集，其中主数据集为经人工整理的 Enalis Tomato 数据集，验证数据集为 FGrade；研究人员通过 MD5 哈希比对确认两数据集图像完全不重叠，并将 FGrade 的10级有序新鲜度标签重新映射为三分类。其二，对训练集实施动态数据增强，包括 ±15° 随机旋转、90°内固定旋转、水平/垂直翻转、±15°剪切和不超过5%像素的高斯噪声，并采用分层抽样划分训练集、验证集和测试集。其三，在 Google Colab Pro 的 Tesla T4 GPU 环境下，对 Xception、YOLOv5m 和 Swin Transformer 进行200轮训练，以准确率、精确率、召回率、F1 值、训练时间和单图推理时间进行比较，并通过 McNemar 检验和多随机种子实验验证统计稳健性。其四，研究将混淆矩阵结果映射为每1000 kg番茄批次的估计经济损失，开展成本感知分析和敏感性分析。

在结果部分，论文首先在“Experiment and Comparative Results”中系统呈现三种模型的比较结果。于主数据集 Dataset 1 上，三种模型整体表现都很高：Swin Transformer 的总体准确率最高，达到 99.56%；YOLOv5m 紧随其后，为 99.44%；Xception 为 98.67%。尽管数值差距较小，但混淆矩阵显示不同模型的误分类模式存在重要差异。YOLOv5m 对新鲜和腐烂番茄实现了完美识别，但在风险中类别存在轻微混淆；Swin Transformer 在三类间表现更均衡，显示出对细微新鲜度过渡特征更强的判别能力；Xception 则在新鲜与风险中类别之间出现更多交叉混淆，提示单纯局部卷积特征在精细视觉区分上的局限。

在“Training dynamics and convergence behavior”部分，研究人员通过训练准确率曲线与损失曲线考察优化过程。三种模型在200轮训练内均稳定收敛，未观察到典型过拟合。Swin Transformer 的收敛最平滑，后期振荡最小，说明其在 AdamW 优化下具有较好的训练稳定性。YOLOv5m 在训练早期收敛速度更快，表明其骨干网络在特征提取效率方面具有优势。Xception 的性能提升相对平稳但略慢。论文据此指出，Transformer 架构在细粒度视觉分类任务中展现出更好的泛化潜力。

在“Computational efficiency trade-off”部分，论文比较了模型部署所需的推理速度。Swin Transformer 的单图推理时间最短，仅 33.9 ms；YOLOv5m 为 156.1 ms；Xception 为 762 ms。研究据此认为，Swin Transformer 在传送带实时分拣场景中更具优势，其约每秒29幅图像的处理速度足以满足工业吞吐需求。该结果也说明，模型选择不应仅基于准确率，还必须兼顾部署场景中的实时性要求。

在“Statistical considerations”部分，研究使用随机种子 42、123 和 256 分别重复训练各模型，并报告平均准确率与标准差。结果显示，Swin Transformer、YOLOv5m 和 Xception 的排序在不同随机种子下保持一致，标准差均不高于 0.14%，说明模型性能差异并非偶然抽样波动所致。进一步的两两 McNemar 检验显示，Swin Transformer 相对 YOLOv5m 以及 Xception 的优势具有统计学显著性，YOLOv5m 与 Xception 之间的差异亦具有显著性，从统计意义上支持 Swin Transformer > YOLOv5m > Xception 的主数据集排序。

在“Economic impact of misclassification”部分，论文将分类错误进一步转化为工业经济损失进行评估。研究设置了明确的建模假设，包括批次组成比例、不同误分类类型对应的单位成本，以及测试集误差率可代表生产级误差率等。在每1000 kg番茄批次的假设场景下，YOLOv5m 的总损失最低，为 12.5 欧元；Swin Transformer 为 13.8 欧元；Xception 为 50.8 欧元。尽管 Swin Transformer 总体准确率最高，但由于 YOLOv5m 对新鲜与腐烂类别实现零误分，其经济损失略低。敏感性分析进一步表明，在类别分布 ±10%、单位成本 ±20% 的12种组合下，模型损失排序保持稳定，且所有自动化模型的估计损失均远低于人工分拣的 125–250 欧元基线，支持“减少80%以上浪费”的结论具有稳健性。

在“Cross-dataset experimental protocol”与“Cross-dataset generalization analysis”部分，研究进一步检验了模型跨数据集泛化能力。所有模型均在第二独立数据集 FGrade 上按相同数据划分、增强策略和训练轮数重新训练与测试，仅 Swin Transformer 在 Dataset 2 上将学习率从 10^?3 调整为 10^?4，并加入余弦调度与线性预热，以避免由于类别合并导致的新鲜类内部变异增大而引起分类头塌缩。结果显示，FGrade 上的模型排序发生部分反转：Xception 以 86.70% 的准确率居首，Swin Transformer 为 83.48%，YOLOv5m 为 82.75%。论文认为，这种变化源于两方面：其一，FGrade 采用10级新鲜度标签，经重映射为3类后，在类别边界处引入固有模糊性；其二，FGrade 的标注依据是志愿者基于存储时间的多数投票，而非视觉上明显分离的人工整理类别。特别是风险中类别在该数据集上的 F1 值最低，成为所有模型最难判别的类别。综合两个数据集的平均准确率，Xception 以 92.69% 居首，Swin Transformer 为 91.52%，YOLOv5m 为 91.10%。这说明，当类内视觉变异较高时，基于局部纹理与颜色特征的卷积架构可能更稳健。

在“Discussion of the results”部分，论文对上述发现进行了综合讨论。研究认为，多阶段新鲜度分类比传统二分类更契合工业实际，因为风险中番茄在鲜食市场上不合格，但在番茄酱等加工场景中仍具利用价值。主数据集上 Swin Transformer 的高精度和快速推理，表明自注意力机制对细微视觉过渡具有更强的建模能力；而 FGrade 上 Xception 的优势则提示，模型优劣并非绝对，而是受到数据标注方式、类别边界定义和类内异质性的深刻影响。论文还指出，这些模型在移动端和边缘端部署具有可行性，并通过一个基于 YOLOv5m 的移动应用原型展示了非实验室环境下的实时分类能力，这对机械化程度有限的地区尤其重要。

论文还讨论了其对撒哈拉以南非洲农业系统的意义。由于该地区采后损失高、分级基础设施不足且高度依赖人工分拣，自动化视觉分级系统有望改善分配效率、降低浪费并提升生产者收入。与此同时，作者也明确指出方法学局限：主数据集环境多样性不足；图像可能存在同源数据跨训练集与测试集分布的问题；三分类不能完全反映果实腐败的连续生物学过程；统计验证种子数量仍有限；模型可解释性尚未分析；且研究仅使用 RGB 图像，尚未纳入高光谱、热成像或近红外等多模态传感信息。因此，进一步开展领域迁移验证、可解释人工智能分析、环境鲁棒性测试与多模态融合，是该方向继续发展的关键。

结论部分指出，本文比较了三种计算机视觉模型在番茄自动新鲜度分拣中的表现，分类类别为新鲜、风险中和腐烂。三分类方案有助于减少包装和番茄酱生产中的番茄浪费。Swin Transformer 在单图像推理速度上最快，YOLOv5 具有最小模型体积，因此更适合移动设备部署。未来工作将构建更大规模、更多样化的真实农业环境数据集，特别关注非洲场景中番茄品种、种植方式和气候差异；还将开发实时部署原型，并与人工专家及现有工业方法对照验证，以确认系统在田间条件下的实用性、可靠性和可用性。研究还计划解决番茄果梗误识别为腐烂区域的问题，并将最佳模型集成到基于物联网（IoT，物联网）的低成本自动分拣体系中，包括摄像头、舵机以及 Arduino 或 Raspberry Pi 平台，从而形成适用于资源受限地区的自动化解决方案。总体而言，该研究证明了成本感知的多阶段深度学习分拣框架在降低食物浪费、提升加工收益和促进农业智能化方面具有明确应用价值。

联系信箱：

粤ICP备09063491号

热点排行