《Agronomy》:YOLO-RCM: An Improved Tomato Maturity Detection Model for Complex Greenhouse Environments
编辑推荐:
为减少相邻成熟度类别间的混淆及复杂背景下番茄目标检测中由背景干扰引起的误检和低检测精度问题,研究人员开发了基于改进YOLOv7的模型YOLO-RCM(Reduce classes misjudgment)。首先,在特征金字塔网络(Feature Pyramid
为减少相邻成熟度类别间的混淆及复杂背景下番茄目标检测中由背景干扰引起的误检和低检测精度问题,研究人员开发了基于改进YOLOv7的模型YOLO-RCM(Reduce classes misjudgment)。首先,在特征金字塔网络(Feature Pyramid Network, FPN)中嵌入稳定性增强的ECANet通道注意力模块,以增强判别性通道响应。其次,在骨干网络(Backbone)中引入基于DCNv2的可变形卷积增强模块即带自适应幅度约束的DCNConv,以缓解番茄成熟度检测中形状变化、局部遮挡及细粒度外观差异导致的特征错位。第三,采用WIoU v3(Wise-IoU v3)损失函数优化边界框回归稳定性。该模型在公开Laboro Tomato数据集和TomatOD数据集上进行评估。实验结果表明,YOLO-RCM的精确率(Precision)达83.7%,mAP@0.5达89.6%,分别超出基线模型3.3和1.2个百分点;其召回率(Recall)为80.5%,降低0.8个百分点,GFLOPs降至96.9,较基线降低6.3。上述结果表明所提方法在几乎不改变模型规模的前提下提高了检测精度和计算效率。混淆矩阵和PR(Precision-Recall)曲线进一步表明YOLO-RCM能有效减轻相邻成熟度阶段及复杂场景相关的误检。在外域数据集鲁棒性测试中,精确率和mAP@0.5较基线分别提升5.8和4.0个百分点,证实了模型的泛化能力。本研究的主要贡献在于从通道特征判别、局部几何感知和边界框回归稳定性三个互补方面改进了番茄成熟度检测,为复杂农业环境下智能番茄收获系统提供了实用的技术参考。
论文解读:YOLO-RCM——面向复杂温室环境的改进番茄成熟度检测模型
番茄是全球重要的蔬菜作物,成熟度是判定果实品质、营养组成及市场价值的关键因素,准确评估成熟度对优化采收时间、提高产量和减少采后损耗具有重要意义。传统成熟度判别依赖人工目测或感官评价,主观性强且一致性差,难以适应大规模自动化生产。早期研究采用传统图像处理结合机器学习方法,但仍高度依赖手工设计特征,在背景杂乱、光照变化和类边界模糊的复杂温室场景中鲁棒性差。随着深度学习发展,两阶段检测器(如Faster R-CNN、Mask R-CNN)精度高但计算量大、推理慢;单阶段检测器尤其是YOLO(You Only Look Once)系列在精度与实时性间取得较好平衡,逐渐被用于番茄成熟度检测。然而现有YOLO改进方法仍面临三大挑战:相邻成熟度类别(如全熟与半熟)因颜色渐变易混淆;温室中叶片遮挡、果实重叠、尺度变化和自然光照波动造成复杂背景干扰;难以兼顾检测精度、模型复杂度和跨场景鲁棒性。为解决上述问题,研究人员以YOLOv7为基线提出YOLO-RCM(Reduce classes misjudgment)模型,并在公开Laboro Tomato数据集与TomatOD数据集上验证其有效性,相关成果发表于《Agronomy》。
研究人员采用的关键技术方法如下:使用公开Laboro Tomato数据集(含804幅温室番茄图像,按GH/T 1193-2021标准将番茄分为熟(ripe)、半熟(semi-ripe)、未熟(unripe)三类并合并普通番茄与樱桃番茄标注),按7∶2∶1划分训练/验证/测试集并进行亮度调整、翻转、高斯滤波及随机平移扩增;以YOLOv7(含Input、Backbone之CBS/ELAN/MP模块、Neck之SPPCSPC与PANet+ELAN-W、Head之RepConv)为基线,在Backbone输出P3(stride=8)与P4(stride=16)的ELAN模块中以带核大小自适应下限(kernel≥3)约束偏移量的DCNConv(基于DCNv2(Deformable ConvNets v2)的可变形卷积模块)替换最后两层标准卷积,在FPN(feature pyramid network)特征融合路径中插入稳定性增强的ECANet(Efficient Channel Attention Module),并以WIoU v3(Wise-IoU v3)替换CIoU(Complete Intersection over Union)作为边界框回归损失函数;经消融实验确定最终架构为Backbone中嵌入改进DCNConv、FPN中嵌入改进ECANet、采用WIoU v3损失且移除FPN路径上DCNConv以避免模块耦合不稳定;输入分辨率640×640,batch size=12,训练300 epoch,以验证集最优权重在测试集评估Precision(%)、Recall(%)、mAP@0.5(%)、Parameters(M)及GFLOPs,辅以Grad-CAM热力图可视化、混淆矩阵及跨数据集(TomatOD)鲁棒性测试。
3.2. Evaluation Metrics
研究人员采用精确率(Precision)、召回率(Recall)及IoU阈值0.5时的平均精度均值(mAP@0.5)评估检测性能,采用参数量(Parameters, M)和十亿浮点运算数(GFLOPs)评估模型复杂度,明确各指标定义。
3.3. Comparison of Attention Mechanisms
研究人员在YOLOv7基线上分别嵌入CBAM、FcaNet、SimAM、CA(Coordinate Attention)及ECANet进行对照实验。结果表明ECANet取得最高mAP@0.5(89.3%),较基线提升0.9个百分点,Precision达81.5%(+1.1),Recall保持81.3%与基线相当,且参数量与GFLOPs几乎不变。Grad-CAM可视化显示ECANet使高响应区域更集中于番茄果实主体并抑制背景激活,说明其通过增强通道判别性特征改善了类间混淆问题。
3.4. Comparison of Loss Functions
研究人员对比GIoU、Focal-EIoU、SIoU及WIoU v3替代CIoU的效果。WIoU v3取得最高Recall(81.9%, +0.6),Precision 81.1%(+0.7),mAP@0.5 88.5%(+0.1),且其动态非单调聚焦机制使模型关注中等质量样本,在低光照和遮挡等困难样本中定位更稳定,能一定程度抑制背景误检。虽mAP@0.5略低于Focal-EIoU,但WIoU v3对难样本的召回优势更符合本研究需求。
3.5. Ablation Experiment
研究人员通过消融实验量化各模块贡献:单独引入ECANet使Precision与mAP@0.5升至81.5%和89.3%;单独引入DCNConv使GFLOPs降至96.9但mAP@0.5略降,说明单独使用时几何建模优势未完全转化为精度增益;单独引入WIoU v3提升Recall至81.9%。三者联合时YOLO-RCM取得最佳Precision 83.7%(+3.3)和mAP@0.5 89.6%(+1.2),GFLOPs 96.9(-6.3),Params 36.7 M(+0.2 M),Recall 80.5%(-0.8)。混淆矩阵显示全熟误判为半熟比例由0.11降至0.08,半熟误判为未熟由0.04降至0.03,背景误检略有降低,但全熟类别漏检(FN)由0.08升至0.13是Recall微降的主因。
3.6. Model Comparison Experiment
研究人员将YOLO-RCM与RT-DETR L、YOLOv5 L、YOLOv8 M、YOLO11 L、YOLO26 L对比。YOLO-RCM以Precision 83.7%和mAP@0.5 89.6%居首,超越基线YOLOv7分别3.3和1.2个百分点,优于所有对比模型;GFLOPs较基线降低而参数量仅微增,在计算效率和精度间取得良好平衡。
3.7. Cross-Dataset Robustness Experiment
研究人员以未参与训练的TomatOD数据集作外部测试。YOLO-RCM的Precision和mAP@0.5较YOLOv7基线分别提升5.8和4.0个百分点,Recall降低1.2个百分点,GFLOPs降至96.9,证明改进特征具跨数据集泛化能力。
讨论与结论(翻译总结)
讨论指出YOLO-RCM通过DCNConv增强局部几何变化感知、稳定性增强ECANet强化通道判别响应及WIoU v3稳定边界框回归三方面协同作用,提升了复杂场景下番茄成熟度检测准确性,尤其减轻相邻成熟度混淆。局限包括全熟类别轻微漏检增加、未成熟类别背景抑制有限,以及未考虑多品种(如绿熟品种)颜色相似性问题,未来拟引入光谱或深度信息多模态融合及可解释人工智能方法。结论为:所提YOLO-RCM在Laboro Tomato数据集上取得83.7% Precision和89.6% mAP@0.5,GFLOPs降至96.9,Params微增至36.7 M;混淆矩阵证实减轻相邻成熟度误分类并降低全熟与半熟背景误检;跨数据集测试中Precision和mAP@0.5分别提升5.8和4.0个百分点,具良好鲁棒性与泛化能力,可为复杂农业环境自动成熟度检测提供技术支撑。