
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于MobileNet V3优化的DINO模型:提升芝麻幼苗与杂草相似目标检测精度的创新方法
【字体: 大 中 小 】 时间:2025年04月08日 来源:Scientific Reports 3.8
编辑推荐:
针对农业场景中芝麻幼苗与杂草形态相似导致的检测难题,浙江工业大学团队通过改进DINO模型,将ResNet替换为MobileNet V3,优化SENet注意力机制并设计H-Swish6激活函数,使模型参数量降至29M,在COCO数据集上AP提升5.1%,在自建数据集上以81.8% AP和24 FPS性能超越YOLOv7,为农业边缘设备提供了高效精准的检测方案。
在智能农业机械快速发展的今天,田间作物的精准识别仍面临巨大挑战。当目标作物与周围杂草形态高度相似时——比如嫩绿的芝麻幼苗与杂草几乎"孪生"的状况,传统检测模型的准确率就会断崖式下跌。这种"真假美猴王"式的识别难题,不仅影响自动化除草设备的作业精度,更直接关系到农药使用效率和生态保护。浙江工业大学的研究团队将目光投向了这个被学界长期忽视的领域,他们以芝麻田为"实验室",在《Scientific Reports》发表了一项突破性研究。
研究团队采用改进的DINO(Detection with Transformers)框架,通过三个关键技术革新解决这一难题。首先用轻量级MobileNet V3替换原ResNet主干网络,参数量锐减70%;其次在SENet注意力机制中创新性加入全局最大池化(GMP)分支,使模型对芝麻木质化茎干的特征捕捉能力提升3.8%;最后设计的H-Swish6激活函数通过上界控制,在边缘设备上实现60%的推理加速。实验采用自建的1,300张芝麻田图像数据集,通过5次重复实验和5折交叉验证确保结果可靠性。
在模型架构方面,研究展示了精妙的模块设计。改进的MobileNet V3主干网络采用深度可分离卷积(DSC)模块,在层6、9、13进行特征提取。注意力机制改进中,通过Grad-CAM可视化证实,全局最大池化(GMP)使模型对芝麻茎叶的关注度显著提升,其数学表达为G M P=maxi,j Fij。新设计的H-Swish6激活函数通过引入上界控制,解决了原H-Swish在极端特征值下的收敛问题。多尺度特征提取网络采用FPN+PAN结构,将特征层从4级精简为3级,配合3×3卷积缓解下采样融合的负面影响。
实验结果呈现全面突破。在COCO数据集上,改进模型(Our-Model)以57.1% mAP超越原DINO模型5.1%,其中APs和APM分别提升3.3%和3.8%。推理时间从100ms降至40ms,FLOPs降低43.72%至112G。在自建芝麻数据集上的表现更为亮眼:81.8% AP远超YOLOv7的76.2%,同时保持24 FPS的实时性能。可视化对比显示,在密集杂草场景中,改进模型对遮挡芝麻苗的识别准确率达69.8%,较YOLOv7提升近10%。
通过系统的消融实验,研究验证了各改进模块的贡献。单独使用改进SENet可使mAP提升2.3%,而优化后的Neck结构在减少15.2%参数量的同时带来5.5%精度提升。二者结合后,模型最终取得87.4% mAP的优异表现。这些数据证实,针对农业特殊场景的定制化改进,比通用目标检测模型具有明显优势。
这项研究为农业相似目标检测提供了范式转变。通过MobileNet V3的硬件感知设计、双分支注意力机制和多尺度特征优化,首次在边缘设备上实现了芝麻与杂草的高精度实时区分。其技术路线可推广至其他作物检测场景,为智能农机装备提供了核心算法支撑。正如作者指出,当全球农业隐性成本高达GDP的10%时,这种提升5.6%检测精度的突破,可能意味着每年减少数十亿美元的非必要农药投入。这项成果不仅填补了农业视觉检测的技术空白,更开创了Transformer模型在边缘计算设备落地的新思路。
生物通微信公众号
知名企业招聘