基于视觉-语言多模态网络的储粮害虫精准计数方法研究

【字体: 时间:2025年09月07日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文创新性地将多模态学习范式引入储粮害虫计数领域,提出VL-Pest模型,通过任务特异性提示词(task-specific prompts)改进CLIP图像编码器,结合均值区间计数策略(mean-interval counting)和位置感知交叉熵损失函数(LACE),在自建小目标害虫数据集上实现MAE 1.88、RMSE 3.34的突破性性能,较现有方法分别降低1.12和1.23个点,为高密度害虫场景提供自动化解决方案。

  

亮点

本研究针对储粮害虫计数存在的三大挑战:(1)多模态大模型预训练缺乏高密度小目标数据,(2)现有方法在高密度场景性能不佳,(3)计数过程难以保持数值离散性,提出以下创新方案:

方法

VL-Pest网络架构包含三大核心模块(图4):

  1. 1.

    多模态编码器:改进的CLIP图像编码器提取视觉特征,文本编码器生成害虫特异性提示词(如"Booklice的密集分布")

  2. 2.

    特征交互模块:通过跨模态注意力机制融合视觉-文本特征,增强对微小害虫(1-2mm)的语义感知

  3. 3.

    密度图生成器:采用LACE损失函数,通过空间权重矩阵强化高密度区域(如每平方厘米>50只)的梯度回传

实验分析

与四大类方法对比显示:

  • 检测法(YOLOv8s、AF-RCNN)在IOU=0.5时漏检率达38.7%

  • 点基法(P2PNet)MAE达5.21,显著高于本方法的1.88

  • 密度回归法(DPNet)RMSE为4.57,较VL-Pest高36.8%

  • 无监督方法在跨物种测试中误差波动达±207%

结论

VL-Pest首次实现多模态技术在储粮害虫计数中的成功应用,其创新的均值区间计数策略将数值离散误差降低62.4%,LACE损失使高密度区域(>100只/帧)的计数准确率提升至91.2%,为粮食仓储智能化提供新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号