
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多尺度聚合视觉MambaU-Net(MAVM-UNet)在稻田害虫检测中的创新应用与性能验证
【字体: 大 中 小 】 时间:2025年08月14日 来源:Frontiers in Plant Science 4.8
编辑推荐:
本文提出了一种多尺度聚合视觉MambaU-Net(MAVM-UNet)模型,通过整合多尺度视觉状态空间(MSVSS)、通道感知VSS(CAVSS)和多尺度注意力聚合(MSAA)模块,有效解决了稻田害虫检测中因目标尺寸小、形状多变及背景复杂导致的挑战。实验表明,该模型在IP102数据集上实现了82.07%的像素精度(PA)和81.48%的平均交并比(MIoU),为精准农业害虫监测提供了高效技术方案。
稻田害虫对水稻产量和品质造成严重影响,传统依赖农药的防治方式易引发生态环境问题。由于害虫形态不规则、尺寸微小且背景复杂,精准检测成为技术难点。现有方法如卷积神经网络(CNN)受限于局部感受野,而Transformer类模型虽能捕捉长程依赖但计算复杂度高。Mamba系列模型(如VMamba)通过状态空间模型(SSM)实现了线性复杂度下的全局-局部特征建模,为害虫检测提供了新思路。
CNN-based方法:如多尺度特征融合模型(MFFNet)通过注意力机制提升检测精度,但难以处理少样本场景。
Transformer-based方法:如HCFormer结合CNN与ViT优势,但二次计算复杂度限制其在高分辨率图像中的应用。
Mamba-based方法:视觉Mamba(VMamba)通过空间序列扫描策略优化二维数据处理,Mamba-UNet进一步融合U-Net架构,但多尺度特征整合能力不足。
MAVM-UNet架构(图1):
编码器:输入图像经4×4分块线性嵌入后,通过4级MSVSS模块和Patch Merging下采样,分辨率从W/4×H/4逐步降至W/32×H/32。
解码器:对称使用Patch Expanding上采样,CAVSS模块连接编码器-解码器特征,减少空间信息损失。
核心模块:
MSVSS(图2A):结合VSS与多尺度膨胀卷积(MSDC),通过选择性扫描2D(SS2D)分解图像为四方向序列,增强细粒度特征捕获。
MSAA(图2B):瓶颈层集成膨胀率为1/3/5的卷积,通过Hadamard乘积融合多尺度特征。
CAVSS(图2C):在跳跃连接中引入通道-空间注意力,动态筛选关键特征。
损失函数:交叉熵(LCe)与Dice损失(LDice)加权组合(λ=0.4),解决类别不平衡问题。
数据集:基于IP102的稻田害虫子集(14类9,314张图像),通过随机裁剪、翻转和Mixup/CutMix增强数据。
对比模型:包括传统方法FCMGLCM、U-Net、DIA-UNet及前沿模型TSRST、HCFormer、VM-UNet和MSVM-UNet。
结果:
可视化分析(图4-5):MAVM-UNet能完整检测害虫触角与足部细节,优于U-Net的模糊边界和Transformer类的过/欠检测问题。
定量指标(表2):PA(82.07%)和MIoU(81.48%)显著领先,训练时间(18.7h)与GFLOPs(15.8)略高于VM-UNet(15.2h/12.3GFLOPs)。
消融实验(表3):移除MSAA或CAVSS导致PA下降3.2%-5.8%,验证模块必要性。
MAVM-UNet通过多尺度特征聚合与轻量化设计,为复杂场景下的稻田害虫检测提供了高效解决方案。未来工作可探索模型剪枝与边缘设备部署,进一步推动精准农业应用。
生物通微信公众号
知名企业招聘