结合卷积神经网络(CNN)和视觉变换器(Vision Transformers)的混合人工智能模型,用于精准识别农作物中的害虫

《Food Science & Nutrition》:Hybrid AI Model With CNNs and Vision Transformers for Precision Pest Classification in Crops

【字体: 时间:2025年11月11日 来源:Food Science & Nutrition 3.8

编辑推荐:

  作物害虫分类中提出HyPest-Net混合模型,集成CNN提取局部特征、注意力机制优化关键区域,以及ViT建模全局依赖,在水稻和农场害虫数据集上分别达到95%和93.4%准确率,适用于实时精准农业应用。

  在农业领域,作物害虫对粮食安全、经济稳定以及生态平衡构成了严重威胁。传统上,害虫识别依赖于人工检查和专家经验,这种方式不仅耗时费力,还容易受到主观因素影响,难以满足现代农业对高效、精准和自动化识别的需求。近年来,随着深度学习技术的迅速发展,研究人员开始探索利用计算机视觉技术进行害虫识别,其中卷积神经网络(CNNs)和视觉Transformer(ViTs)因其在图像分类和特征提取方面的强大能力而受到关注。然而,单独使用CNNs或ViTs仍然面临一些挑战,例如难以处理背景干扰、光照变化和视觉相似性等问题。为了解决这些问题,本文提出了一种新的混合深度学习模型——HyPest-Net,该模型结合了CNNs的局部特征提取能力、注意力机制对关键区域的增强,以及ViT对全局上下文信息的建模能力,从而在复杂环境下实现对害虫的高精度分类。

HyPest-Net的核心思想是将CNNs的局部特征提取能力与ViT的全局建模能力相结合,同时利用注意力机制来增强模型对关键区域的识别能力。CNNs擅长捕捉图像中的局部特征,如纹理、边缘和结构,但其局部感受野的局限性导致其在建模全局信息方面存在不足。相比之下,ViTs通过自注意力机制能够处理图像中的长距离依赖关系,但其计算复杂度较高,且在处理小规模数据集时可能面临过拟合问题。为了克服这些挑战,HyPest-Net引入了通道注意力和空间注意力模块,以增强CNNs的特征表示能力,同时减少背景噪声的影响。这种结合使得模型能够更准确地识别害虫,尤其是在视觉上相似的物种之间。

在数据准备阶段,本文使用了一个包含275张图像的作物害虫数据集,涵盖五种主要的稻米害虫:稻纵卷叶螟、绿稻飞虱、稻飞虱、稻虫和稻纵卷叶螟。这些图像来源于公开数据集和实地采集,以确保模型能够适应真实的农业环境。为了提升模型的泛化能力,研究团队采用了一系列数据增强技术,包括随机旋转、翻转、亮度调整和仿射变换,使得训练数据数量增加了五倍,达到1375张图像。此外,还引入了Mixup和CutMix等先进的增强策略,以进一步提升模型对不同光照条件和视角变化的适应能力。这种数据增强方法不仅增加了数据的多样性,还降低了模型对训练数据的过度依赖,提高了其在实际应用中的稳定性。

模型的结构设计分为三个主要部分:CNNs用于提取局部特征,注意力机制用于增强特征表示,ViT用于建模全局上下文。CNNs部分采用了一个轻量级的自定义架构,包含三个卷积层,每个层后接批归一化、ReLU激活函数和最大池化操作。这种设计能够在保持模型效率的同时,提取出对害虫分类至关重要的细节特征。随后,通过通道注意力和空间注意力模块对CNNs提取的特征进行进一步处理,以强调关键区域和特征通道,同时抑制无关背景信息。最后,将这些增强后的特征输入到ViT-B/16模块中,该模块通过分割图像为非重叠的16×16块,并利用多头自注意力机制来捕捉图像中的全局信息,从而提升模型在分类任务中的表现。

实验结果表明,HyPest-Net在稻米害虫数据集上取得了高达95%的准确率,同时在危险农业害虫数据集上也达到了93%的准确率。此外,模型在精度、灵敏度、特异性和F1分数上均表现出色,分别为95%、95%、94%和94%。这些指标的高值表明,HyPest-Net不仅能够有效区分不同害虫类别,还能在复杂环境中保持良好的鲁棒性。通过消融分析,研究团队进一步验证了模型中各组件对性能的贡献。结果表明,引入注意力机制和ViT模块能够显著提升模型的准确率和泛化能力,而仅使用CNNs或纯ViT模型则在某些方面表现欠佳。

此外,HyPest-Net在五折交叉验证中的表现稳定,各项指标的平均值在94%左右,表明该模型具有良好的泛化能力。模型的参数量仅为160万,计算复杂度为10.5 GFLOPs,推理速度为22.1毫秒/图像,相较于纯ViT模型更加轻量和高效。这些特性使得HyPest-Net特别适用于资源受限的农业环境,如无人机监测、智能农业平台或边缘计算设备,从而实现实时、可解释的害虫分类。

在实际应用中,HyPest-Net的性能得到了验证。例如,在危险农业害虫数据集上,该模型能够识别15种不同害虫,包括非洲蜜蜂、蚜虫、 armyworms、褐斑象甲虫、甘蓝夜蛾、柑橘溃疡病、马铃薯甲虫、玉米螟、玉米螟、草地贪夜蛾、果蝇、红蜘蛛、蓟马、番茄尺蠖和西方玉米根虫。在这些类别中,模型的精度、召回率和F1分数均高于0.90,整体准确率达到93.4%。这表明HyPest-Net不仅适用于稻米害虫的分类,还能够推广到更广泛的农业害虫识别任务中。

从研究的角度来看,HyPest-Net的提出填补了现有研究的一些空白。传统的CNNs模型虽然在局部特征提取方面表现出色,但在处理背景噪声、光照变化和视觉相似性问题时存在局限。而ViTs虽然能够建模全局信息,但在处理小规模数据集时容易出现过拟合问题。HyPest-Net通过结合CNNs、注意力机制和ViT,有效平衡了局部与全局特征提取的能力,提高了模型在复杂环境下的识别效果。同时,模型在保持高精度的同时,降低了计算复杂度,使其具备实际应用的可行性。

此外,HyPest-Net的可解释性也是一个重要优势。通过注意力机制,模型能够突出显示关键的害虫特征,如翅膀的脉络、身体结构和颜色分布,从而提高识别的透明度。这种可解释性对于农业应用至关重要,因为它有助于农民和研究人员理解模型的决策依据,进而提高对害虫管理的科学性和可靠性。相比之下,许多现有的深度学习模型在提高精度的同时,往往牺牲了可解释性,这限制了其在实际应用中的接受度和实用性。

为了进一步验证模型的泛化能力,研究团队还测试了HyPest-Net在不同数据集上的表现。结果显示,该模型在多个数据集上均能保持较高的分类准确率,表明其具有较强的适应性和鲁棒性。这种泛化能力对于农业害虫识别尤为重要,因为害虫种类和环境条件在不同地区和季节可能发生变化。HyPest-Net的轻量设计使其能够快速适应这些变化,从而在实际应用中保持高性能。

展望未来,研究团队计划通过引入更多实地拍摄的图像数据来扩展数据集,并在真实农田环境中测试模型的性能。此外,他们还希望进一步优化模型的结构,使其能够在更广泛的农业场景中发挥更大的作用。HyPest-Net的提出为农业害虫管理提供了一种高效、准确且可解释的解决方案,有助于推动智能农业的发展,提高农业生产效率和可持续性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号