基于跨模态参数高效微调(PEFT)的作物害虫识别新框架:Dual-(PAL)G模型研究

【字体: 时间:2025年06月28日 来源:Computers and Electronics in Agriculture 7.7

编辑推荐:

  针对农业害虫识别中传统深度学习模型泛化能力不足、跨模态信息利用有限的问题,本研究创新性地提出基于CLIP多模态大模型的参数高效微调(PEFT)框架Dual-(PAL)G。通过整合Prompt、Adapter和LoRA三种PEFT方法,在仅引入5.2%参数量的情况下,于WPIT9K数据集实现98%准确率,为小样本农业害虫识别提供了高效解决方案。

  

在宁夏枸杞等经济作物的种植中,害虫侵袭可导致高达30%的产量损失。传统依赖农业专家现场鉴定的方式受限于时间和成本,而现有深度学习模型往往需要针对单一作物、单一场景进行专门训练,既缺乏跨场景泛化能力,又难以处理害虫不同生长阶段的形态差异。更棘手的是,农业领域标注数据稀缺——例如枸杞害虫数据集WPIT9K中,部分类别样本不足百例,这使得直接应用参数量达亿级的大型预训练模型(LPTM)面临严重过拟合风险。

北方民族大学的研究团队在《Computers and Electronics in Agriculture》发表的研究中,创造性地将多模态大模型CLIP引入农业领域。该团队发现,尽管CLIP在公开数据集上展现强大零样本能力,但其对WPIT9K的识别准确率仅3.3%,说明直接迁移存在模态鸿沟。为此,他们设计出Dual-(PAL)G框架,通过三重技术创新:1)在CLIP编码器的输入/隐藏层嵌入可学习Prompt序列;2)在全连接层并行部署多模态LoRA;3)采用门控单元动态平衡Prompt-Adapter-LoRA的贡献。特别设计的GCS-Adapter通过多头注意力实现跨模态语义融合,而轻量化版本Light-GCS-Adapter采用分组查询注意力,参数增量控制在3.71M(仅为CLIP总参数的2.47%)。

关键技术包括:1)基于CLIP-ViT的跨模态编码架构;2)融合Prompt/Adapter/LoRA的混合PEFT策略;3)自建WPIT9K数据集(含17种枸杞害虫的9000张图像);4)在IP102等公开数据集上进行细粒度性能验证。

主要研究结果

  1. 模型效率:在WPIT9K上仅用15%样本(约1350张)即超越原SOTA模型ITF-WPI,F1值提升4.63%;在IP102数据集以66%样本量超越ViT和Swin Transformer。
  2. 跨模态优势:文本-图像双模态训练使模型能同时理解"枸杞蚜虫若虫期"等专业描述,解决了传统单模态模型对背景干扰敏感的问题。
  3. 通用性验证:在Stanford Cars等8个通用细粒度数据集上,准确率平均提升2.1%,证实框架具有处理复杂形态差异的能力。

结论与意义
该研究首次将多模态PEFT技术系统应用于农业害虫识别,其核心价值在于:1)突破小样本条件下大模型迁移的瓶颈,Dual-(PAL)G仅需15%训练数据即可达到SOTA性能;2)提出的门控融合机制为多PEFT方法协同提供普适性方案;3)轻量化设计使模型可在24GB显存显卡部署,助力田间实时识别。研究团队已将代码开源,为农业AI领域提供了可复用的技术范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号