
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于跨模态参数高效微调(PEFT)的作物害虫识别新框架:Dual-(PAL)G模型研究
【字体: 大 中 小 】 时间:2025年06月28日 来源:Computers and Electronics in Agriculture 7.7
编辑推荐:
针对农业害虫识别中传统深度学习模型泛化能力不足、跨模态信息利用有限的问题,本研究创新性地提出基于CLIP多模态大模型的参数高效微调(PEFT)框架Dual-(PAL)G。通过整合Prompt、Adapter和LoRA三种PEFT方法,在仅引入5.2%参数量的情况下,于WPIT9K数据集实现98%准确率,为小样本农业害虫识别提供了高效解决方案。
在宁夏枸杞等经济作物的种植中,害虫侵袭可导致高达30%的产量损失。传统依赖农业专家现场鉴定的方式受限于时间和成本,而现有深度学习模型往往需要针对单一作物、单一场景进行专门训练,既缺乏跨场景泛化能力,又难以处理害虫不同生长阶段的形态差异。更棘手的是,农业领域标注数据稀缺——例如枸杞害虫数据集WPIT9K中,部分类别样本不足百例,这使得直接应用参数量达亿级的大型预训练模型(LPTM)面临严重过拟合风险。
北方民族大学的研究团队在《Computers and Electronics in Agriculture》发表的研究中,创造性地将多模态大模型CLIP引入农业领域。该团队发现,尽管CLIP在公开数据集上展现强大零样本能力,但其对WPIT9K的识别准确率仅3.3%,说明直接迁移存在模态鸿沟。为此,他们设计出Dual-(PAL)G框架,通过三重技术创新:1)在CLIP编码器的输入/隐藏层嵌入可学习Prompt序列;2)在全连接层并行部署多模态LoRA;3)采用门控单元动态平衡Prompt-Adapter-LoRA的贡献。特别设计的GCS-Adapter通过多头注意力实现跨模态语义融合,而轻量化版本Light-GCS-Adapter采用分组查询注意力,参数增量控制在3.71M(仅为CLIP总参数的2.47%)。
关键技术包括:1)基于CLIP-ViT的跨模态编码架构;2)融合Prompt/Adapter/LoRA的混合PEFT策略;3)自建WPIT9K数据集(含17种枸杞害虫的9000张图像);4)在IP102等公开数据集上进行细粒度性能验证。
主要研究结果
结论与意义
该研究首次将多模态PEFT技术系统应用于农业害虫识别,其核心价值在于:1)突破小样本条件下大模型迁移的瓶颈,Dual-(PAL)G仅需15%训练数据即可达到SOTA性能;2)提出的门控融合机制为多PEFT方法协同提供普适性方案;3)轻量化设计使模型可在24GB显存显卡部署,助力田间实时识别。研究团队已将代码开源,为农业AI领域提供了可复用的技术范式。
生物通微信公众号
知名企业招聘