基于跨模态参数高效微调（PEFT）的作物害虫识别新框架：Dual-(PAL)G模型研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月28日 来源：Computers and Electronics in Agriculture 7.7

编辑推荐：

　　针对农业害虫识别中传统深度学习模型泛化能力不足、跨模态信息利用有限的问题，本研究创新性地提出基于CLIP多模态大模型的参数高效微调（PEFT）框架Dual-(PAL)G。通过整合Prompt、Adapter和LoRA三种PEFT方法，在仅引入5.2%参数量的情况下，于WPIT9K数据集实现98%准确率，为小样本农业害虫识别提供了高效解决方案。

在宁夏枸杞等经济作物的种植中，害虫侵袭可导致高达30%的产量损失。传统依赖农业专家现场鉴定的方式受限于时间和成本，而现有深度学习模型往往需要针对单一作物、单一场景进行专门训练，既缺乏跨场景泛化能力，又难以处理害虫不同生长阶段的形态差异。更棘手的是，农业领域标注数据稀缺——例如枸杞害虫数据集WPIT9K中，部分类别样本不足百例，这使得直接应用参数量达亿级的大型预训练模型（LPTM）面临严重过拟合风险。

北方民族大学的研究团队在《Computers and Electronics in Agriculture》发表的研究中，创造性地将多模态大模型CLIP引入农业领域。该团队发现，尽管CLIP在公开数据集上展现强大零样本能力，但其对WPIT9K的识别准确率仅3.3%，说明直接迁移存在模态鸿沟。为此，他们设计出Dual-(PAL)^G框架，通过三重技术创新：1）在CLIP编码器的输入/隐藏层嵌入可学习Prompt序列；2）在全连接层并行部署多模态LoRA；3）采用门控单元动态平衡Prompt-Adapter-LoRA的贡献。特别设计的GCS-Adapter通过多头注意力实现跨模态语义融合，而轻量化版本Light-GCS-Adapter采用分组查询注意力，参数增量控制在3.71M（仅为CLIP总参数的2.47%）。

关键技术包括：1）基于CLIP-ViT的跨模态编码架构；2）融合Prompt/Adapter/LoRA的混合PEFT策略；3）自建WPIT9K数据集（含17种枸杞害虫的9000张图像）；4）在IP102等公开数据集上进行细粒度性能验证。

主要研究结果

模型效率：在WPIT9K上仅用15%样本（约1350张）即超越原SOTA模型ITF-WPI，F1值提升4.63%；在IP102数据集以66%样本量超越ViT和Swin Transformer。
跨模态优势：文本-图像双模态训练使模型能同时理解"枸杞蚜虫若虫期"等专业描述，解决了传统单模态模型对背景干扰敏感的问题。
通用性验证：在Stanford Cars等8个通用细粒度数据集上，准确率平均提升2.1%，证实框架具有处理复杂形态差异的能力。

结论与意义
该研究首次将多模态PEFT技术系统应用于农业害虫识别，其核心价值在于：1）突破小样本条件下大模型迁移的瓶颈，Dual-(PAL)^G仅需15%训练数据即可达到SOTA性能；2）提出的门控融合机制为多PEFT方法协同提供普适性方案；3）轻量化设计使模型可在24GB显存显卡部署，助力田间实时识别。研究团队已将代码开源，为农业AI领域提供了可复用的技术范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号