基于自动图像描述生成与多模态融合的作物病害识别增强方法

【字体: 时间:2025年10月16日 来源:Computers and Electronics in Agriculture 8.9

编辑推荐:

  本文提出了一种创新性多模态诊断框架,通过大型多模态模型(LMM)自动生成作物图像的结构化文本描述,并引入投影视觉-文本判别(PVD)模块增强跨模态融合。该方法显著提升了田间条件下作物病害识别的鲁棒性与分类性能(F1分数达70.76%),为农业病理诊断提供了可扩展的自动化解决方案。

  
亮点
本研究的核心贡献包括:
  • 开发了基于大型多模态模型(LMM)的自动化文本生成流程,通过结构化零样本思维链(Zero-shot CoT)提示从纯图像数据生成详细的植物病理描述,显著降低对人工标注的依赖。
  • 构建了融合视觉特征与自动生成文本的多模态识别架构,首次联合优化文本合成与多模态融合策略,实现了作物病害诊断的精准跨模态对齐。
  • 在PlantDoc数据集上的实验表明,CogAgent与CLIP(ViT-L/14)及PVD模块组合的F1分数达70.76%,LLaVA与ResNet50+LSTM组合达66.38%,验证了自动化管道在无需人工文本标注下的高效分类能力。
整体架构
本研究提出了一种基于纯图像样本的多模态学习框架,通过自动图像描述生成(AIDG)模块生成文本输入,并与视觉模态融合。该框架首次实现了对作物病害图像的自动化文本增强,通过全自动流程弥合模态差异,为资源有限的农业场景提供了可扩展的多模态诊断方案。
结果与讨论
通过系列实验评估了所提多模态框架的有效性与鲁棒性。该框架利用自动生成的文本描述增强纯图像样本,构建多模态输入。实验对比了不同特征编码器、文本生成模型和融合策略的影响,证实了自动化文本生成在多模态分类中的关键作用。
结论
本研究提出的自动化多模态框架通过融合视觉与文本信息,显著提升了田间条件下作物病害的分类性能。利用大型视觉-语言模型生成的结构化病害症状描述,为图像数据补充了语义上下文,并通过定制化的多模态分类管道实现特征融合。该方法为实际农业应用提供了高效、可扩展的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号