
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Transformer ResNet编码器的农业迁移学习视觉Transformer模型AgriTL-ViT在植物叶片病害分类中的应用研究
【字体: 大 中 小 】 时间:2025年06月28日 来源:Expert Systems with Applications 7.5
编辑推荐:
为解决传统Vision Transformer(ViT)模型中MLP模块计算成本高、特征提取效率低的问题,研究人员开发了AgriTL-ViT模型,通过Transformer ResNet编码器替代MLP模块,并引入双多头自注意力机制。实验表明该模型在番茄、玉米和水稻叶片数据集上分别达到98.5%、97.2%和97.0%的准确率,为农业病害智能诊断提供了高效解决方案。
在全球人口预计2050年达到91亿的背景下,农作物病害威胁日益成为粮食安全的重大挑战。传统人工检测方法效率低下,而现有机器学习方法难以处理大规模图像数据。尤其对于番茄、玉米和水稻等经济作物,病害可造成高达40%的产量损失。尽管卷积神经网络(CNN)已应用于病害识别,但其局部感受野特性限制了全局特征捕捉能力。Vision Transformer(ViT)虽能解决此问题,但其多层感知机(MLP)模块存在计算冗余、特征提取效率低的缺陷。
为解决这些技术瓶颈,研究人员开发了AgriTL-ViT模型。该模型创新性地采用Transformer ResNet编码器结构,用ResNet模块替代传统ViT中的MLP组件,显著降低了计算复杂度。同时引入双多头自注意力(Dual Multi-Head Self-Attention)机制,使模型能并行捕获局部细节和全局上下文特征。研究团队使用番茄、玉米和水稻叶片图像数据集进行验证,通过混淆矩阵、精确率-召回率等指标评估性能,并采用Grad-CAM、LIME等可解释性技术分析决策依据。
相关工作中指出,现有方法在跨作物泛化性和计算效率方面存在明显不足。传统CNN模型如VGG、ResNet虽能提取空间特征,但难以建立远程依赖关系;而标准ViT模型参数量大,不适合资源受限的农业应用场景。
提出的AgriTL-ViT模型通过三大创新解决这些问题:1)Transformer ResNet编码器通过残差连接实现跨层特征融合,比传统MLP模块减少23%计算量;2)双多头注意力机制分别处理4×4和16×16两种patch尺寸,同步捕获细胞级病变和叶面分布特征;3)针对性数据增强策略(ColorJitter和GaussianBlur)提升模型在复杂田间环境中的鲁棒性。
实验结果显示,在128×128低分辨率条件下,模型对番茄早疫病的识别准确率仍达96.8%,显著优于对比模型。可视化分析表明,注意力头能准确定位病斑边缘的褐变区域,这与植物病理学特征高度吻合。
讨论部分强调,该模型在保持ViT全局建模优势的同时,通过ResNet的层次化特征提取能力,使参数量减少至原ViT的68%。特别值得注意的是,模型在跨作物测试中展现出强大泛化能力——使用番茄数据训练的模型对玉米常见锈病的识别准确率可达89.7%,这为农业AI模型的跨作物迁移提供了新思路。
这项发表于《Expert Systems with Applications》的研究,通过算法创新成功解决了农业病害识别中的计算效率与特征捕获难题。其提出的双注意力机制和ResNet-ViT混合架构,不仅为精准农业提供了实用工具,也为计算机视觉领域的Transformer架构优化提供了重要参考。未来工作将探索模型在无人机实时监测系统中的嵌入式应用,并扩展至更多经济作物病害诊断场景。
生物通微信公众号
知名企业招聘