农业对于粮食安全、经济稳定和原材料供应至关重要(Rusdiyana, Sutrisno, & Harsono, 2024)。随着人工智能(AI)的进步,现代农业实践有了显著改进(Elbasi, Mostafa, AlArnaout, Zreikat, Cina, Varghese, Shdefat, Topcu, Abdelbaki, Mathew, et al., 2022, Javaid, Haleem, Khan, Suman, 2023, Jha, Doshi, Patel, Shah, 2019, Liu, Ma, Shu, Hancke, Abu-Mahfouz, 2020, Mahmood, Matin, Goudos, Karagiannidis, 2023),特别是在植物病害检测方面。早期和准确的病害识别对于减少损失和确保高质量的产品至关重要。然而,由于气候、土壤条件和害虫侵扰等多种因素,这仍然具有挑战性。传统方法难以在不同地区推广,因此需要能够检测微妙视觉模式的AI驱动模型(Oliveira & de Souza e, 2023)。尽管机器学习和深度学习增强了农业分析能力,但为动态环境开发稳健的模型仍然是一个持续的研究挑战。
计算机视觉的进步带来了视觉变换器(ViTs)(Dosovitskiy, Han, Wang, Chen, Chen, Guo, Liu, Tang, Xiao, Xu, Xu, et al., 2022, Liu, Zhang, Wang, Hou, Yuan, Tian, Zhang, Shi, Fan, He, 2023)的引入,这些模型在处理农业图像分析相关挑战方面显示出巨大潜力(Agarwal, Singh, Arjaria, Sinha, Gupta, 2020, Albahar, 2023)。与传统方法不同,ViTs利用自注意力机制捕捉长距离依赖关系并从图像中提取全局上下文信息。这种能力显著改变了各种计算机视觉任务,包括图像分类、对象检测和分割,使模型能够分析整个图像的空间关系,而不仅仅是依赖局部特征。与卷积神经网络(CNNs)(Geetharamani & Pandian, 2019)不同,后者依赖于通过卷积层提取局部特征,ViTs(Maurício, Domingues, & Bernardino, 2023)将图像分割成一系列补丁,并像处理文本序列中的单词一样处理它们。这种基于补丁的表示方式使ViTs能够有效地建模图像不同区域之间的关系,使其在全局上下文起关键作用的复杂数据集中特别有用。在农业成像中,作物模式、病害症状和环境条件在图像的不同区域差异很大,这种全局注意力机制使ViTs(Barman, Sarma, Rahman, Deka, Lahkar, Sharma, Saikia, 2024, Ghosh, Sarkar, Ghosh, Zalkow, Jana, 2024, Hossain, Tanzim Reza, Chakrabarty, Jung, 2023)在植物病害检测、作物分类和产量估计等任务中表现出优异的性能。尽管有这些优势,设计特定任务的ViT架构仍然是一个复杂的过程,需要大量的实验和领域专业知识,因此需要自动化优化技术,如神经架构搜索(NAS)(Liu, Sun, Xue, Zhang, Yen, Tan, 2021, Wistuba, Rawat, & Pedapati, Zhou, Qin, Sun, Tan, 2021)。图1展示了NAS的一般工作原理。
NAS(Ren, Xiao, Chang, Huang, Li, Chen, Wang, 2021, White, Safari, Sukthanker, Ru, Elsken, Zela, Dey, & Hutter)已成为自动化设计优化神经网络架构的强大技术。它系统地探索定义的搜索空间,以发现适用于特定任务的高性能架构。在各种NAS策略中,差分进化(DE)(Awad, Mallik, & Hutter, Das, Suganthan, 2010, Dhar, Anuvab, Bandyopadhyay, Jana, Ghosh, & Sarayloo, Mallipeddi, Suganthan, Pan, Tasgetiren, 2011, Si, Hazra, Jana, 2012, Wang, Sun, Xue, Zhang, 2018)因其简单性、可扩展性和处理高维搜索空间的有效性而受到广泛关注。DE作为一种基于种群的优化算法,通过结合种群中的不同解决方案来迭代改进候选解决方案,从而生成新的解决方案。这种方法特别适合NAS,因为它能有效地导航复杂的搜索空间,是优化深度学习模型的有效工具。
大型语言模型(LLMs)(Custode, Caraffini, Yaman, Iacca, 2024, Hu, Liu, Zhao, Hou, Nie, Li, 2023)通过从大量数据中学习复杂模式,改变了AI应用。它们提高了自然语言处理(NLP)、代码生成和决策等任务的性能。在NAS中,LLMs通过智能选择架构组件来优化搜索过程。本研究将LLMs与DE算法结合,以提高模型效率和适应性。
本研究提出了一种两阶段的NAS框架,该框架结合了设计实验(DoE)-Taguchi方法(Karna, Sahai et al., 2012)和通过LLM增强的交叉策略,以优化农业成像的ViT架构。主要目标是通过系统地识别有影响力的超参数并高效自动化地改进模型架构,从而促进叶病害的早期检测。我们的方法分为两个阶段:在第一阶段,我们使用Taguchi方法和正交阵列(OA)及方差分析(ANOVA)来评估超参数的重要性,以在优化之前缩小搜索空间。在第二阶段,在识别出关键超参数后,我们进一步探索搜索空间。基于LLM的交叉策略提高了探索效率,使得ViT架构具有更高的准确性和更低的成本。
我们工作的主要贡献总结如下:
• 本研究提出了一种NAS框架,该框架结合了DoE-Taguchi方法进行超参数排序,并使用DE和基于LLM的交叉策略来优化ViT架构的搜索。
• 通过使用Taguchi方法和ANOVA,系统地评估和排名超参数,降低了搜索空间的复杂性。
• 通过结合基于LLM的细化机制,改进了DE中的交叉策略,使得架构探索和收敛更加高效。
• 本研究专注于叶病害的早期检测,证明了所提出方法在现实农业应用中的有效性。
本文的其余部分结构如下:第2节涵盖背景和相关工作,第3节详细介绍数据集,第4节解释方法论,第5节展示结果和讨论,第7节概述局限性,第8节总结未来研究方向。DoE和基于LLM的DE-NAS框架的数据集和源代码可在
github 公开获取。