Ros-AI:一种基于大语言模型增强的可扩展多模态框架,用于精准农业中基于无人机的玫瑰开花分析

《Smart Agricultural Technology》:Ros-AI: An LLM-enhanced scalable multimodal framework for UAV-based rose bloom analysis in precision agriculture

【字体: 时间:2026年06月09日 来源:Smart Agricultural Technology 5.7

编辑推荐:

  准确检测玫瑰开花对苗圃管理至关重要,但由于花朵尺寸小、密集聚集以及无人机图像中频繁遮挡,这一任务依然困难。本研究提出了一种多模态框架,结合了监督深度学习、无监督计算机视觉和大语言模型(LLMs)来克服这些挑战。无人机(UAV)飞行捕获了玫瑰苗圃的高分辨率RGB

  
准确检测玫瑰开花对苗圃管理至关重要,但由于花朵尺寸小、密集聚集以及无人机图像中频繁遮挡,这一任务依然困难。本研究提出了一种多模态框架,结合了监督深度学习、无监督计算机视觉和大语言模型(LLMs)来克服这些挑战。无人机(UAV)飞行捕获了玫瑰苗圃的高分辨率RGB图像。在监督方法中,基于瓦片(tile)的YOLOv8m模型结合滑动窗口推理取得了强劲性能(mAP@0.5 = 0.985,召回率 = 0.948),确认了瓦片化对于小目标检测的价值。为支持低成本部署,研究人员将无标注的RGB开花量化器(RGB Bloom Quantifier)与瓦片化YOLOv8m并排评估,该量化器采用动态红色通道阈值分割、形态学滤波和轮廓分析,在完全运行于中央处理器(CPU)硬件的情况下达到93.1%的准确率,消除了对训练数据或图形处理器(GPU)的需求。来自两条管道的开花计数结果与本地部署的大语言模型(LLaMA 3和Gemini)集成,生成关于劳动力分配以及灌溉、施肥和收获调度的咨询输出。结果表明,监督方法和无监督方法相互补充:YOLO确保准确性,而量化器则实现可扩展的低成本部署。本研究展示了如何将监督检测、无监督计数和基于大语言模型的摘要相结合,用于实用的玫瑰开花监测。
**论文解读**
**研究背景、问题与动机**
玫瑰开花监测是苗圃管理的核心任务,因为开花数量直接影响收获调度、劳动力规划和生产预测。然而,在大型苗圃中进行人工计数耗时、劳动密集且容易出错。在无人机(UAV)图像中,玫瑰开花常表现为小尺寸、密集聚集和部分遮挡的目标,这使得自动检测更加困难。现有的监督深度学习方法虽然性能良好,但需要大量标注数据和图形处理器(GPU)硬件,增加了部署成本和复杂性。此外,密集场景中成百上千的小花朵导致严重遮挡和重叠,进一步降低检测精度。因此,亟需一种在准确性、计算效率和标注需求之间取得平衡的可扩展检测系统。研究人员提出了一种混合框架,结合监督学习、无监督计算机视觉和大语言模型(LLMs),旨在解决上述挑战,为精准农业中的玫瑰开花监测提供实用且可部署的解决方案。该论文发表在《Smart Agricultural Technology》。
**主要关键技术方法**
本研究采用的关键技术方法包括:(1)无人机(UAV)平台搭载RGB传感器,从商业玫瑰苗圃采集高分辨率正射影像(5280×3956像素),筛选后保留168幅场景,并按70%、20%、10%比例划分为训练、验证和测试集;(2)监督检测使用瓦片化YOLOv8m(YOLOv8-medium)模型,将全分辨率图像分割为512×512重叠瓦片(重叠率25%),结合滑动窗口推理和多重非极大值抑制(NMS)及加权框融合(WBF)进行后处理;(3)无监督RGB开花量化器(RGB Bloom Quantifier)基于红色通道优势指数(RDI)、自适应阈值、形态学滤波(开闭操作)和轮廓过滤,在中央处理器(CPU)上实现无标注开花计数;(4)大语言模型(LLaMA 3和Google Gemini)通过Ollama本地部署,将开花计数结果转化为劳动力分配、灌溉、施肥和收获调度的建议文本。
**研究结果**
4.1 对比检测结果
通过对比三种监督检测方法(Edge Impulse FOMO、YOLOv8s和瓦片化YOLOv8m),研究人员发现全帧缩放的YOLOv8s在416×416像素输入下召回率极低(mAP@0.5=0.2039,召回率=0.0287),而瓦片化YOLOv8m在验证集上取得了最优性能:mAP@0.5=0.9854,mAP@0.5:0.95=0.7624,精确率=0.9533,召回率=0.9480,测试集上AP@0.5=0.852,最佳F1=0.888,计数指标MAE=94.53,RMSE=156.10,MAPE=4.17%,R2=0.912。这一结果证实了瓦片化策略对密集小目标检测的有效性。
4.2 RGB开花量化器性能与方法对比
RGB开花量化器在密集苗圃图像上达到了93.1%的平均计数准确率,完全运行于CPU,无需标注数据。在六幅测试图像上,预测计数范围1331–2527,地面真值范围1151–2415,绝对误差42–217,平均相对误差9.9%。该方法对高密度(91.2%)、可变光照(94.5%)、混合生长(92.8%)和边缘阴影(89.7%)条件均保持稳定性能,但边缘阴影下准确率最低,表明光照变化是主要局限。
4.3 渐进式性能改进时间线
从FOMO(方法1)到YOLOv8s(方法2)准确率提升4.7倍,再到瓦片化YOLOv8m(方法3)略有下降(0.29倍),最终RGB开花量化器(方法4)准确率提升5.8倍至93.13%。这一进展展示了从轻量原型到混合解决方案的优化路径。
4.4 多模态大语言模型集成结果
将开花计数输入Google Gemini和LLaMA Vision 3.2后,生成的文本在结构、具体性和覆盖范围上存在差异。Gemini建议约20名工人,而LLaMA建议515名工人,表明未约束的大语言模型输出缺乏农学验证。因此,大语言模型层仅作为文本生成接口评估,而非决策支持工具。
**总结与讨论**
讨论部分指出,瓦片化YOLOv8m在密集场景中表现优异,但其依赖标注数据和GPU限制了可扩展性;RGB开花量化器以低成本提供替代方案,但对阴影和重叠敏感。两种方法互补:监督检测适用于高精度需求场景,无监督量化器适用于快速估算。大语言模型的集成增强了框架的可用性,但其建议需结合领域知识验证。当前框架仅基于二维图像,无法感知深度,且未区分开花发育阶段,也未验证跨花色通用性。未来工作将聚焦时间序列分析、三维重建和领域专家验证。
研究结论:本研究提出了一个统一的多模态框架,用于精准农业中的玫瑰开花检测与咨询,结合了无人机成像、深度学习、无监督计算机视觉和大语言模型。监督方法中,瓦片化YOLOv8m取得了mAP@0.5=0.985、召回率>0.94的强劲性能;RGB开花量化器在CPU上达到93.1%准确率,消除了标注和GPU需求。两者互补地解决了准确性和可扩展性的双重挑战。开花计数与本地部署的大语言模型(LLaMA 3和Gemini)集成,可生成劳动力规划、灌溉、施肥和收获调度等实用建议。部署测试表明,量化器可在树莓派和Jetson Nano等低成本平台上运行,适用于资源受限环境。总体而言,本研究发现混合方法(结合监督模型的精度、无监督方法的效率和语言模型的上下文推理)的价值,在提升检测准确性的同时,克服了标注成本、高计算需求和部署可行性等关键障碍。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号