Ros-AI：一种基于大语言模型增强的可扩展多模态框架，用于精准农业中基于无人机的玫瑰开花分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Smart Agricultural Technology》：Ros-AI: An LLM-enhanced scalable multimodal framework for UAV-based rose bloom analysis in precision agriculture

【字体：大中小】 时间：2026年06月09日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　准确检测玫瑰开花对苗圃管理至关重要，但由于花朵尺寸小、密集聚集以及无人机图像中频繁遮挡，这一任务依然困难。本研究提出了一种多模态框架，结合了监督深度学习、无监督计算机视觉和大语言模型（LLMs）来克服这些挑战。无人机（UAV）飞行捕获了玫瑰苗圃的高分辨率RGB

准确检测玫瑰开花对苗圃管理至关重要，但由于花朵尺寸小、密集聚集以及无人机图像中频繁遮挡，这一任务依然困难。本研究提出了一种多模态框架，结合了监督深度学习、无监督计算机视觉和大语言模型（LLMs）来克服这些挑战。无人机（UAV）飞行捕获了玫瑰苗圃的高分辨率RGB图像。在监督方法中，基于瓦片（tile）的YOLOv8m模型结合滑动窗口推理取得了强劲性能（mAP@0.5 = 0.985，召回率 = 0.948），确认了瓦片化对于小目标检测的价值。为支持低成本部署，研究人员将无标注的RGB开花量化器（RGB Bloom Quantifier）与瓦片化YOLOv8m并排评估，该量化器采用动态红色通道阈值分割、形态学滤波和轮廓分析，在完全运行于中央处理器（CPU）硬件的情况下达到93.1%的准确率，消除了对训练数据或图形处理器（GPU）的需求。来自两条管道的开花计数结果与本地部署的大语言模型（LLaMA 3和Gemini）集成，生成关于劳动力分配以及灌溉、施肥和收获调度的咨询输出。结果表明，监督方法和无监督方法相互补充：YOLO确保准确性，而量化器则实现可扩展的低成本部署。本研究展示了如何将监督检测、无监督计数和基于大语言模型的摘要相结合，用于实用的玫瑰开花监测。

**论文解读**
**研究背景、问题与动机**
玫瑰开花监测是苗圃管理的核心任务，因为开花数量直接影响收获调度、劳动力规划和生产预测。然而，在大型苗圃中进行人工计数耗时、劳动密集且容易出错。在无人机（UAV）图像中，玫瑰开花常表现为小尺寸、密集聚集和部分遮挡的目标，这使得自动检测更加困难。现有的监督深度学习方法虽然性能良好，但需要大量标注数据和图形处理器（GPU）硬件，增加了部署成本和复杂性。此外，密集场景中成百上千的小花朵导致严重遮挡和重叠，进一步降低检测精度。因此，亟需一种在准确性、计算效率和标注需求之间取得平衡的可扩展检测系统。研究人员提出了一种混合框架，结合监督学习、无监督计算机视觉和大语言模型（LLMs），旨在解决上述挑战，为精准农业中的玫瑰开花监测提供实用且可部署的解决方案。该论文发表在《Smart Agricultural Technology》。
**主要关键技术方法**
本研究采用的关键技术方法包括：（1）无人机（UAV）平台搭载RGB传感器，从商业玫瑰苗圃采集高分辨率正射影像（5280×3956像素），筛选后保留168幅场景，并按70%、20%、10%比例划分为训练、验证和测试集；（2）监督检测使用瓦片化YOLOv8m（YOLOv8-medium）模型，将全分辨率图像分割为512×512重叠瓦片（重叠率25%），结合滑动窗口推理和多重非极大值抑制（NMS）及加权框融合（WBF）进行后处理；（3）无监督RGB开花量化器（RGB Bloom Quantifier）基于红色通道优势指数（RDI）、自适应阈值、形态学滤波（开闭操作）和轮廓过滤，在中央处理器（CPU）上实现无标注开花计数；（4）大语言模型（LLaMA 3和Google Gemini）通过Ollama本地部署，将开花计数结果转化为劳动力分配、灌溉、施肥和收获调度的建议文本。
**研究结果**
4.1 对比检测结果
通过对比三种监督检测方法（Edge Impulse FOMO、YOLOv8s和瓦片化YOLOv8m），研究人员发现全帧缩放的YOLOv8s在416×416像素输入下召回率极低（mAP@0.5=0.2039，召回率=0.0287），而瓦片化YOLOv8m在验证集上取得了最优性能：mAP@0.5=0.9854，mAP@0.5:0.95=0.7624，精确率=0.9533，召回率=0.9480，测试集上AP@0.5=0.852，最佳F1=0.888，计数指标MAE=94.53，RMSE=156.10，MAPE=4.17%，R2=0.912。这一结果证实了瓦片化策略对密集小目标检测的有效性。
4.2 RGB开花量化器性能与方法对比
RGB开花量化器在密集苗圃图像上达到了93.1%的平均计数准确率，完全运行于CPU，无需标注数据。在六幅测试图像上，预测计数范围1331–2527，地面真值范围1151–2415，绝对误差42–217，平均相对误差9.9%。该方法对高密度（91.2%）、可变光照（94.5%）、混合生长（92.8%）和边缘阴影（89.7%）条件均保持稳定性能，但边缘阴影下准确率最低，表明光照变化是主要局限。
4.3 渐进式性能改进时间线
从FOMO（方法1）到YOLOv8s（方法2）准确率提升4.7倍，再到瓦片化YOLOv8m（方法3）略有下降（0.29倍），最终RGB开花量化器（方法4）准确率提升5.8倍至93.13%。这一进展展示了从轻量原型到混合解决方案的优化路径。
4.4 多模态大语言模型集成结果
将开花计数输入Google Gemini和LLaMA Vision 3.2后，生成的文本在结构、具体性和覆盖范围上存在差异。Gemini建议约20名工人，而LLaMA建议515名工人，表明未约束的大语言模型输出缺乏农学验证。因此，大语言模型层仅作为文本生成接口评估，而非决策支持工具。
**总结与讨论**
讨论部分指出，瓦片化YOLOv8m在密集场景中表现优异，但其依赖标注数据和GPU限制了可扩展性；RGB开花量化器以低成本提供替代方案，但对阴影和重叠敏感。两种方法互补：监督检测适用于高精度需求场景，无监督量化器适用于快速估算。大语言模型的集成增强了框架的可用性，但其建议需结合领域知识验证。当前框架仅基于二维图像，无法感知深度，且未区分开花发育阶段，也未验证跨花色通用性。未来工作将聚焦时间序列分析、三维重建和领域专家验证。
研究结论：本研究提出了一个统一的多模态框架，用于精准农业中的玫瑰开花检测与咨询，结合了无人机成像、深度学习、无监督计算机视觉和大语言模型。监督方法中，瓦片化YOLOv8m取得了mAP@0.5=0.985、召回率>0.94的强劲性能；RGB开花量化器在CPU上达到93.1%准确率，消除了标注和GPU需求。两者互补地解决了准确性和可扩展性的双重挑战。开花计数与本地部署的大语言模型（LLaMA 3和Gemini）集成，可生成劳动力规划、灌溉、施肥和收获调度等实用建议。部署测试表明，量化器可在树莓派和Jetson Nano等低成本平台上运行，适用于资源受限环境。总体而言，本研究发现混合方法（结合监督模型的精度、无监督方法的效率和语言模型的上下文推理）的价值，在提升检测准确性的同时，克服了标注成本、高计算需求和部署可行性等关键障碍。

联系信箱：

粤ICP备09063491号

热点排行