《Frontiers in Plant Science》:Large language model assisted decision support framework for uncertainty aware detection and management of tomato lateral shoots
编辑推荐:
准确的番茄侧枝识别对于温室生产中的自动化修剪和植株监测至关重要。然而,复杂的光照、叶片遮挡和形态变异常常降低光学视觉系统的检测可靠性。本研究提出了一种基于光学视觉的框架,该框架将深度学习感知与大语言模型(LLM)辅助的修剪决策支持相结合。研究人员利用温室环境中
准确的番茄侧枝识别对于温室生产中的自动化修剪和植株监测至关重要。然而,复杂的光照、叶片遮挡和形态变异常常降低光学视觉系统的检测可靠性。本研究提出了一种基于光学视觉的框架,该框架将深度学习感知与大语言模型(LLM)辅助的修剪决策支持相结合。研究人员利用温室环境中的RGB成像构建了番茄侧枝图像数据集。开发了带有卷积块注意力模块(CBAM)的轻量级YOLOv8n实例分割模型以增强特征表示。应用数据增强策略模拟光照变化并提高模型鲁棒性。使用主成分分析(PCA)和梯度加权类激活映射(Grad-CAM)分析模型可解释性。实验结果表明,所提出的YOLOv8n-seg+CBAM模型在仅3.28M参数和每张图像8.0 ms平均推理时间下实现了98.1%的mAP0.5。进一步引入蒙特卡洛Dropout(Monte Carlo Dropout)来估计切割点的空间不确定性。将这些结构化感知特征输入大语言模型(LLM),实现上下文感知的修剪决策辅助。所提出的框架将基于视觉的侧枝检测、不确定性估计和LLM辅助推理集成到统一的流程中,与仅基于视觉的方法相比,在温室环境中实现了更可靠的修剪决策并提高了安全性和鲁棒性。
番茄(*Solanum lycopersicum*)是全球高价值作物,其侧枝从叶腋萌发,若未及时修剪会消耗30%–40%的光合产物,导致果实生长受阻、糖含量下降及花果脱落。传统人工修剪效率低且难以规模化,而中国年产番茄6500万吨占全球35%,亟需自动化修剪技术。现有基于计算机视觉的侧枝检测方法(如Mask R-CNN、YOLOv5等)在温室复杂光照、叶片遮挡及形态变异的条件下可靠性不足,且多数研究聚焦于单一感知任务,缺乏从检测结果到修剪决策的可靠转换。为此,研究人员提出集成深度学习感知、不确定性估计与大语言模型(LLM)辅助决策的统一框架,旨在提高修剪决策的安全性与鲁棒性。该研究发表在《Frontiers in Plant Science》。
关键技术方法:研究基于沈阳农业大学温室基地(坐标41°49′N, 123°33′E)采集的1130张RGB图像(分辨率2736×2736像素),构建番茄侧枝像素级标注数据集。采用YOLOv8n-seg作为基线模型,并嵌入卷积块注意力模块(CBAM)增强通道与空间特征融合。通过亮度调整、色彩扰动、旋转、翻转等数据增强模拟环境变化。利用蒙特卡洛Dropout(Monte Carlo Dropout, MC Dropout)在推理阶段对切割点进行多次随机采样并计算空间分布方差以量化不确定性。将侧枝长度、切割点不确定性(U
i)及遮挡率(O
i)组成结构化特征向量,输入至阿里云通义千问-Plus(Qwen-Plus)大语言模型进行语义分析与修剪决策建议。
研究结果:
**模型性能比较实验**:在相同数据集下对比Mask R-CNN、Cascade-Mask-RCNN、YOLOv11s-seg、YOLOv11n-seg及YOLOv8n-seg。YOLOv8n-seg在mAP
0.5(97.4%)、mAP
0.5-0.95(54.6%)上优于两阶段模型,同时参数量仅3.3M,推理速度达101.1帧/秒。相较于YOLOv11n-seg(参数2.83M但精度96.7%),YOLOv8n-seg在精度与轻量化间取得更优平衡。
**注意力机制消融实验**:在YOLOv8n-seg基础上分别引入SE、ECA及CBAM注意力模块。CBAM通过同时优化通道与空间注意力,使mAP
0.5提升至97.7%,推理速度117帧/秒,且训练曲线更平稳,收敛速度更快。SE与ECA仅聚焦通道维度,导致精度轻微下降(97.1%、97.2%)。
**可解释性分析**:采用主成分分析(PCA)对高维特征降维可视化,原始模型特征点分散、聚类不明,而加入CBAM后特征点呈现清晰聚类与层次化分布,表明模型有效捕捉侧枝关键结构特征。梯度加权类激活映射(Grad-CAM)热图显示,原始模型高响应区域分散于背景,加入CBAM后热图准确聚焦于主茎与侧枝连接处,背景激活显著抑制,证实CBAM提升了特征聚焦能力。
**切割点不确定性量化**:基于MC Dropout对每张图像进行20次随机前向推理,提取侧枝骨架并施加安全距离约束,计算切割点坐标的标准差并转换为空间不确定性(U
i)。U
i值越大,表明定位越不稳定,需触发人工审查或拒绝自动修剪。
**LLM辅助决策框架**:将侧枝长度(L
i)、U
i及遮挡率O
i输入LLM,LLM输出修剪决策及置信度。在81个侧枝实例上对比规则法(长度阈值30–80 mm区间保守判定为“不剪”)与LLM辅助法。规则法精确率81%、召回率48%、F1-score 60%;LLM辅助法召回率提升至78%、F1-score 76%,且仅30.9%的样本仍需人工干预(规则法需100%处理区间内样本)。LLM辅助法平均每实例处理时间4.11秒。
**总结与讨论**:本研究构建了番茄侧枝数据集,通过数据增强与CBAM注意力机制使YOLOv8n-seg+CBAM模型在NVIDIA RTX 4060 GPU上实现mAP
0.5 97.7%、单图推理8.0 ms。引入MC Dropout量化切割点不确定性,结合LLM实现上下文感知决策,较纯规则法显著提升决策自动化水平与可靠性。但数据集仅来自单一品种与可控温室环境,未来需扩展品种与生长条件以提升泛化能力;并将整合切割点定位与机械臂控制,实现完全自动化修剪。