《Agriculture》:Research on Detection and Picking Point of Lychee Fruits in Natural Scenes Based on Deep Learning
Jing Chang and
Sangdae Kim
编辑推荐:
中国是荔枝主要生产国之一,果实质地柔软、体积小且果皮薄,使得非破坏性机器人采收面临极大挑战。在自然果园环境中实现自动化采收,关键在于精确果实检测、枝条分割及采摘点定位。本研究提出一种集成感知框架,结合目标检测、基于密度的聚类与语义分割技术。研究开发了基于改进Y
中国是荔枝主要生产国之一,果实质地柔软、体积小且果皮薄,使得非破坏性机器人采收面临极大挑战。在自然果园环境中实现自动化采收,关键在于精确果实检测、枝条分割及采摘点定位。本研究提出一种集成感知框架,结合目标检测、基于密度的聚类与语义分割技术。研究开发了基于改进YOLO11s的检测网络,引入SimAM注意力机制、CMUNeXt特征增强模块及MPDIoU损失函数,以提升在光照变化、遮挡及尺度变化下的鲁棒性。该检测器精度达84.3%,召回率73.2%,mAP 81.6%,优于基线模型。采用基于密度的聚类方法将检测结果分组为果簇,对比实验表明MeanShift聚类一致性最高,平均调整兰德指数(ARI)为0.768,优于k-means等基线。设计了改进的DeepLab v3+语义分割网络,采用ResDenseFocal骨干与Focal Loss,用于复杂背景下枝条的精确提取。最后,结合检测、聚类与枝条分割结果,在图像坐标系中制定基于几何规则的采摘点定位算法。实验验证表明,该框架可在自然果园条件下可靠定位二维图像中的采摘点,为智能荔枝采摘提供了实用的感知解决方案,并为未来三维机械臂操作与田间部署奠定了基础。
荔枝作为中国亚热带地区的重要经济作物,其采摘作业具有极强的时间敏感性,而传统人工采摘成本高昂且机械化程度不足。现有研究多集中于单果或密集果簇的检测,对于空间分布分散、采摘点位于挂果枝条上的果簇关注有限,且常将检测与分割任务独立处理,缺乏统一的感知框架。为此,研究人员构建了从目标检测到采摘点定位的完整技术路线,旨在解决复杂果园环境下荔枝机器人的视觉感知难题。该研究发表于《Agriculture》期刊。
关键技术方法包括:构建包含近、中、远距离共1744幅图像的荔枝数据集并进行数据增强;采用改进YOLO11s架构(YOLO?SCM)进行果实检测,引入SimAM注意力、CMUNeXt模块及MPDIoU损失;利用MeanShift密度聚类算法对检测结果进行果簇划分;采用改进DeepLab v3+网络进行枝条语义分割;最终基于几何规则融合多模态信息实现采摘点定位。
研究结果如下:
1. 引言
研究人员指出,中国水果采摘劳动力成本占总生产成本约35%–40%,而综合机械化率仅为2.33%。荔枝因果实柔软、易损伤,其机器人采摘极具挑战性。现有研究缺乏对分散果簇的有效处理,且检测与分割任务往往割裂,导致采摘点定位精度不足。因此,构建统一的感知框架以实现复杂环境下的可靠采摘成为迫切需求。
2. 材料与方法
2.1 系统概述
研究提出了集成果实检测、密度聚类、枝条分割与采摘点定位的一体化框架。输入为RGB图像,输出为各果簇在图像坐标系下的二维采摘点坐标。
2.2 数据采集
研究人员于2025年5月至6月在广州从化区果园采集原始图像,使用尼康D750与华为智能手机,拍摄距离50–150?cm,涵盖晴天顺光、逆光及阴天多角度场景。经筛选获得1744幅有效图像,包含糯米糍、桂味、妃子笑等品种。数据集按7:2:1划分为训练集、验证集与测试集,并利用Roboflow工具通过旋转、翻转、加噪、模糊等手段将数据扩充至5232幅。
2.3 基于YOLO11s的荔枝检测与定位
针对自然场景中果实簇生、遮挡及颜色纹理相似等问题,研究人员提出YOLO?SCM模型。该模型在主干网络中引入融合通道与空间注意力的SimAM机制替代原C2PSA模块,利用CMUNeXt的大核深度可分离卷积增强几何特征感知,并以MPDIoU损失函数替代CIoU损失,有效提升了小目标检测精度与收敛速度。同时,通过减少主干网络下采样次数并重构检测头(步长8、16、32像素),降低了模型深度与计算复杂度。
2.4 基于聚类的优先采摘区域确定
2.4.1 k?Means聚类分析
针对k?means对初始质心敏感的问题,研究人员设计了结构化初始化策略:先求取最大包围框确定整体范围(k=1),再按垂直与水平方向递归二分划分区域(k=2、4…),直至聚类结果符合果实空间分布特征。
2.4.2 密度聚类分析
采用MeanShift算法对远距离图像中的果实进行聚类。相比k?means,MeanShift无需预设k值,通过自适应调整带宽参数即可识别任意形状的果簇分布,更适合果园复杂场景。
2.5 基于语义分割算法的荔枝枝条分割
针对枝条细长、占像素少且易受背景干扰的问题,研究人员改进了DeepLab v3+网络,设计ResDenseFocal骨干网络以强化浅层细节与深层语义的融合,并结合Focal Loss缓解类别不平衡,实现了对挂果枝条的精细像素级分割。
2.6 荔枝采摘点的定位
研究人员首先依据聚类结果计算各果簇的最大外接矩形,随后结合枝条语义分割掩膜,在图像坐标系中基于几何关系求解最优切割点,完成采摘点定位。
3. 讨论
研究结果表明,YOLO?SCM模型在复杂光照与遮挡条件下的检测性能显著优于基线模型,验证了SimAM与CMUNeXt模块的有效性。在聚类任务中,MeanShift凭借其自适应的带宽选择机制,在处理不规则果簇分布时表现出更高的稳定性与一致性(ARI=0.768)。此外,改进后的DeepLab v3+网络能够准确提取细粒度枝条结构,为后续几何计算提供了可靠的语义信息。该技术路线成功打通了“检测—聚类—分割—定位”的全链路,证明了基于二维视觉信息实现高精度采摘点定位的可行性,为后续三维重建与机械臂运动规划奠定了坚实基础。
4. 结论
本研究提出了一种面向自然果园环境的荔枝采摘机器人视觉感知框架。通过构建专用数据集并改进YOLO11s(YOLO?SCM),实现了高精度果实检测;利用MeanShift密度聚类确定了最优采摘序列;设计改进DeepLab v3+网络完成了挂果枝条的精细分割;最终融合多源信息实现了采摘点的精准定位。该方法为智能荔枝采摘提供了有效的感知解决方案,具有重要的农业工程应用价值。