《Artificial Intelligence in Agriculture》:EDSC-HRAFNet: An apple tree branch semantic segmentation model for harvesting robots under complex orchard conditions
编辑推荐:
本研究针对复杂果园环境中苹果树枝语义分割精度低、适应性差的问题,提出了一种融合增强动态蛇形卷积(EDSC_unit)与高分辨率网络(HRNet)的EDSC-HRAFNet模型。通过设计异构特征金字塔(HeteroFPN)和并行多尺度解码器(Parallel-M4 Decoder),显著提升了分支拓扑结构感知能力,在八类复杂场景下实现了91.50%的精确度、91.71%的召回率和84.51%的交并比(IoU),为农业机器人自动化作业提供了可靠技术支撑。
随着全球农业劳动力短缺问题日益严峻,果实在采摘环节的浪费现象对季节性水果产业造成巨大经济负担。传统果园环境中,苹果树枝的形态复杂、空间分布不规则,且受光照变化、枝叶遮挡、多品种差异等因素干扰,导致采摘机器人难以实现精准的环境感知。现有基于卷积神经网络(CNN)的分割方法在纤细分支结构检测上存在连续性差、拓扑特征捕捉能力不足等局限,严重制约了自动化采摘效率。
为突破这一瓶颈,上海交通大学机械工程学院振动、冲击、噪声研究所的刘正阳、冯青春等人提出了一种面向复杂果园条件的苹果树枝语义分割模型EDSC-HRAFNet。该研究通过构建包含多品种、多光照、多视角的增强数据集,创新性地将动态蛇形卷积(Dynamic Snake Convolution, DSC)模块嵌入高分辨率网络(HRNet)主干,使模型能够自适应聚焦于树枝分叉点等关键拓扑结构。同时,设计异构特征金字塔(HeteroFPN)实现语义与位置信息的双路径协同交互,并采用并行多尺度解码器(Parallel-M4 Decoder)优化极端尺度特征的完整性。相关成果发表于《Artificial Intelligence in Agriculture》。
关键技术方法包括:基于HRNet的并行多分辨率特征提取框架、动态蛇形卷积(DSC)的迭代偏移机制、异构特征金字塔(HeteroFPN)的双路径特征增强策略,以及融合扩张卷积(Dilated Convolution)和条带池化(Strip Pooling)的并行解码器设计。实验使用来自多个果园的2586张原始图像,通过强化学习生成极端光照模拟场景,最终扩展至10000张训练样本。
2.1 数据采集与预处理
研究采用北京农林科学院设计的苹果采摘机器人平台,通过机械臂搭载工业相机实时捕获果园图像。数据集覆盖红富士、青苹果等主流品种,包含直立枝、下垂枝、交叉缠绕枝等复杂形态,并涵盖强光、黄昏弱光、树荫斑驳光照及雨雾天气等极端条件。标注工作仅针对影响机械臂操作的树干、主枝及部分二级粗枝进行多边形标注,生成VOC格式掩膜标签。
2.2 模型架构设计
EDSC-HRAFNet由主干网络(Backbone)、颈部网络(HeteroFPN)和头部解码器(Parallel-M4 Decoder)三部分构成。主干网络通过四阶段(Stage)串联结构维持多分辨率特征流,在浅层嵌入EDSC_unit模块以增强对弯曲分支的几何感知;颈部网络通过双路径特征传递机制(自上而下语义增强与自下而上定位优化)提升多尺度特征融合效果;头部解码器对高、中、低三级特征分别进行并行处理,通过改进的空洞空间金字塔池化(IASPP)模块整合全局上下文信息。
3.1 性能评估
在八类复杂场景测试中,模型在暗光环境下表现最优(IoU达91.21%),在黄苹果场景中受颜色干扰性能略有下降(IoU为78.62%)。与HRNet相比,精确度、召回率、IoU分别提升6.98%、10.09%和13.50%。横向对比显示,该模型在PSPNet、DeepLabv3+、U-Net等主流分割模型中均取得显著优势。
3.2 泛化能力验证
通过柠檬树、梨树、桃树等非训练集树种测试,模型在IoU、精确度等核心指标上仅较原始测试集下降2.15%~8.35%,证明其具有较强的跨域适应性。
4. 结论与展望
EDSC-HRAFNet通过动态拓扑特征提取与多尺度信息融合,有效解决了复杂果园环境中树枝分割的连续性差、细节丢失等问题。其优异的性能为采摘机器人提供了精准的环境感知方案,推动了农业自动化向实用化迈进。未来工作将聚焦于模型在嵌入式设备上的轻量化部署,进一步优化实时性表现。