
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于掩码自注意力混合监督学习的菠萝实例分割网络与机械化采收应用
【字体: 大 中 小 】 时间:2025年06月03日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
为解决复杂果园环境下菠萝实时精准定位与几何信息提取难题,研究团队提出MAISNet(Masked Self-Attention Instance Segmentation Network),通过掩码自注意力模块和混合监督学习策略,在YOLOv8基础上实现实时实例分割,并发布首个精细化标注的菠萝检测数据集。该方法在边缘设备验证中显著降低机械采收损伤率,为农业自动化提供新范式。
菠萝采收的智能化困境与破局
在热带农业中,菠萝因其高经济价值成为重要作物,但人工采收面临劳动力短缺、叶片划伤、采收窗口期短等严峻挑战。传统机械采收仅依赖目标检测框定位,无法获取果实姿态与轮廓信息,导致机械臂抓取时损伤率高达30%。更棘手的是,果园环境存在光照变化、叶片遮挡和背景干扰,现有算法难以兼顾实时性与精度——这正是制约农业自动化落地的核心瓶颈。
针对这一难题,中国热带农业科学院的研究团队在《Engineering Applications of Artificial Intelligence》发表突破性成果。他们创新性地将实例分割技术引入菠萝采收领域,开发出MAISNet网络。该研究通过三个关键技术实现突破:首先采用YOLOv8作为基线模型保障实时性;其次设计掩码自注意力模块过滤背景干扰;最后提出混合监督学习策略,利用高斯分布生成弱标签缓解标注负担。实验证明,该方法在自建的776张果园图像数据集上AP50达到92.3%,推理速度达47 FPS,较传统方法降低21%的果实损伤。
方法创新:速度与精度的平衡术
研究团队从机械臂实际作业需求出发,构建了"检测-分割-定位"的全新框架。核心技术包括:(1)基于YOLOv8的单阶段实例分割架构,避免Mask R-CNN的多阶段计算冗余;(2)在特征金字塔嵌入掩码自注意力模块,通过空间权重聚焦果实区域;(3)混合监督学习引入标签不确定性,提升对遮挡样本的鲁棒性。数据集采集自广东徐闻333,000 m2菠萝田,涵盖晨昏时段、多角度拍摄的复杂场景。
结果突破:从实验室到田间的跨越
数据构建
发布的全球首个菠萝实例分割数据集包含手工标注的3,821个实例,采用多边形顶点标注替代传统矩形框,为轮廓分析提供基础。
模块验证
消融实验显示,掩码自注意力使FPN(特征金字塔网络)的特征融合效率提升18%,混合监督策略在30%遮挡情况下召回率提高9.2%。
性能对比
在RTX 3060显卡上,MAISNet以47 FPS速度实现AP50-95达67.8%,较Mask R-CNN快3.2倍且精度提升5.4%。机械臂抓取实验证实,基于轮廓最低点定位的采收方案使损伤率从26.7%降至5.3%。
范式转变与农业未来
该研究首次将实例分割的精细轮廓分析引入水果采收领域,突破了传统检测框仅能提供粗定位的局限。MAISNet的创新在于:通过注意力机制实现计算资源的精准分配,使边缘设备部署成为可能;混合监督学习缓解了农业图像标注成本高的痛点。更重要的是,研究提出的"几何信息直接驱动机械动作"范式,为番茄、柑橘等易损水果采收提供了普适性解决方案。正如作者Zhe Shan在讨论部分指出,这项技术将推动农业自动化从"看得见"向"抓得准"跨越,为应对全球农业劳动力危机提供关键技术支撑。
生物通微信公众号
知名企业招聘