
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于YOLOv8架构的PodNet模型实现大豆田间实时实例分割:低成本高通量表型分析新策略
【字体: 大 中 小 】 时间:2025年06月16日 来源:Plant Phenomics 7.6
编辑推荐:
为解决大豆田间豆荚表型性状非侵入式分析难题,中国农业科学院团队创新性提出PodNet模型。该研究通过视频采集-自动帧筛选-LVM辅助标注流程构建含20k标注的田间大豆数据集,开发基于YOLOv8的轻量化实例分割模型,引入分层原型聚合策略(HPA)和U-EMA原型生成网络,实现mAP@50达0.786的实时分割性能,为作物育种提供首个可部署于边缘设备的田间豆荚表型分析方案。
在作物育种领域,大豆(Glycine max)作为重要油料作物,其豆荚表型特征直接影响产量和品质。然而传统测量方法依赖人工,存在效率低、主观性强等问题。尽管深度学习技术已在实验室环境取得进展,但现有研究多基于收获后材料或室内场景,难以适应田间复杂条件。更关键的是,基于矩形边界框(bbox)的检测方法在密集种植场景会产生大量重叠检测框,严重影响单荚统计分析。这些瓶颈使得田间豆荚的高通量表型分析成为亟待突破的科学难题。
中国农业科学院团队在《Plant Phenomics》发表的研究中,提出首个适用于收获前田间的实时豆荚实例分割方案。研究人员创新性地采用智能手机视频采集+自动帧筛选工作流,结合Segment Anything模型(ViT-Base Quant)辅助标注,构建包含488张图像、20k标注掩模的田间大豆数据集。基于YOLOv8-nano架构开发的PodNet模型,通过分层原型聚合(Hierarchical Prototype Aggregation, HPA)策略融合P3-P5多尺度特征,设计U形解码器与高效多尺度注意力(U-EMA)网络提升小目标分割性能。
关键技术方法包括:1) 基于无参考图像质量评估(NR-IQA)的视频帧自动筛选;2) 大视觉模型(LVM)辅助的密集标注流程;3) 原型线性组合的轻量化实例分割框架;4) 多尺度特征融合的HPA策略;5) 结合EMA注意力的U形解码器设计。实验使用NVIDIA RTX 2070和Jetson AGX Orin平台验证实时性。
【Field soybean pod instance segmentation dataset】
通过侧视视频采集+白色背景板方案,构建包含1402段视频(127分钟)的原始数据。采用图像清晰度、边缘锐度等NR-IQA指标筛选,最终获得488张高质量图像(训练集406/验证集47/测试集35)。LVM辅助标注使单图标注时间从10.2分钟降至6.5分钟,平均每图含56个豆荚实例。
【PodNet architecture】
模型在YOLOv8-nano基础上创新:1) HPA策略通过并行转置卷积(convT)融合P3(24通道)、P4(6通道)、P5(2通道)特征;2) U-EMA Protonet采用最近邻插值上采样,保留EMA模块建立跨空间依赖。消融实验显示,该设计使mAP@50提升2.5%至0.786。
【Performance evaluation】
在遮挡、光照变化等复杂场景下,PodNet展现出优于基线模型的分割效果。对无背景板图像的测试表明其良好泛化性,在Jetson边缘设备实现32ms/帧的实时推理。失败案例多集中于病害荚果和重度遮挡目标,反映数据分布的局限性。
该研究的突破性体现在三方面:首先,视频采集+LVM标注的工作流将田间作物数据集构建成本降低36%;其次,HPA策略通过24:6:2的通道配比实现多尺度特征最优融合;最后,U-EMA结构在仅增加0.3M参数前提下,显著提升小目标分割精度。这些创新为作物器官尺度表型分析提供了可扩展的技术框架,未来可通过多模态传感进一步解决叶片遮挡问题。研究开源的20k标注数据集,更为智慧农业领域的算法研发提供了宝贵资源。
生物通微信公众号
知名企业招聘