综述:APMI:一种利用Transformer和多尺度反卷积进行鱼类检测的方法
《Aquacultural Engineering》:APMI: A method of fish detection with Transformer and Multi-scale Inverted Convolution
【字体:
大
中
小
】
时间:2026年01月08日
来源:Aquacultural Engineering 4.3
编辑推荐:
多鱼遮挡检测难题,提出APMI模型。通过AggPool模块融合多尺度特征与自适应空间注意力,结合残差平均池化和多尺度卷积增强细粒度特征提取,并采用WloU损失解决样本不平衡问题。实验表明,APMI在ZFD和SKD数据集上分别达到85.64%和84.96%的mAP,显著优于现有方法。
Zibo Feng
中国农业大学数字渔业国家创新中心,北京100083,中国
摘要
准确的鱼类检测对于分析鱼类行为、调节鱼群密度以及降低水产养殖成本至关重要。然而,严重的遮挡现象使得检测多条鱼变得困难。此外,之前的模型忽略了局部空间关系和像素级动态交互的建模。为此,我们构建了两个数据集,并提出了一种针对多鱼场景的定制化新型目标检测架构,称为APMI。具体来说,我们设计了一个名为AggPool的模块,该模块结合了残差平均池化和AggPool注意力机制,以减少高密度鱼类环境中的背景干扰。前者旨在关注局部特征变化并剔除均匀区域中的无效信息;后者通过动态加权每个像素来增强模型在遮挡场景中表示细粒度特征的能力。随后,引入多尺度卷积来提取关键特征,从而更准确地定位被遮挡的目标。此外,我们还开发了反向瓶颈结构,以充分整合长距离空间和位置信息,并高效提取被遮挡鱼类的全局上下文信息。我们采用WloU损失函数作为边界框损失函数,以解决由于鱼类数量差异导致的样本不平衡问题。大量实验表明,APMI在我们自建的数据集上显著优于现有的最先进方法。在ZFD数据集和SKD数据集上,APMI的准确率分别达到了85.64%和84.96%。
本文的研究为水产养殖管理提供了一种高效且准确的鱼类检测解决方案。
引言
鱼类和水产品对全球粮食安全至关重要,并提供了重要的营养来源(Zhao等人,2023年;Saberioon和Císa?,2018年)。联合国粮食及农业组织报告称,鱼类的生产和消费量持续增长(Fisheries等人,2022年)。然而,随着水产养殖业的扩张和鱼类密度的增加,在严重遮挡的环境中检测鱼类的挑战变得更加突出(Córdova等人,2025年;Pargi等人,2022年)。鱼类个体之间的相互遮挡对鱼类识别的准确性构成了重大挑战(Wang等人,2022b年;Wang等人,2025年)。准确识别和定位鱼类目标有助于提高水产养殖操作中的关键过程的精确度和效率,例如生物量估计、自动喂食决策、健康监测和行为分析(Gao等人,2024年;Wu等人,2024年)。此外,通过分析检测数据,可以优化养殖策略,从而提高鱼类健康监测和水产养殖管理的效率(Zhang等人,2025年;Du等人,2023年)。因此,开发高效、准确且自动化的鱼类检测方法至关重要。
传统的鱼类检测方法主要依赖于专家的手动监测和实验室分析,这些方法效率低下、成本高昂且准确性差,难以满足现代水产养殖业的需求(Mei等人,2022年)。随后,研究人员开始利用机器学习进行检测,通常基于颜色、纹理和几何等底层特征(Zhao等人,2021年;Nayan等人,2021年)。例如,Mao等人(2020年)结合了选择性搜索和更快的R-CNN来提高鱼类检测的准确性。Rao等人(2021年)应用DPM在水下视频中检测鱼类,并讨论了其在水产养殖中的潜在应用。然而,机器视觉通常需要大量的先验知识,而手动提取的特征使得难以准确检测被严重遮挡的鱼类。
最近,由于深度学习强大的表示学习能力,它在目标检测任务中占据了主导地位(Zhao等人,2024b年;Hou等人,2024年)。与传统算法相比,深度学习可以自动提取特征信息而无需专家协助。目标检测通常分为两类:单阶段检测(如SSD(单次检测多框检测器)(Liu等人,2016年)、YOLO(你只看一次)(Wang等人,2022a年;Liu等人,2024年)和两阶段检测(如R-CNN(基于区域的卷积神经网络)、Faster R-CNN(Ren等人,2017年)。最近关于两阶段检测的研究集中在改进特征提取和上下文表示上,以提高检测性能。例如,Yang等人(2023年)提出了一个3DF-FCOS网络,该网络结合了全局空间块和3D稀疏卷积,以更好地捕获全局和上下文信息。Sun等人(2025年)引入了随机向量功能链接网络,以提高Faster R-CNN在水下鱼类识别中的性能。两阶段检测在准确捕获和识别小型目标方面存在困难,并且在适应不同场景时表现不佳。相比之下,单阶段检测在渔业检测领域取得了出色的成果,因为其架构更简单、推理速度更快、准确性更高。
其中,YOLOv8以其通过特征融合策略和多尺度检测机制有效捕获空间和语义信息的能力而闻名。为了提高检测准确性,Li等人(2025年)整合了ASFF模块,实现了从0.846到0.877的mAP提升,仅使用了2.27M参数。Chen等人(2023年)使用DGhost优化了网络,并采用了SE注意力模块,将水下数据集的鱼类检测mAP从92.6%提高到93.2%。另一个方向是,研究人员通过引入注意力机制来增强特征表示,以自适应选择重要区域并提高不同目标的检测能力。Liu等人(2025年)设计了一种基于运动的去模糊方法,为仿生机器鱼的自主视觉目标跟踪提供增强图像。不幸的是,上述方法主要集中在特征提取能力的设计上,而忽略了目标像素之间的空间特征关系和动态建模。这有助于挖掘关于被遮挡目标的细粒度信息和自适应输入图像。
我们提出了APMI,这是一种针对多鱼检测的定制化有效模型,旨在减少严重的遮挡效应,并在高密度水域环境中最佳运行。该模型通过结合不同层次上下文信息和注意力机制的优势,增强了细粒度特征的表示能力。具体来说:(1)提出了AggPool模块作为YOLOv8的骨干,以在不同尺度上捕获高分辨率的详细特征和低分辨率的语义信息;(2)为了解决遮挡问题,设计了残差平均池化机制,以关注局部特征变化并抑制均匀区域中的无效信息;此外,引入了AggPool注意力机制,通过自适应空间加权来增强细粒度信息的表示性能;(3)我们利用深度卷积与多尺度卷积以及反向瓶颈设计,充分整合了长距离空间和位置信息,从而更深入地理解遮挡场景中鱼类的语义和空间关系。此外,采用WloU作为边界框损失函数,以解决由于鱼类数量差异导致的样本不平衡问题。APMI提高了具有多种形态的多鱼的全局和局部特征的提取能力。我们的创新点和贡献如下:
- 我们提出了一种名为APMI的新型多鱼检测模型,该模型继承了多尺度感受野和注意力的优点,以增强多鱼表示能力。
- 我们设计了Aggpool模块,通过自适应空间加权和残差平均池化来关注细粒度语义信息,同时忽略冗余特征。
- 我们引入了多尺度反向卷积(MI Conv),以充分混合长距离空间和位置信息,并有效提取全局上下文信息。
- 大量实验表明,APMI在定性和定量指标上均取得了最佳性能。
材料与方法
用于分析和实验的数据在第2.1节中介绍。随后,在第2.2.1节中简要概述了原始的YOLOv8。第2.2.2节提供了APMI的详细整体架构。最后,在第2.2.3节和第2.2.4节分别描述和分析了AggPool注意力和多尺度反向卷积。
实验
我们评估了我们的多鱼检测方法。首先,在第3.1节中描述了实现细节和评估指标。然后,在第3.2节中将结果与现有最先进方法进行了比较。最后,在第3.3节中进行了一系列消融研究,以验证注意力机制和多尺度特征在检测高密度被遮挡鱼类方面的效果。
结论与局限性
基于YOLOv8模型,我们提出了一种用于多鱼检测的新型目标检测架构,称为APMI。Aggpool模块结合了AggPool注意力和残差平均池化,进一步提取了细粒度语义信息并忽略了无用特征。AggPool注意力的引入使得可以通过自适应空间加权学习每个像素的信息,从而增强空间关系的表示能力。此外,多尺度反向卷积可以有效地
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号