MDFNet:结合多尺度特征与动态注意力机制实现水下鱼类计数

《Ecological Indicators》:MDFNet: Integrating multiscale features and dynamic attention for underwater fish counting

【字体: 时间:2025年12月17日 来源:Ecological Indicators 7.4

编辑推荐:

  鱼群计数框架提出多尺度特征融合、动态注意力优化和噪声抑制模块,有效解决重叠、尺寸差异和复杂背景问题,显著提升计数准确性和鲁棒性,并在两个数据集验证优越性。

  
该研究针对水下鱼群计数中存在的体形差异、遮挡现象和复杂背景干扰三大核心挑战,提出基于卷积神经网络(CNN)与注意力机制融合的MDFNet模型。该框架通过三阶段特征优化系统,在密集鱼群场景下展现出显著优势,为水产养殖和生态监测提供了高精度解决方案。

### 1. 鱼群计数的技术挑战与解决方案
水下鱼群计数面临三大技术瓶颈:其一,鱼群密度过高导致个体遮挡,传统检测方法易将重叠区域误判为单一鱼体;其二,水下光照条件复杂且鱼体尺寸差异显著,标准卷积核难以捕捉不同距离物体的特征;其三,水体浑浊和藻类覆盖等环境干扰常引发误检。针对这些痛点,研究团队创新性地构建了包含多尺度特征融合、动态注意力优化和噪声抑制三重机制的智能计数系统。

多尺度特征融合模块(MFM)采用阶梯式卷积策略,通过7×7、11×11、21×21三种不同尺寸的卷积核并行处理输入图像。这种设计突破了传统单一卷积核的局限性,既能捕捉近处大尺寸鱼体的细节特征,又能有效识别远处微小鱼体的轮廓。实验表明,相较于仅使用5×5或11×15单一尺寸核的模型,采用混合尺寸核组的MFM可使密集鱼群检测的MAE降低18.7%,尤其在CCD数据集中,对小型鱼体的识别准确率提升达26.3%。

动态注意力优化模块(DTNM)引入可变形卷积与注意力机制的双重创新。通过将关键点特征(Key)与查询特征(Query)进行动态匹配,该模块实现了两点突破:首先,构建的伪影校正机制可识别被遮挡鱼体的有效可见区域,实验数据显示遮挡区域识别准确率提升至92.4%;其次,引入的跨尺度注意力交互机制使模型能捕捉到局部遮挡区域之外的关联特征,在DGCD数据集上,遮挡场景的RMSE降低至4.71,较传统方法下降31.6%。

噪声抑制模块(FGCM)通过平行处理水平和垂直方向的注意力权重机制,显著增强了目标特征提取能力。该模块包含三个关键组件:水平垂直池化网络(HPV)实现特征降维与方向性增强,重构卷积块(RepConv)恢复空间分辨率,门控调节单元(Gating)实现动态响应权重分配。在CCD数据集的噪声干扰测试中,FGCM使背景噪声抑制效率提升至89.7%,目标特征强度增强1.8倍。

### 2. 实验验证与性能突破
研究团队构建了包含DGCD(密集草鱼数据集)和CCD(常规养殖场数据集)两大基准测试集的验证体系。DGCD包含2000张高密度草鱼图像(测试集400张),CCD涵盖3000张不同光照和背景的鱼群图像(测试集600张)。MDFNet在两大数据集上均取得突破性进展:

- **DGCD数据集**:MAE(3.44)和RMSE(4.71)指标较次优模型(GramFormer)分别降低35.2%和29.8%,准确率达97.17%。特别是在鱼群密度>100尾/平方米的极端场景中,MDFNet仍保持92.3%的检测稳定性。

- **CCD数据集**:关键性能指标全面领先,MAE(2.35)较最优对比模型(MRCCrowd)降低13.8%,R2值(0.9004)较传统方法提升21.5%。在光照变化测试中,模型表现出色,在低照度(<50lux)和高照度(>200lux)场景下的性能波动幅度控制在8%以内。

可视化对比实验进一步验证了技术优势。在CCD数据集的典型场景中(图5c-e),MDFNet生成的密度图(图5e)与真实标注(图5b)的吻合度达94.2%,显著优于其他模型的密度分布离散度(PSNet:68.9%;CCTrans:72.4%)。在DGCD数据集的密集遮挡场景(图5a-d),MDFNet成功识别出被遮挡的87.3%鱼体,较基线模型(MSPSNet)提升41.6%。

### 3. 核心技术创新解析
#### 3.1 多尺度特征融合机制
MFM模块通过三级卷积核(7×7、11×11、21×21)并行处理,实现特征提取的时空对齐。具体而言:
- 水平方向采用7×7核捕捉局部特征,11×11核提取中等尺度特征,21×21核融合全局特征
- 垂直方向通过自适应池化(AP)实现特征降维与方向增强
- 空间注意力机制动态调整不同尺度特征的权重组合
该设计使模型在鱼体尺寸差异达3:1的场景(如近景大鱼与远景小鱼共存)中,特征融合准确率提升至96.8%。

#### 3.2 动态注意力优化系统
DTNM模块的创新在于构建了"局部-全局"双通道注意力网络:
1. **局部通道**:采用可变形卷积计算局部注意力权重,通过引入动态卷积核偏移量(范围±3像素),有效缓解遮挡导致的特征缺失问题
2. **全局通道**:基于Transformer的多头自注意力机制(12层,8头),捕捉鱼群的空间分布规律与密度梯度
3. **双通道融合**:通过特征拼接(Concat)和注意力加权求和(AWS),实现局部细节与全局分布的协同优化
在模拟遮挡实验中,该模块使被遮挡区域特征恢复度从68.4%提升至89.2%。

#### 3.3 噪声抑制增强技术
FGCM模块通过三级噪声抑制策略构建:
1. **方向性池化**:水平方向保留纵向特征(特征图高度不变),垂直方向保持横向特征(特征图宽度不变)
2. **重构卷积块**:采用可分离卷积(1×1+3×3)重构特征空间,使特征响应强度提升2.3倍
3. **门控调节机制**:基于Sigmoid激活函数的动态响应控制,对背景噪声区域实施衰减(抑制系数达0.87),对目标区域增强(响应系数达1.15)

该模块在CCD数据集的背景噪声测试中,使背景干扰识别率从63.2%降至19.7%,目标特征信噪比提升4.6倍。

### 4. 应用价值与生态意义
#### 4.1 水产养殖优化
模型可实现每分钟处理15帧视频(4K分辨率)的实时计数,较传统方法效率提升3.8倍。在山东某水产养殖场实测中,成功将饲料浪费率从22.3%降至6.8%,年节约成本达127万元。

#### 4.2 生态监测体系
该模型为建立标准化生态指标提供了技术支撑:
- 水质指数(QWAI):整合鱼群密度、透明度、藻类浓度等参数,计算精度达91.2%
- 繁殖力指数(RFI):基于动态计数数据,预测精度较传统方法提升37.4%
- 环境承载指数(ECI):通过多维度数据融合,实现生态系统压力评估

#### 4.3 可持续发展应用
在长江流域生态修复工程中,该模型成功应用于:
- 水生生物多样性评估:识别6个新物种的群体分布规律
- 污染物扩散监测:通过鱼群活动轨迹反演污染扩散范围
- 疾病预警系统:基于计数异常值检测病原体爆发前兆

### 5. 未来发展方向
当前研究仍存在三个主要局限:
1. **极端密度场景**:当鱼群密度超过200尾/平方米时,模型MAE值上升至5.8,需开发新型遮挡处理算法
2. **跨物种适应性**:在对比测试中,对鲢鱼(银白色)的识别准确率(89.3%)较草鱼(94.7%)低5.4个百分点
3. **计算效率瓶颈**:在边缘设备(如树莓派4B)部署时,推理速度降至3.2帧/秒,需优化模型轻量化设计

研究团队已启动二期工程:
- 构建包含8个物种、5种养殖环境的超大规模测试集(规划采集50万张图像)
- 开发基于知识蒸馏的轻量化模型(预计参数量减少至原型的1/5)
- 研究时空注意力机制(STAM),整合鱼群移动轨迹与密度分布

该模型的创新性在于首次将"特征金字塔+动态注意力+噪声抑制"三重机制进行系统整合,在多个关键指标上实现突破性进展。其技术路线为智能生态监测提供了新范式,未来有望在海洋牧场、濒危物种保护等领域产生重要应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号