轻量级水下声学时频分离网络,用于高效识别海洋目标

《Ocean Engineering》:Lightweight underwater acoustic time-frequency separation network for efficient marine target recognition

【字体: 时间:2025年10月22日 来源:Ocean Engineering 5.5

编辑推荐:

  水下声学目标识别网络UATFSN通过时间-频率分离卷积模块TFSC解耦信号特征,分别采用异构卷积核提取瞬态与谐波特征,结合自适应残差归一化优化模型稳定性。实验表明,UATFSN在DeepShip和ShipsEar数据集上识别精度达98.23%和98.75%,参数量仅0.05M,较ResNet34减少99.77%,计算效率提升显著,适用于资源受限水下平台。

  在现代海洋工程中,水下声学目标识别是一项关键的技术,对于海洋安全监测、水下导航和资源开发具有重要意义。随着海洋活动的扩展和自主平台的广泛应用,对高效、可靠的水下声学目标识别技术的需求日益增长。传统的水下声学目标识别方法主要依赖于标准的二维卷积来处理时频图谱,但这些方法未能充分考虑时频维度在物理特性上的差异,导致特征提取的局限性。为此,本文提出了一种轻量级的水下声学时频分离网络(Underwater Acoustic Time-Frequency Separation Network,简称UATFSN),该网络通过设计的时频分离卷积(Time-Frequency Separate Convolutions,简称TFSC)模块实现了特征的解耦建模,从而有效解决传统二维卷积在水下声学信号处理中的不足。

UATFSN的核心创新在于引入了TFSC模块,该模块通过将特征图沿通道维度拆分为独立的频率路径和时间路径,分别采用各向异性卷积核进行特征提取,从而实现了对水下声学信号时频维度的物理特性建模。这种方法能够更精确地捕捉信号的物理差异,提升模型的表示能力,同时显著降低计算负载。TFSC模块的结构设计不同于传统的卷积因子化技术,后者通常采用串行结构,通过1×k卷积后接k×1卷积来近似k×k卷积,其主要目的是提升计算效率,而TFSC模块则采用并行双路径结构,通过物理先验知识进行特征建模,从而实现了从“效率近似”到“物理建模”的转变。

在实验方面,UATFSN在DeepShip数据集上实现了98.23%的识别准确率,比最强大的基线模型ResNet34提高了2.04个百分点,同时仅需0.05M参数,参数量减少了99.77%。在ShipsEar数据集上,UATFSN达到了98.75%的准确率,计算量减少了99.26%。此外,鲁棒性评估表明,UATFSN在0dB信噪比(SNR)条件下仍能保持84.20%的准确率,并且在仅使用5%训练数据的情况下也达到了78.17%的识别效果。这些结果验证了UATFSN在复杂海洋环境中的适用性,并且证明了其在资源受限的海洋平台上的部署潜力。

UATFSN的设计理念源于对水下声学信号处理中物理特性建模的迫切需求,它不仅提供了一种高效的识别方案,还为水下无人平台的智能化升级提供了重要的技术支持。本文提出的UATFSN首次实现了在水下声学识别任务中同时提升识别精度和计算效率,这一突破性成果具有重要的应用价值。同时,该网络的轻量化设计使其能够在计算资源受限的场景中部署,如海洋无人潜航器、水下机器人等。

在实验结果中,UATFSN在DeepShip数据集上的准确率达到了98.23%,在ShipsEar数据集上达到了98.75%,显著优于当前的其他方法。通过参数统计和浮点运算(FLOPs)分析,UATFSN在参数数量和计算复杂度上均表现出卓越的效率。在计算效率方面,UATFSN的参数数量仅为0.05M,显著低于ResNet34的21.28M和ResNet18的11.17M,参数量减少了99.77%和99.55%。FLOPs数量也仅有13.06M,比ResNet34减少了99.26%,比ResNet18减少了98.46%。这些结果表明,UATFSN在计算效率上具有显著优势,能够满足海洋工程中对资源受限设备的部署需求。

此外,UATFSN在不同SNR条件下的鲁棒性评估结果也表明其具备良好的抗干扰能力。在0dB SNR条件下,UATFSN仍能保持84.20%的识别准确率,而在25dB SNR条件下,准确率提升至98.06%和98.19%,几乎接近无噪声环境下的最优性能。同时,UATFSN在仅使用5%训练数据的情况下,准确率仍能达到78.17%和77.04%,这表明其在小样本条件下的泛化能力也较为出色。这些实验结果不仅验证了UATFSN在复杂海洋环境中的稳定性,也展示了其在资源受限条件下的实际应用价值。

在特征提取方面,本文比较了三种主流的时频域特征提取方法:短时傅里叶变换(STFT)谱图、Mel谱图和梅尔频率倒谱系数(MFCC)。实验结果表明,Mel谱图在两个数据集上均取得了最优的识别性能。在DeepShip数据集上,Mel谱图的平均识别准确率为98.02%,比STFT谱图的93.55%提高了4.47个百分点,比MFCC的94.64%提高了3.38个百分点。在ShipsEar数据集上,Mel谱图的平均识别准确率为98.47%,比STFT谱图的93.94%提高了4.53个百分点,比MFCC的93.81%提高了4.66个百分点。Mel谱图之所以表现优异,主要归因于其与人类听觉感知特性的一致性,特别是在低频区域的高频率分辨率,与船舶辐射噪声能量主要集中在低频带的物理特性高度匹配。

在模型的各个组件方面,本文进行了详细的消融实验(Ablation Study)。结果表明,移除所有组件会导致模型性能的显著下降,充分验证了UATFSN架构设计的有效性。其中,移除频率路径导致性能下降最严重,分别在DeepShip和ShipsEar数据集上下降了12.91%和12.19%,表明频率域特征提取在水下声学目标识别中具有关键作用。而移除时间路径则导致性能下降10.56%和9.93%,证明了时间域动态特征的重要性。TFSC模块的移除导致性能下降8.77%和7.29%,充分验证了时频分离卷积架构相较于传统二维卷积的优势。此外,移除通道洗牌(Channel Shuffle)操作导致性能下降3.32%和2.72%,表明增强不同通道之间的信息交互对模型性能具有重要作用。移除自适应残差归一化(ARN)机制导致性能下降1.84%和1.46%,进一步证明了ARN在提升模型训练稳定性和识别准确率方面的重要性。

通过Grad-CAM可视化分析,本文进一步验证了UATFSN在学习水下声学信号的时频物理特征方面的有效性。在DeepShip数据集上,UATFSN的注意力分布能够精准定位关键的时频特征,如货物船的低频稳态谐波区域、乘客船的宽带响应模式、油轮的低频连续能量带以及拖船的基本频率成分和中频冲击特征。在ShipsEar数据集上,UATFSN的注意力分布同样能够捕捉到不同船舶类别在时频域中的特征差异,如渔船在低频和中频区域的双重响应、摩托艇在整个时频域的分散但一致的响应模式、乘客船的宽带均匀响应以及大型船舶的中频集中响应。这些可视化结果表明,UATFSN能够有效学习不同船舶的声学生成机制,从而实现高精度的识别。

在学习曲线分析中,UATFSN在两个数据集上的训练和测试损失曲线均表现出理想的收敛特性。早期训练阶段,训练损失和测试损失迅速下降,表明模型能够有效学习基本数据模式。中期训练阶段,曲线持续下降并逐渐收敛,说明模型在不断优化特征表示,而非单纯记忆训练样本。后期训练阶段,损失曲线趋于稳定并保持在低值区域,测试损失从未超过训练损失,且两者之间的差距极小,进一步证明了模型在训练过程中未出现过拟合现象。

最后,本文还通过混淆矩阵和决策边界分析,进一步探讨了UATFSN的分类机制。在DeepShip数据集上,混淆矩阵表现出高度对角化的特征,表明模型在不同类别之间建立了清晰的决策边界。虽然在货物船和油轮之间存在轻微的双向混淆,但这是物理上合理的,因为这两种大型商业船舶在动力系统配置和低速航行模式上具有相似性,其辐射噪声的低频谐波结构存在一定的重叠。然而,UATFSN通过时频分离机制能够捕捉到这些类别之间的细微差异,从而控制混淆率在极低水平。在ShipsEar数据集上,UATFSN在四类船舶分类任务中表现出更出色的性能,混淆矩阵几乎呈现完美的对角结构,表明其在多类别任务中具备强大的区分能力。

综上所述,本文提出的UATFSN不仅在识别精度和计算效率上取得了显著突破,还通过物理驱动的时频分离机制有效提升了模型的泛化能力和鲁棒性。该网络的轻量化设计使其能够在资源受限的海洋平台部署,为海洋工程中智能设备的应用提供了重要的技术支持。未来的研究方向可以进一步探索UATFSN在不同海洋环境和未知目标中的泛化能力,以实现更广泛的应用场景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号