
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于并行双分支注意力机制网络的水下声学目标识别方法研究
【字体: 大 中 小 】 时间:2025年06月25日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
为解决水下声学目标识别(UATR)中环境干扰与噪声影响导致的分类精度不足问题,研究人员提出了一种融合残差注意力(ResA)与双向长短期记忆网络(Bi-LSTM)的并行双分支模型ResA-LSTM。该模型通过Mel谱图同步提取时空特征,在ShipsEar和DeepShip数据集上分别实现98.55%和99.31%的分类准确率,为自主水下系统(AUV)提供了高鲁棒性解决方案。
水下世界充满神秘与挑战,船舶辐射噪声作为水下声学信号的重要来源,其识别技术对海洋勘探、航行安全等领域至关重要。然而,复杂的海洋环境如同一个巨大的"干扰实验室"——水温变化、盐度波动、生物噪声等交织成一张干扰网,传统依靠声纳操作员人工判读的方法不仅效率低下,在实时性要求高的自主水下系统(AUV)应用中更显得力不从心。尽管人工智能技术为水下目标识别带来新机遇,但现有模型往往顾此失彼:卷积神经网络(CNN)擅长捕捉空间特征却忽视时间序列规律,长短期记忆网络(LSTM)精于时序分析却可能丢失局部细节。更棘手的是,船舶噪声信号往往持续时间长、频率分布不均,如何在噪声干扰下实现时空特征的完美融合,成为制约识别精度的关键瓶颈。
针对这一系列挑战,中国国家自然科学基金资助项目团队在《Engineering Applications of Artificial Intelligence》发表研究,提出革命性的ResA-LSTM模型。该模型采用双分支并行架构,通过残差注意力分支(ResA)提取空间特征,结合双向LSTM(Bi-LSTM)捕捉时序规律,创新性地引入通道与空间双重注意力机制增强特征显著性。研究采用ShipsEar和DeepShip两个公开数据集验证,通过Mel频率倒谱系数(MFCC)特征提取、并行特征融合等关键技术,实现了噪声环境下的高精度分类。
方法论
研究团队构建的ResA-LSTM框架包含三个创新模块:1)ResA分支通过残差连接与注意力机制增强空间特征提取;2)Bi-LSTM分支采用双向结构捕捉长时序依赖;3)特征融合层通过拼接与全连接实现时空特征有机整合。模型输入为经短时傅里叶变换(STFT)处理的Mel谱图,有效保留时频域信息。
数据集
实验选用ShipsEar和DeepShip两个标准数据集,前者包含11类船舶约3小时录音,后者涵盖265艘商船的23小时数据。通过5折交叉验证确保结果可靠性,数据预处理包括分帧、加窗和噪声增强等操作。
结果与讨论
在ShipsEar数据集上,ResA-LSTM以98.55%准确率超越传统SVM(89.21%)和CNN-LSTM串联模型(95.34%)。DeepShip测试中更达到99.31%的顶尖水平。消融实验显示,ResA模块使模型在-5dB信噪比下仍保持92.17%准确率,证实其噪声鲁棒性。特征可视化表明注意力机制能有效聚焦舰船特征频段,抑制环境干扰。
结论
该研究突破性地解决了水下声学目标识别中的时空特征融合难题,ResA-LSTM模型通过并行双分支架构和注意力机制,在保持实时处理能力的同时显著提升分类精度。特别值得关注的是模型对长序列数据的处理优势,单次可处理长达30秒的音频片段,为AUV等自主系统的实际部署扫除技术障碍。研究团队在致谢部分提到,这项工作为后续开发轻量化嵌入式识别系统奠定了理论基础,未来或可拓展至海洋生物声学监测等领域。
生物通微信公众号
知名企业招聘