
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于交叉注意力机制与音频引导对比学习的双阶段水下声学目标识别框架
【字体: 大 中 小 】 时间:2025年07月28日 来源:Neurocomputing 5.5
编辑推荐:
针对水下声学目标识别中时频表征与原始音频特征融合困难的问题,浙江大学研究人员提出ACDN-UATR双阶段学习框架。该研究创新性地结合掩码自编码器(MAE)和交叉注意力机制实现Mel与CQT谱图特征融合,并通过对比学习对齐时频与原始音频特征,在ShipsEar数据集上显著提升识别准确率,为海洋环境监测提供新方法。
海洋深处蕴藏着丰富的信息资源,水下声学目标识别(UATR)作为海洋探索的"听诊器",在环境监测、国防安全等领域具有重要价值。然而这个领域长期面临两大难题:原始时域信号存在大量冗余噪声,而传统时频分析方法如Mel谱图、恒定Q变换(CQT)谱图又会丢失部分时序信息。更棘手的是,现有方法难以有效整合时频表征与原始音频特征——就像试图将两张不同曝光度的照片合成清晰图像却总是出现重影。这种"多视角特征融合困境"严重制约着识别精度的提升。
针对这一挑战,浙江大学的研究团队在《Neurocomputing》发表创新成果,提出名为ACDN-UATR的双阶段学习框架。该研究巧妙地将自监督学习与对比学习相结合:第一阶段采用掩码自编码器(MAE)从Mel和CQT谱图中挖掘深层特征,并通过交叉注意力机制实现谱图间的智能融合;第二阶段引入音频引导的对比学习,将时频特征与原始音频信号特征对齐,补偿信息损失。这种"先分解后校正"的策略,犹如为声学信号配备了智能调焦系统,最终在ShipsEar数据集上实现精准的目标分类。
关键技术方法包括:1)基于ShipsEar数据集(采样率52,734Hz)的时频特征提取,采用Mel和CQT两种谱图;2)第一阶段使用MAE框架进行谱图特征重建训练,结合交叉注意力机制融合双谱图特征;3)第二阶段采用对比学习损失函数,对齐时频特征与1D-CNN提取的原始音频特征;4)最终通过特征级融合实现分类。
【特征提取】研究证实Mel谱图能有效捕捉人耳感知相关的频谱特征,而CQT谱图则在非线性频率刻度上提供更精细的分辨率。交叉注意力机制通过建立两种谱图间的动态权重映射,比简单拼接特征提升识别精度3.2%。
【数据预处理】针对ShipsEar数据时长不均的问题(15秒至10分钟),研究采用固定时长切片策略,确保输入一致性。实验显示2秒片段在计算效率与特征完整性间达到最佳平衡。
【结果分析】在11类船舶识别任务中,ACDN-UATR的准确率达92.7%,F1-score提升8.4%优于单模态方法。消融实验证明:交叉注意力机制贡献最大性能增益(4.1%),而对比学习使跨环境鲁棒性提升23%。
【结论】这项研究突破性地解决了水下声学目标识别中的多视角特征融合难题。其创新点主要体现在:1)首创将MAE框架应用于声学谱图重建,通过掩码预测任务增强特征表达能力;2)设计的交叉注意力机制能动态捕捉Mel与CQT谱图的互补信息,比传统融合方式更符合"同源多视角"数据的特性;3)音频引导的对比学习策略有效弥合时频变换导致的信息鸿沟。该框架为海洋声学监测提供了新范式,其"双阶段特征协调"思想也可拓展至其他多模态识别领域。
值得注意的是,研究还揭示了时频表征与原始音频特征间的微妙关系:在低频段(<5kHz),时频特征更具判别力;而在瞬态信号检测方面,原始音频的毫秒级时序信息不可替代。这种发现为后续研究指明了方向——或许未来的智能声学系统应该像海豚一样,能自主切换"频谱感知"与"时域解析"两种模式。
生物通微信公众号
知名企业招聘