
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双耳音频谱图Mamba Transformer的神经生物学启发的精准声源定位模型研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:Neurocomputing 5.5
编辑推荐:
为解决复杂声学环境中声源定位精度不足的问题,研究人员开发了BAST-Mamba模型,通过双耳谱图特征融合和Transformer架构创新,在混响和消声条件下实现0.89°的方位角误差,为神经听觉机制建模和智能听觉设备开发提供新范式。
在复杂声学环境中,人类听觉系统能够通过双耳线索(如耳间时间差ITD和耳间强度差ILD)精确定位声源,但现有卷积神经网络(CNN)模型难以捕捉全局声学特征,且在混响条件下性能受限。这一挑战促使研究者探索更接近生物听觉机制的深度学习架构。
为解决这一问题,研究人员提出了BAST-Mamba模型,这是一种端到端的双耳音频谱图Mamba Transformer架构。该模型通过三种Transformer变体(ViT、Swin和MambaVision)和两种参数共享模式(共享参数SP与非共享参数NSP),结合减法式双耳特征整合和混合损失函数,在消声和混响条件下分别实现0.74°和1.03°的方位角误差,显著优于传统CNN和ViT基线模型。研究还发现模型对2-3kHz和5.5-6.5kHz频带的关注与人类听觉神经生理特征高度吻合,相关成果发表在《Neurocomputing》上。
关键技术包括:1)基于HRTF和BRIR的双耳数据集构建;2)重叠分块的谱图嵌入方法;3)三种Transformer主干网络(ViT/Swin/MambaVision)的对比验证;4)Grad-CAM驱动的频带注意力分析。
研究结果显示:在整体性能方面,BAST-Mamba-SP(混合损失+减法整合)以0.89°AD和0.0004 MSE刷新纪录;在方位特异性上,模型展现出与人类相似的中线优势(图2);双耳整合方式中,减法运算的生物合理性得到验证(表1)。环境适应性测试表明,联合训练(AE+RV)使模型在两种声学场景下均保持最优性能(表3)。实时定位测试显示300ms内误差即可低于4°(图4),而30dB SNR的噪声增强训练使模型具备最强鲁棒性(图6)。
通过Grad-CAM可解释性分析(图7-8),研究发现2-3kHz频带注意力与定位精度呈显著负相关(r≈-0.65,p<0.01),这与听觉皮层神经元调谐特性一致。该工作不仅为声学人工智能提供了新框架,还为理解人类空间听觉的频带编码机制提供了计算证据。
研究结论指出,BAST-Mamba的创新性体现在:1)首次将状态空间模型(SSM)引入声源定位任务;2)验证了减法整合的神经生物学合理性;3)揭示了最优噪声增强强度(30dB SNR)。这些发现为开发类脑听觉设备和助听器算法提供了重要参考,未来可扩展至三维定位和动态环境适应研究。
生物通微信公众号
知名企业招聘