基于深度学习的分布式大规模麦克风阵列二维声源定位方法研究

【字体: 时间:2025年06月19日 来源:Speech Communication 2.4

编辑推荐:

  为解决复杂声学环境中传统声源定位方法仅能估计方向角(DOA)而无法获取精确二维坐标的问题,研究人员创新性地提出了一种基于深度学习的分布式麦克风阵列(ad-hoc microphone arrays)定位方法。该方法通过卷积神经网络(CNN)节点级DOA估计、节点选择算法和三角聚类融合技术,实现了高精度2D定位,在仿真和真实数据集Libri-adhoc-node10上显著优于传统方法,为智能语音处理系统提供了更灵活的部署方案。

  

在智能语音交互、会议系统等场景中,精确的声源定位技术是提升语音处理效果的关键。然而,现有方法面临三大挑战:传统基于信号处理的定位技术(如MUSIC算法)在混响和噪声环境中性能骤降;深度学习虽能提升方向角(DOA)估计精度,但多数研究仅输出一维角度信息;现有2D/3D定位方法往往依赖固定阵列布局或稀疏节点(如2个),难以适应实际场景的灵活部署需求。这些局限严重制约了声源定位技术在智能家居、远程办公等领域的应用。

针对上述问题,西安交通大学等机构的研究团队在《Speech Communication》发表论文,提出了一种基于深度学习的分布式麦克风阵列(ad-hoc microphone arrays)二维定位新方法。该方法突破性地将大规模随机分布节点(每节点含4麦克风线性阵列)与深度学习相结合,通过三阶段处理流程——节点级CNN-DOA估计、基于信噪比(SNR)的节点选择、多节点三角聚类融合,实现了无需固定阵列布局的高精度2D定位。实验表明,该方法在仿真和真实环境中的定位误差分别降低42%和38%,且首次公开的Libri-adhoc-node10数据集为后续研究提供了重要基准。

关键技术方法包括:1) 采用相位谱图输入的CNN分类模型,结合5°间隔的72类soft标签编码消除量化误差;2) 基于信号能量和空间一致性的节点选择算法;3) 均值漂移(mean-shift)聚类融合多节点DOA估计。实验使用LibriSpeech语料和126小时噪声数据集构建仿真数据,真实数据来自10节点阵列在办公室/会议室4种布局下的432小时录音。

CNN-based DOA estimation at each single ad-hoc node
通过设计带掩码层的CNN架构,将4通道256维相位谱图转化为72类DOA概率分布,采用无偏标签分布编码策略将角度误差转化为概率分布优化目标,使测试集DOA估计误差较传统SRP-PHAT方法降低53%。

Node selection
提出基于信号能量比(SER)和几何一致性的双重筛选标准,实验证明当选择TOP-30%高信噪比节点时,可减少67%的异常DOA估计,且计算量仅为全节点方案的1/3。

Simulated data
在仿真环境中,当节点数从5增至20时,2D定位误差呈指数下降(20节点时误差<0.35m),验证了大规模分布式阵列的优势。

Discussions
研究发现:1) 当说话者与节点距离>5m时,DOA误差成为主要误差源;2) 均值漂移聚类能有效消除80%以上的"幽灵声源"伪定位点。

该研究首次实现大规模(10节点以上)随机分布阵列的深度学习定位,其创新性体现在三方面:1) 提出分阶段处理框架,兼容传统阵列信号处理与深度学习优势;2) 开发的Libri-adhoc-node10数据集填补了该领域真实场景数据空白;3) 节点选择算法使系统在复杂环境中保持鲁棒性。尽管在远距离定位时性能仍有提升空间,但该方法为智能家居、车载语音系统等需要灵活麦克风部署的场景提供了重要技术支撑,其"分治-融合"的研究思路对多模态传感器协同定位具有普适参考价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号