本研究提出了一种新颖的二步法传声器阵列融合算法,用于增强三维室内混响声场中的声源定位(SSL)。利用模拟房间冲激响应(RIRs)进行的仿真分析表明,波达方向(AoA)的精度随声源位置变化显著,导致某些传声器阵列产生不可靠的估计值。为缓解该问题,该算法排除了低置信度AoA对应的传声器对,从而提高了整体定位精度。为扩展方法的适用性,研究人员提出了一种适用于任意房间几何形状及各墙面上任意阵列位置的通用算法。该算法在三种情境下进行了评估:(1)原始房间几何形状且各阵列置于墙面中心;(2)不同尺寸的房间;(3)阵列置于墙面任意位置。结果显示,通用算法取得了与原始二步法类似的改善效果,定位误差约降低一半。此外,尽管房间几何形状和阵列位置会影响SSL精度,但通用方法在所有情况下均能持续降低误差。研究还评估了三种传统AoA估计方法,并对其在基线SSL中的性能进行了比较。研究结果表明,所提算法在基线方法基础上具有稳健性与实用价值,有助于改善声学复杂环境中的SSL性能。
室内环境中精确的三维声源定位(Sound Source Localization, SSL)是实现空间感知的基础性难题之一。人类交互机器人、智能建筑、视频会议系统以及辅助技术在部署时,均要求在混响与噪声条件下具备可靠的空间感知能力。然而,封闭空间中的多径传播、有限阵列孔径以及近场声学效应会导致时间域与空间域测量产生显著畸变,进而出现不稳定或有偏的位置估计。现有的SSL方法可大致分为:基于时延的方法、波束形成法以及子空间方法。基于到达时间差(Time-Difference-of-Arrival, TDOA)的技术通过传声器对时延所衍生的双曲面交点估计声源位置,常用互相关或广义互相关相位变换(GCC-PHAT)提取时延。尽管基于TDOA的多点定位具有直观的几何解释,但微小的时延估计误差会通过非线性传播转化为巨大的空间误差,尤其在传感器几何条件较差的情况下。波束形成法(如SRP-PHAT)通过最大化阵列孔径上的声能量评估候选空间位置,可提升混响环境下的鲁棒性,但通常需要密集的空间搜索点个计算复杂度高。子空间方法(如多信号分类MUSIC)利用信号与噪声子空间的正交性估计波达方向,宽带扩展版本如非相干频率分MUSIC(IFB-MUSIC)通过多频带信息集成提升估计稳定性。尽管子空间方法在理想条件下具有高角分辨率,但在实际室内环境中对模型失配、有限孔径及混响较为敏感。
然而,现有方法隐含假设所有可用方向或时延测量对最终位置估计的贡献相等。在实际室内环境中,方向信息的可靠性很大程度上取决于声源与各传声器阵列之间的相对空间配置。某些阵列与声源的几何关系会因混响、前-后歧义或有限孔径产生模糊或高度噪声污染的波达方向(AoA)估计。若融合策略不加区分地纳入所有阵列,反而可能放大误差。AoA估计精度本质上依赖于阵列几何与方向灵敏度。在MUSIC等子空间方法中,可实现的角分辨率受阵列流形条件数与角灵敏度制约,在不利几何配置下会退化。对于基于时延的AoA估计,传声器间时延与入射角之间的非线性正弦关系会影响估计稳定性,小的时间误差会被非线性放大。克拉美-罗下界(CRLB)分析表明AoA估计方差取决于声源方向与阵列配置某些几何具有更高固有不确度。这些理论结果说明:AoA估计性能具有方向依赖性,在大角度和端射入射角下会因几何条件变差和非线性误差传播而退化。这一观察推动研究人员从单纯增加传感器数量或改进估计算法,转向可靠性感知测量选择。
本研究发表在《Sensors》,研究人员提出了一种专为室内近场环境设计的二阶段三维SSL框架。第一阶段采用传统AoA处理获取声源位置的粗估计;第二阶段通过自适应剔除机制评估估计方向与初步声源位置之间的空间一致性,选择性地剔除不可靠阵列后优化最终定位。该框架通过几何感知方向选择而非传统密集阵列或复杂波束形成策略来增强定位精度。此外,研究还引入了独立于特定房间布局或预设阵列配置的广义算法。研究的具体贡献包括:可靠性感知的二阶段室内三维SSL框架、基于空间一致性约束的自适应阵列消除策略、适用于任意阵列几何的广义算法,以及与经典TDOA多点定位、MUSIC及宽带IFB-MUSIC基线的全面实验比较。
关键技术方法:在实验中使用房间冲激响应(RIR)生成模拟信号——利用Python的Pyroomacoustics库进行仿真。具体采用四阵元传声器结构模拟水平与垂直间距分别为0.16米和0.13米的物理阵列,提取水平对用于方位估计、竖直对用于俯仰估计,从而独立构建方位角和俯仰向量。从TDOA估计AoA时,共对比了三种方法:互谱密度相位解缠(CPSD)、互相关峰值法和GCC-PHAT。第一版算法使用预设分区域映射(Mapping),根据阵列法线与源方向向量夹角剔除不可靠区域。广义版本则在此基础上实现自适应淘汰:当粗定位结果与某阵列中心夹角超出±45°可靠区间时,仅保留距离最远的两个传声器对。与软加权策略(余弦加权、Huber加权)和MUSIC及IFB-MUSIC方法的对比构成了实验内容。
研究结果如下。
实验一:比较三种基线TDOA方法。在729个均匀分布声源点上评估了CPSD、互相关峰值与GCC-PHAT方法,各方法误差分布接近,其中互相关峰值法计算时间较短。
实验二:基线SSL的AoA精度分析。研究证实误差主要集中在房间角落,原因与阵列对声源极端角度下大偏差AoA估计有关。高俯仰估计精度较好,故选择性映射策略仅适用于方位估计水平阵列对。
实验三:提出的二步算法与基线方法比较。在5米×5米×2.7米房间原布局中,基线SSL的平均绝对误差(MAE)为0.344米。采用图2a所示映射后MAE降至0.188米;进一步优化为图2b区域边界扩展映射后MAE降至0.180米;过度扩张边界(图2c)无额外增益。广义二步算法对该布局获得MAE为0.188米,与直接映射一致。配对t检验表明改进具有统计学显著性,MAE降低0.145米。
实验四:不同场景下的通用性。对3米×3米×2.7米、5米×5米×3米及非对称阵列布置的场景,广义算法在自适应替代选择器后均显著降低误差,尽管不规则布置增加了几何精度因子(GDOP),误差绝对水平较对称布置更高。
实验五:不同信噪比和频率的性能。除中心频率630 Hz外,广义算法整体误差低于基线方法,且算法对噪声变化具有较好鲁棒性。
实验六:与加权策略及其他算法的比较。余弦加权MAE为0.270米,余弦与Huber联合加权则为0.250米,仍高于所提算法(0.181米)。MUSIC与IFB-MUSIC的MAE均为约2米。
讨论部分:实验对比了硬淘汰机制与软加权(余弦、Huber)策略。研究结果表明,软加权策略未能消除极端不准确AoA的偏差,包括保留随加权权重的低置信度方向,因此所提出的硬淘汰法优于软加权方案。另外,在使用语音信号替代高斯白噪声时定位精度下降,原因在于语音非平稳性导致互相关峰值模糊。基于纯角度展开的映射策略与未来自适应权重的改进空间被提及。研究人员指出基线假设的白噪声为评估表现引入了乐观偏差。广义算法的普适性为不同几何及阵列布置提供了直接解决路径,且无需大规模训练集即可复现研究成果。
研究结论为:基于AoA的方法若将传声器阵列置于室内墙面中心位置,其MAE可通过其清晰设计映射策略降低约50%基线水平,且不依赖深度学习等计算密集型方法。此外,研究提出的原始二步法与广义变装置显示出了在不同尺寸房间与非对称阵列布置中能显著减少定位误差,证明了方法在不同声场几何中的鲁棒性与可用性。优化阵列多方向关系与角度信成直接有助于提升声源定位精度,且广义算法解除了对房间几何形状与阵列位置的不同依赖边界,扩展了适用性。
---
以上全部回答严格根据原文信息整理而成,未加入推测内容。