基于麦克风阵列的多源时变方差估计的固定点迭代更新规则及其在语音增强中的应用

【字体: 时间:2025年06月19日 来源:Speech Communication 2.4

编辑推荐:

  针对多说话人场景下时变方差估计难题,研究人员提出一种基于最大似然(ML)准则的麦克风阵列方差更新规则。通过引入虚拟项构建固定点迭代(FPI)框架,该方法仅需数次迭代即可快速收敛至克拉美罗界(CRB)附近的估计精度,显著提升了语音增强中多源分离和噪声抑制的性能。

  

在嘈杂环境中实现精准的语音增强一直是信号处理领域的核心挑战。随着智能设备的普及,如何在会议室、车载系统等多人说话场景中有效分离目标声源并抑制噪声,成为亟待解决的关键问题。传统方法多基于单一声源假设,而实际环境往往存在多个同时发声的说话人和复杂的背景噪声,导致基于短时傅里叶变换(STFT)的方差估计精度大幅下降。尽管深度学习方法展现出潜力,但其对数据量的依赖和可解释性不足限制了应用。这一背景下,麦克风阵列技术因其空间滤波优势成为研究热点,但多源时变方差估计缺乏高效闭式解的问题始终未获突破。

为攻克这一难题,中国某研究机构团队在《Speech Communication》发表研究,创新性地提出基于固定点迭代(FPI)的方差更新规则。该研究首先建立包含N个独立声源的阵列信号模型,将观测信号协方差矩阵分解为时变方差与固定相干矩阵的乘积。通过引入虚拟项重构最大似然(ML)条件,将优化问题转化为寻找函数不动点的数学过程。研究还推导了最小二乘(LS)准则下的两种闭式估计器作为理论参照,揭示出FPI更新规则与加权LS解的内在关联性。

关键技术包括:1) 构建多源麦克风阵列信号模型,将协方差矩阵参数化为方差与相干矩阵的乘积;2) 基于ML准则推导包含虚拟项的优化目标函数;3) 设计FPI框架实现快速收敛的方差迭代更新;4) 通过数值仿真和语音增强实验验证性能,对比克拉美罗界(CRB)。

信号模型和问题 formulation
研究建立M个麦克风的阵列观测模型,其中第m个麦克风信号包含N个声源经路径卷积后的混合与加性噪声。在STFT域将各信号分量建模为时变方差?n
(τ)与固定相干矩阵Γn
的乘积,噪声分量则对应?N+1
(τ)Γv
。核心问题转化为从观测数据Y(τ)中联合估计所有方差参数。

Proposed multiple source variances update rule
通过构造包含虚拟项的辅助函数Q(?|?'),证明ML解是该函数的不动点。据此设计迭代更新规则:?(i+1)
n
= [tr(Γn
R-1
(?(i)
)RY
R-1
(?(i)
))]/[tr(Γn
R-1
(?(i)
))],其中RY
为样本协方差矩阵。该规则仅需矩阵运算即可实现高效更新。

Insights from the perspective of the LS solution
推导普通LS估计器??n
= [an
H
vec(RY
)]/(an
H
an
)和加权LS估计器??n
= [bn
H
vec(RY
)]/(bn
H
bn
),揭示FPI规则本质是采用时变权重矩阵的迭代加权LS过程。

Simulations
数值实验显示:1) 在双声源场景下,FPI仅需3-5次迭代即收敛,均方误差较EM算法降低40%;2) 估计误差与CRB的差距不足0.5dB;3) 实际语音增强实验中,信噪比(SNR)提升达12dB,显著优于传统波束形成方法。

Conclusions
该研究通过数学重构将复杂的ML估计转化为FPI问题,提出的更新规则兼具理论严谨性与计算高效性。其重要意义在于:1) 为多源场景提供首个快速收敛的闭式迭代解;2) 通过LS框架赋予算法物理解释;3) 实测性能逼近理论下界,为实时语音增强系统提供核心技术支撑。这项工作不仅解决了阵列信号处理中的关键难题,其构建不动点函数的思路还可拓展至其他参数估计领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号