
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Dirichlet不确定性估计的多尺度掩码时序融合框架MsDUNE:实现说话人无关的唇语识别
【字体: 大 中 小 】 时间:2025年07月03日 来源:Neural Networks 6.0
编辑推荐:
针对唇语识别中因说话人差异导致的特征分布偏移问题,研究人员提出多尺度掩码时序融合框架MsDUNE。该框架通过Dirichlet分布参数化特征潜在空间,利用证据理论量化说话人影响,并采用时序不确定性掩码校准多尺度特征融合。实验表明,MsDUNE在LRW-ID、AV Letters等数据集上实现SOTA性能,显著提升对未见说话人的识别准确率,为实际场景应用提供新思路。
在嘈杂环境或保密场景中,唇语识别(Lipreading)技术通过解析唇部运动实现"看语识音",成为自动语音识别(ASR)的重要补充。然而,现有方法面临核心瓶颈:说话人间的唇形外观和发音习惯差异会导致特征分布偏移,使得模型对未见说话人的识别准确率骤降。传统解决方案如多模态特征融合易引发特征冗余,而对抗训练等去说话人特征方法可能损失语义信息。如何在不依赖额外数据的前提下,从单一视觉模态中提取说话人不变特征,成为突破实际应用壁垒的关键。
针对这一挑战,中国研究人员提出多尺度掩码时序融合框架MsDUNE。该研究创新性地将Dirichlet分布引入特征不确定性估计,通过证据理论(evidence theory)量化说话人差异对特征空间的影响,并设计时序不确定性掩码动态校准多尺度特征融合过程。实验证明,该方法在LRW-ID、AV Letters及自建数据集CVSR100上均达到最先进水平,尤其对未见说话人的识别准确率提升显著。相关成果发表于《Neural Networks》,为跨说话人唇语识别提供了可解释性强的新范式。
研究采用三项关键技术:1)双分支架构分别提取全局唇部运动与局部多尺度特征;2)基于Dirichlet分布的潜在空间参数化,通过信念质量(belief mass)量化特征不确定性;3)时序不确定性掩码建模分支间相互影响,动态调整特征融合权重。数据集包含公开基准LRW-ID、AV Letters及自建CVSR100,覆盖不同说话人重叠场景。
MsDUNE模型结构
模型采用双分支设计:全局分支捕捉整体唇部运动模式,局部分支通过空洞卷积提取多尺度细节特征。核心创新在于引入Dirichlet分布参数化特征空间,将传统点估计扩展为概率分布,通过α参数表征特征不确定性。实验显示该设计使模型对说话人差异的鲁棒性提升23.6%。
不确定性校准融合
提出时序不确定性掩码机制,通过门控循环单元(GRU)建模分支间信念质量的动态交互。消融实验证实,该模块使跨说话人场景下的特征类内距离缩小38.2%,类间距离扩大17.4%,显著改善特征可分性。
实验结果
在LRW-ID数据集上,MsDUNE对未见说话人的识别准确率达78.3%,超越基线方法9.7个百分点。可视化分析显示,该方法能有效将不同说话人的相同语义特征映射至紧凑簇群,证实其特征平滑化能力。
该研究开创性地将不确定性估计引入唇语识别领域,通过概率化特征表示和动态校准机制,首次实现无需说话人标注的特征分布对齐。相比需要额外几何信息(如面部标志点)的方法,MsDUNE仅依赖原始视频数据即可达到更优性能,为医疗辅助、安防监控等实际场景提供普适性解决方案。未来工作可探索该框架在跨语种唇语识别中的迁移能力,进一步拓展其应用边界。
生物通微信公众号
知名企业招聘