跨模态语义对齐的解耦表征学习：提升音视频语音识别的鲁棒性新方法

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Bridging Semantics Across Modalities: Decoupled Representation Learning for Audio-Visual Speech Recognition

【字体：大中小】 时间：2025年11月02日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　本文提出了一种基于解耦表征学习的音视频语音识别（AVSR）创新框架，通过共享-私有架构实现跨模态语义对齐，有效解决模态异构性和说话人差异等挑战。该研究采用模态不变表征提取和注意力融合机制，在噪声环境和跨说话人场景下展现出优越性能，为多模态医疗辅助系统提供了技术支撑。

²亮点

本研究通过解耦表征学习框架有效应对音视频语音识别（AVSR）系统的核心挑战，在噪声环境和跨说话人场景下实现显著性能提升。

²音视频语音识别

单模态语音识别研究历史悠久，主要包括音频自动语音识别（ASR）和视觉语音识别（VSR）。VSR（即唇读）旨在将面部语音区域（如唇部运动）的视觉动态转化为对应文本，这对AVSR具有重要意义，因为视觉信号不受声学噪声干扰。

²提出方法

本节介绍基于解耦表征学习的增强型AVSR框架。该框架通过模态不变和说话人不变的语义表征学习，提取对鲁棒AVSR至关重要的精细化语言信息。图2展示了整体框架，包含四个关键组件：模态特定特征提取、解耦表征学习、跨模态语义融合以及基于注意力机制的编解码结构。

²数据集

为验证方法有效性，我们在三个公开音视频语音基准数据集上开展实验：GRID、CMLR和LRS3。GRID作为经典句子级数据集²，包含34名说话人，每人贡献最多1000条固定语法句子。每个面部视频片段时长约3秒，以25帧/秒采样。

²实验结果

本节通过定量和定性分析实验评估提出方法，包括噪声环境和跨说话人场景的测试。

²结论

结论本文重新审视当前主流AVSR研究，指出构建高效AVSR系统仍面临模态固有异构性和未知说话人泛化等关键挑战。为弥合音视频模态差异并实现跨模态语义对齐，我们提出基于解耦表征学习的统一AVSR框架，通过定制化约束解决这些难题。

热点排行

联系信箱：

粤ICP备09063491号