跨模态语义对齐的解耦表征学习:提升音视频语音识别的鲁棒性新方法
《Knowledge-Based Systems》:Bridging Semantics Across Modalities: Decoupled Representation Learning for Audio-Visual Speech Recognition
【字体:
大
中
小
】
时间:2025年11月02日
来源:Knowledge-Based Systems 7.6
编辑推荐:
本文提出了一种基于解耦表征学习的音视频语音识别(AVSR)创新框架,通过共享-私有架构实现跨模态语义对齐,有效解决模态异构性和说话人差异等挑战。该研究采用模态不变表征提取和注意力融合机制,在噪声环境和跨说话人场景下展现出优越性能,为多模态医疗辅助系统提供了技术支撑。
本研究通过解耦表征学习框架有效应对音视频语音识别(AVSR)系统的核心挑战,在噪声环境和跨说话人场景下实现显著性能提升。
单模态语音识别研究历史悠久,主要包括音频自动语音识别(ASR)和视觉语音识别(VSR)。VSR(即唇读)旨在将面部语音区域(如唇部运动)的视觉动态转化为对应文本,这对AVSR具有重要意义,因为视觉信号不受声学噪声干扰。
本节介绍基于解耦表征学习的增强型AVSR框架。该框架通过模态不变和说话人不变的语义表征学习,提取对鲁棒AVSR至关重要的精细化语言信息。图2展示了整体框架,包含四个关键组件:模态特定特征提取、解耦表征学习、跨模态语义融合以及基于注意力机制的编解码结构。
为验证方法有效性,我们在三个公开音视频语音基准数据集上开展实验:GRID、CMLR和LRS3。GRID作为经典句子级数据集2,包含34名说话人,每人贡献最多1000条固定语法句子。每个面部视频片段时长约3秒,以25帧/秒采样。
本节通过定量和定性分析实验评估提出方法,包括噪声环境和跨说话人场景的测试。
结论 本文重新审视当前主流AVSR研究,指出构建高效AVSR系统仍面临模态固有异构性和未知说话人泛化等关键挑战。为弥合音视频模态差异并实现跨模态语义对齐,我们提出基于解耦表征学习的统一AVSR框架,通过定制化约束解决这些难题。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号