跨模态语义对齐的解耦表征学习:提升音视频语音识别的鲁棒性新方法

《Knowledge-Based Systems》:Bridging Semantics Across Modalities: Decoupled Representation Learning for Audio-Visual Speech Recognition

【字体: 时间:2025年11月02日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文提出了一种基于解耦表征学习的音视频语音识别(AVSR)创新框架,通过共享-私有架构实现跨模态语义对齐,有效解决模态异构性和说话人差异等挑战。该研究采用模态不变表征提取和注意力融合机制,在噪声环境和跨说话人场景下展现出优越性能,为多模态医疗辅助系统提供了技术支撑。

  
2亮点
本研究通过解耦表征学习框架有效应对音视频语音识别(AVSR)系统的核心挑战,在噪声环境和跨说话人场景下实现显著性能提升。
2音视频语音识别
单模态语音识别研究历史悠久,主要包括音频自动语音识别(ASR)和视觉语音识别(VSR)。VSR(即唇读)旨在将面部语音区域(如唇部运动)的视觉动态转化为对应文本,这对AVSR具有重要意义,因为视觉信号不受声学噪声干扰。
2提出方法
本节介绍基于解耦表征学习的增强型AVSR框架。该框架通过模态不变和说话人不变的语义表征学习,提取对鲁棒AVSR至关重要的精细化语言信息。图2展示了整体框架,包含四个关键组件:模态特定特征提取、解耦表征学习、跨模态语义融合以及基于注意力机制的编解码结构。
2数据集
为验证方法有效性,我们在三个公开音视频语音基准数据集上开展实验:GRID、CMLR和LRS3。GRID作为经典句子级数据集2,包含34名说话人,每人贡献最多1000条固定语法句子。每个面部视频片段时长约3秒,以25帧/秒采样。
2实验结果
本节通过定量和定性分析实验评估提出方法,包括噪声环境和跨说话人场景的测试。
2结论
结论 本文重新审视当前主流AVSR研究,指出构建高效AVSR系统仍面临模态固有异构性和未知说话人泛化等关键挑战。为弥合音视频模态差异并实现跨模态语义对齐,我们提出基于解耦表征学习的统一AVSR框架,通过定制化约束解决这些难题。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号