描述你所处的环境:通过环境文本描述来提高语音情感识别的抗噪能力

《IEEE Transactions on Affective Computing》:Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment

【字体: 时间:2025年11月21日 来源:IEEE Transactions on Affective Computing 9.8

编辑推荐:

  语音情感识别系统在真实嘈杂环境中性能下降严重。本文提出基于文本指导的环境感知训练方法,通过预训练文本编码器提取环境嵌入并与Transformer模型融合,结合对比学习优化表示。实验表明,在-5dB SNR下,细调文本编码器可使情感维度识别率提升76.4%-100%。

  

摘要:

语音情感识别(SER)系统在现实世界环境中常常面临挑战,因为环境噪声会严重降低其性能。本文提出了一种新颖的方法,该方法利用对测试环境的先验知识来在噪声环境下最大化SER系统的性能。为了解决这个问题,我们提出了一种基于文本的环境感知训练方法,其中SER模型使用带有噪声描述的语音样本进行训练。我们使用预训练的文本编码器提取基于文本的环境特征,并在训练和推理过程中将其融合到基于Transformer的SER模型中。通过使用MSP-Podcast语料库以及从Freesound和DEMAND仓库收集的真实世界加性噪声样本进行实验,证明了我们方法的有效性。实验表明,由大型语言模型(LLM)处理的基于文本的环境描述能够生成有助于提高SER系统抗噪声能力的表征。通过基于对比学习(CL)的表征方法,通过对文本编码器和情感识别模型进行联合微调,可以进一步优化我们的方法。在-5dB的信噪比(SNR)水平下,对文本编码器进行微调后,我们的基于CL的表征方法在唤醒度(提高76.4%)、支配性(提高100.0%)和愉悦度(提高27.7%)方面表现出显著提升。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号