描述你所处的环境:通过环境文本描述来提高语音情感识别的抗噪能力
《IEEE Transactions on Affective Computing》:Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment
【字体:
大
中
小
】
时间:2025年11月21日
来源:IEEE Transactions on Affective Computing 9.8
编辑推荐:
语音情感识别系统在真实嘈杂环境中性能下降严重。本文提出基于文本指导的环境感知训练方法,通过预训练文本编码器提取环境嵌入并与Transformer模型融合,结合对比学习优化表示。实验表明,在-5dB SNR下,细调文本编码器可使情感维度识别率提升76.4%-100%。
摘要:
语音情感识别(SER)系统在现实世界环境中常常面临挑战,因为环境噪声会严重降低其性能。本文提出了一种新颖的方法,该方法利用对测试环境的先验知识来在噪声环境下最大化SER系统的性能。为了解决这个问题,我们提出了一种基于文本的环境感知训练方法,其中SER模型使用带有噪声描述的语音样本进行训练。我们使用预训练的文本编码器提取基于文本的环境特征,并在训练和推理过程中将其融合到基于Transformer的SER模型中。通过使用MSP-Podcast语料库以及从Freesound和DEMAND仓库收集的真实世界加性噪声样本进行实验,证明了我们方法的有效性。实验表明,由大型语言模型(LLM)处理的基于文本的环境描述能够生成有助于提高SER系统抗噪声能力的表征。通过基于对比学习(CL)的表征方法,通过对文本编码器和情感识别模型进行联合微调,可以进一步优化我们的方法。在-5dB的信噪比(SNR)水平下,对文本编码器进行微调后,我们的基于CL的表征方法在唤醒度(提高76.4%)、支配性(提高100.0%)和愉悦度(提高27.7%)方面表现出显著提升。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号