描述你所处的环境：通过环境文本描述来提高语音情感识别的抗噪能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Affective Computing》：Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment

【字体：大中小】 时间：2025年11月21日 来源：IEEE Transactions on Affective Computing 9.8

编辑推荐：

　　语音情感识别系统在真实嘈杂环境中性能下降严重。本文提出基于文本指导的环境感知训练方法，通过预训练文本编码器提取环境嵌入并与Transformer模型融合，结合对比学习优化表示。实验表明，在-5dB SNR下，细调文本编码器可使情感维度识别率提升76.4%-100%。

摘要：

语音情感识别（SER）系统在现实世界环境中常常面临挑战，因为环境噪声会严重降低其性能。本文提出了一种新颖的方法，该方法利用对测试环境的先验知识来在噪声环境下最大化SER系统的性能。为了解决这个问题，我们提出了一种基于文本的环境感知训练方法，其中SER模型使用带有噪声描述的语音样本进行训练。我们使用预训练的文本编码器提取基于文本的环境特征，并在训练和推理过程中将其融合到基于Transformer的SER模型中。通过使用MSP-Podcast语料库以及从Freesound和DEMAND仓库收集的真实世界加性噪声样本进行实验，证明了我们方法的有效性。实验表明，由大型语言模型（LLM）处理的基于文本的环境描述能够生成有助于提高SER系统抗噪声能力的表征。通过基于对比学习（CL）的表征方法，通过对文本编码器和情感识别模型进行联合微调，可以进一步优化我们的方法。在-5dB的信噪比（SNR）水平下，对文本编码器进行微调后，我们的基于CL的表征方法在唤醒度（提高76.4%）、支配性（提高100.0%）和愉悦度（提高27.7%）方面表现出显著提升。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号