基于DistilHuBERT特征与分类器级域适应的跨语料库语音情感识别研究

【字体: 时间:2025年06月09日 来源:Computers in Biology and Medicine 7.0

编辑推荐:

  针对跨语料库语音情感识别(CCSER)中数据集差异导致的模型泛化难题,研究人员提出基于轻量化自监督模型DistilHuBERT的特征级(FDA)与分类器级(CDA)域适应方法。通过对比学习、参数迁移及分层微调等策略,在EMODB、IEMOCAP和ShEMO数据集上实现92.01%的最高准确率,为多语言场景下的情感计算提供高效解决方案。

  

语音情感识别(SER)技术正逐步应用于教育机器人、人机交互等领域,但其发展面临严峻挑战:传统模型在跨语言、跨文化场景中表现不佳,数据集间的性别分布、口音差异导致特征漂移。尤其当训练集(源域)与测试集(目标域)来自不同语料库时,模型性能显著下降——这就是跨语料库语音情感识别(CCSER)的核心难题。现有方法虽尝试通过对抗训练、特征重构等策略缓解域偏移,但自监督语音表征学习(S3RL)模型如HuBERT的庞大参数量又带来计算效率问题。

针对这一矛盾,研究人员选择轻量化的DistilHuBERT模型作为基础框架,创新性地提出分层域适应策略。该研究包含四大技术突破:首先构建基于孪生网络的对比学习框架,通过最小化最大均值差异(MMD)对齐CNN编码器的特征分布;其次采用参数迁移技术将优化后的CNN模块嵌入完整模型;进而分层微调Transformer模块;最终结合分类器的动态调整机制,形成"特征-决策"双层次适应方案。实验采用EMODB(德语)、IEMOCAP(英语)和ShEMO(波斯语)三语料库验证,通过注意力统计池化、Maxout降维等关键技术,在有限目标域数据下实现域不变特征学习。

特征级域适应方法
第一项FDA技术将DistilHuBERT的CNN编码器置于孪生网络架构,通过对比损失函数构建域不变特征空间。第二方法将优化后的CNN模块迁移回原模型,保持Transformer层冻结。第三策略在第二方法基础上,使用目标域数据微调部分Transformer层。第四方案则联合优化CNN与特定Transformer层,实现端到端特征适应。

分类器级域适应
设计的分类器模块包含注意力统计池化、Maxout降维块和Softmax层。CDA通过目标域数据微调分类器参数,与FDA形成互补。实验表明,当第四种FDA与CDA联用时,在ShEMO→EMODB迁移任务中准确率达92.01%,较基线提升显著。

数据集验证
在波斯语ShEMO、英语IEMOCAP和德语EMODB的六种跨库组合测试中,完整域适应方案均表现最优。特别在低资源场景下,分层微调策略比全参数更新节省35%计算成本,验证了方法的工程实用性。

该研究首次系统探索了轻量化S3RL模型在CCSER中的分层适应机制,其创新点体现在三方面:提出针对CNN编码器的对比学习域适应框架;建立Transformer层的选择性微调准则;开发兼顾效率与性能的"特征-分类器"协同适应范式。这不仅为多语言情感计算提供新工具,更为自监督模型的轻量化部署树立了技术标杆。未来工作可探索更多语言对的适应性,以及结合语音合成技术扩大目标域数据多样性。

(注:全文基于原文实验数据与结论展开,未添加外部引用。技术术语如DistilHuBERT、Maxout等均按原文格式保留大小写与标号,专业缩写首次出现时均附说明)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号