动态窗口时序-频域联合分层Transformer模型在语音情感识别中的创新应用

【字体: 时间:2025年09月07日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  本文提出了一种创新的TF-DWFormer模型(动态窗口时序-频域联合分层Transformer),通过特征重构模块(FRM)实现多域特征提取,结合高低频情感分区策略与双窗口注意力机制(局部静态窗口+动态跨区域窗口),显著提升了语音情感识别(SER)在IEMOCAP等数据集上的准确率(最高达92.59%),为自然人机交互(HCI)提供了关键技术突破。

  

Highlight

本研究亮点在于开发了TF-DWFormer模型,通过动态窗口机制精准捕捉语音信号中情感关键区域,结合时序、频域及时频联合特征,显著提升情感状态识别精度。

Methodology

方法学

如图2(a)所示,TF-DWFormer包含三大模块:

  1. 1.

    特征重构模块(FRM):从声谱图中分别提取时序、频域及时频联合特征;

  2. 2.

    情感区域线索学习模块(ERCLM):通过局部静态窗口分析区域内细粒度情感模式,动态窗口则自适应建模跨区域演化关系;

  3. 3.

    域交互模块(DIM):利用双交叉注意力机制融合多域情感线索,学习跨域依赖关系。

Experiment results and analysis

实验结果与分析

在IEMOCAP、EMODB和CASIA数据集上的实验表明,TF-DWFormer识别准确率分别达73.68%、91.67%和92.59%,优于现有SER方法。可视化结果验证了模型对情感关键区域的定位能力。

Discussion and conclusion

讨论与结论

TF-DWFormer通过动态窗口机制实现了情感显著区域的精确定位,并有效融合静态局部特征与动态全局表征。未来工作将探索更复杂场景下的泛化能力。

CRediT authorship contribution statement

作者贡献声明

Yonghong Fan:主导实验设计与论文撰写;Heming Huang:提供方法论指导与资金支持;Huiyun Zhang:负责数据验证与分析;Ziqi Zhou:参与论文修订与理论完善。

Declaration of competing interest

利益冲突声明

作者声明无任何可能影响本研究结果的财务或个人利益冲突。

Acknowledgments

致谢

感谢青海省自然科学基金(2022-ZJ-925)和国家自然科学基金(62066039)的资助,以及审稿人的宝贵意见。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号