动态窗口时序-频域联合分层Transformer模型在语音情感识别中的创新应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月07日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　本文提出了一种创新的TF-DWFormer模型（动态窗口时序-频域联合分层Transformer），通过特征重构模块（FRM）实现多域特征提取，结合高低频情感分区策略与双窗口注意力机制（局部静态窗口+动态跨区域窗口），显著提升了语音情感识别（SER）在IEMOCAP等数据集上的准确率（最高达92.59%），为自然人机交互（HCI）提供了关键技术突破。

Highlight

本研究亮点在于开发了TF-DWFormer模型，通过动态窗口机制精准捕捉语音信号中情感关键区域，结合时序、频域及时频联合特征，显著提升情感状态识别精度。

Methodology

方法学

如图2(a)所示，TF-DWFormer包含三大模块：

1.
特征重构模块（FRM）：从声谱图中分别提取时序、频域及时频联合特征；
2.
情感区域线索学习模块（ERCLM）：通过局部静态窗口分析区域内细粒度情感模式，动态窗口则自适应建模跨区域演化关系；
3.
域交互模块（DIM）：利用双交叉注意力机制融合多域情感线索，学习跨域依赖关系。

Experiment results and analysis

实验结果与分析

在IEMOCAP、EMODB和CASIA数据集上的实验表明，TF-DWFormer识别准确率分别达73.68%、91.67%和92.59%，优于现有SER方法。可视化结果验证了模型对情感关键区域的定位能力。

Discussion and conclusion

讨论与结论

TF-DWFormer通过动态窗口机制实现了情感显著区域的精确定位，并有效融合静态局部特征与动态全局表征。未来工作将探索更复杂场景下的泛化能力。

CRediT authorship contribution statement

作者贡献声明

Yonghong Fan：主导实验设计与论文撰写；Heming Huang：提供方法论指导与资金支持；Huiyun Zhang：负责数据验证与分析；Ziqi Zhou：参与论文修订与理论完善。

Declaration of competing interest

利益冲突声明

作者声明无任何可能影响本研究结果的财务或个人利益冲突。

Acknowledgments

致谢

感谢青海省自然科学基金（2022-ZJ-925）和国家自然科学基金（62066039）的资助，以及审稿人的宝贵意见。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号