
-
生物通官微
陪你抓住生命科技
跳动的脉搏
动态窗口时序-频域联合分层Transformer模型在语音情感识别中的创新应用
【字体: 大 中 小 】 时间:2025年09月07日 来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
本文提出了一种创新的TF-DWFormer模型(动态窗口时序-频域联合分层Transformer),通过特征重构模块(FRM)实现多域特征提取,结合高低频情感分区策略与双窗口注意力机制(局部静态窗口+动态跨区域窗口),显著提升了语音情感识别(SER)在IEMOCAP等数据集上的准确率(最高达92.59%),为自然人机交互(HCI)提供了关键技术突破。
Highlight
本研究亮点在于开发了TF-DWFormer模型,通过动态窗口机制精准捕捉语音信号中情感关键区域,结合时序、频域及时频联合特征,显著提升情感状态识别精度。
Methodology
方法学
如图2(a)所示,TF-DWFormer包含三大模块:
特征重构模块(FRM):从声谱图中分别提取时序、频域及时频联合特征;
情感区域线索学习模块(ERCLM):通过局部静态窗口分析区域内细粒度情感模式,动态窗口则自适应建模跨区域演化关系;
域交互模块(DIM):利用双交叉注意力机制融合多域情感线索,学习跨域依赖关系。
Experiment results and analysis
实验结果与分析
在IEMOCAP、EMODB和CASIA数据集上的实验表明,TF-DWFormer识别准确率分别达73.68%、91.67%和92.59%,优于现有SER方法。可视化结果验证了模型对情感关键区域的定位能力。
Discussion and conclusion
讨论与结论
TF-DWFormer通过动态窗口机制实现了情感显著区域的精确定位,并有效融合静态局部特征与动态全局表征。未来工作将探索更复杂场景下的泛化能力。
CRediT authorship contribution statement
作者贡献声明
Yonghong Fan:主导实验设计与论文撰写;Heming Huang:提供方法论指导与资金支持;Huiyun Zhang:负责数据验证与分析;Ziqi Zhou:参与论文修订与理论完善。
Declaration of competing interest
利益冲突声明
作者声明无任何可能影响本研究结果的财务或个人利益冲突。
Acknowledgments
致谢
感谢青海省自然科学基金(2022-ZJ-925)和国家自然科学基金(62066039)的资助,以及审稿人的宝贵意见。
生物通微信公众号
知名企业招聘