
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多模态多任务深度学习的语音情感与社交属性识别框架M2-S2ETH研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:Knowledge-Based Systems 7.2
编辑推荐:
针对现有方法难以处理长音频片段和多重社交属性分析的局限,研究人员开发了多模态多任务框架M2-S2ETH,结合Wav2Vec2.0和RoBERTa模型,通过流式注意力机制处理变长音频,在自建数据集MuSETHS上实现情感(78.68% F1)、讽刺(83.08% F1)等五类任务同步分类,为社交媒体内容分析提供新范式。
随着社交媒体的爆炸式增长,视频内容已成为网络交流的主要载体。这些视频中蕴含的复杂情感信号——从直白的情绪表达到微妙的讽刺幽默,再到具有伤害性的毒性言论,构成了数字时代人际互动的丰富图谱。然而现有分析方法面临三重困境:一是依赖10-30秒短音频的标准化数据集(如IEMOCAP、CMU-MOSEI),难以捕捉长视频中的上下文关联;二是多数研究孤立处理单一情感维度,忽视情感、讽刺(sarcasm)、幽默(humor)等属性的协同作用;三是缺乏能同时处理多模态(语音与文本)和多任务的统一框架。
针对这些挑战,国内研究人员开发了创新性框架M2-S2ETH(Multimodal Multi-task framework for Sentiment, Sarcasm, Emotion, Toxicity and Humor recognition)。该研究通过YouTube API构建了包含1078段平均时长1.23分钟视频的MuSETHS数据集,首次系统性地将长音频分析与多重社交属性识别相结合。论文发表于《Knowledge-Based Systems》,展示了该框架在五项任务上的突破性表现:情感识别F1值达78.68%,幽默检测更创下84.56%的优异指标。
关键技术方法包括:1)采用Wav2Vec2.0处理音频特征和RoBERTa提取文本特征的双模态基础架构;2)创新性流式注意力机制(Streaming Attention)解决长序列上下文依赖问题;3)通过分层全连接网络实现模态间晚期融合(late fusion);4)多任务学习框架共享底层特征同时保留任务特异性。实验使用时间拉伸、音高偏移等数据增强技术提升模型鲁棒性。
研究结果部分显示:
讨论部分强调,该研究首次系统论证了长音频片段中多重社交属性的可识别性。通过自适应时间压缩策略(time compression strategy)处理变长输入,相比传统截断方法保留更多时序特征。作者特别指出,社交媒体真实环境中的背景噪声和语音多样性,通过数据增强策略被有效转化为模型优势。未来工作将扩展至更多语言环境,并探索视觉模态的融合潜力。
这项研究的核心价值在于:1)构建首个面向长视频多属性分析的标准化数据集MuSETHS;2)提出可扩展的多模态融合范式,为后续社交媒体内容审核、心理健康监测等应用奠定基础;3)验证注意力机制在长时序分析中的独特优势,为相关领域提供方法论参考。正如研究者Harish Pratap Singh和Puneet Prashar等所述,M2-S2ETH框架标志着情感计算从实验室可控环境向真实复杂场景的重要跨越。
生物通微信公众号
知名企业招聘