EmoFusion:基于嵌入与情感词典融合的文本情感分类优化模型

【字体: 时间:2025年07月01日 来源:Machine Learning with Applications

编辑推荐:

  研究人员针对文本情感分类中单一情感词典覆盖不全、语义鸿沟等问题,提出集成预训练词嵌入(GloVe)与多情感词典(EmoLex/EmoSenticNet等)的轻量化模型EmoFusion。通过动态融合语义相似特征与情感特征,在GoEmotions等3个基准数据集上实现最高63.6%准确率,较基线提升14.1%,为心理健康监测等应用提供高效分类工具。

  

在Web 2.0时代,社交媒体成为人们表达情感的重要渠道,但文本情感分类仍面临巨大挑战。不同于简单判断正负面情绪的情感分析(Sentiment Analysis),精细化的情感分类(Emotion Classification)需要识别愤怒、恐惧等具体情绪,这对心理健康监测、人机交互等领域至关重要。然而现有方法存在两大瓶颈:一是单一情感词典(如EmoLex)难以覆盖所有情感词汇,二是语义相似的词汇(如"happy"和"sad")可能在特定语境中产生混淆。

针对这些问题,研究人员开发了EmoFusion模型。该模型创新性地融合了四种情感词典资源——包括基于离散情感的EmoLex和EmoSenticNet,以及基于维度模型的NRC-VAD(Valence-Arousal-Dominance)和NRC-EIL(Emotion Intensity Lexicon),通过Glove词向量构建196维复合特征。特别设计了情感特异性预处理流程,将表情符号转换为文本表征,并利用AFINN-165情感词典过滤语义相似词,确保"愤怒"类词汇不会错误关联到正面情感词。

关键技术包括:(1)基于余弦相似度的Top-5情感词筛选;(2)多词典特征拼接生成16维语言学向量;(3)BiLSTM/BiGRU分类器优化。实验采用GoEmotions(Reddit评论)、CBET(推特平衡数据集)和TEC(推特主题语料)三个基准数据集,按7:3划分训练测试集。

研究结果显示:在GoEmotions数据集上,EmoFusion的BiLSTM分类器达到63.6%准确率,较传统TF-IDF方法提升14.1%。针对具体情绪,"愤怒"分类的F1值提升4.8%,但"厌恶"因语义模糊下降9.0%。案例研究显示,模型能准确识别"hostile"等关键词及其关联词簇("harsh","angry"等),但对"Eat crow"等俚语仍需依赖上下文理解。

统计检验证实,EmoFusion在p<0.1水平上显著优于所有基线方法。虽然BERT等Transformer模型能提升1.5-2.2%准确率,但其768维特征空间的计算成本是EmoFusion的2倍。该研究为资源受限场景提供了高效解决方案,未来可通过融入多模态数据提升对 sarcasm(讽刺)等复杂表达的识别能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号