基于模糊逻辑的多模态漫画情感识别框架:融合背景色、面部表情与文本情感分析

【字体: 时间:2025年05月22日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本研究针对漫画情感识别中多模态信息割裂的难题,创新性地提出融合背景色(HSV)、面部表情(ViT)和文本情感(AFINN)的模糊逻辑框架。通过2,000张漫画面板的验证,模型准确率达93.7%,首次实现跨模态情感线索的协同解析,为内容标注、无障碍阅读及情感计算提供新范式。

  

漫画作为融合视觉与文本叙事的独特媒介,其情感表达依赖背景色、夸张的面部表情和对话文本的协同作用。然而,现有研究多局限于单一模态分析,例如仅通过文本情感词典或传统卷积神经网络(CNN)处理面部图像,导致对漫画中复杂情感线索的误判。更关键的是,不同模态间可能呈现矛盾信号——如欢快对话配以冷色调背景,传统算法难以量化这种冲突。这一挑战随着漫画在数字内容推荐、心理健康评估等领域的应用而愈发凸显。

为突破这一瓶颈,研究人员开发了首个基于模糊逻辑的多模态情感识别框架。该研究首先构建了包含2,000张跨流派漫画面板的标注数据集,通过三阶段分析提取多维度特征:采用HSV色彩空间量化背景色情绪倾向,利用视觉Transformer(ViT)捕捉漫画特有的夸张表情特征,结合AFINN词典解析对话文本情感极性。创新性地引入模糊逻辑系统,通过隶属度函数处理各模态输出的不确定性,最终实现跨模态决策融合。

Phase 1: Background color analysis
通过k-means聚类提取主导背景色,建立HSV值与六种基础情感的映射规则。实验表明冷色调(H>200)与悲伤情绪显著相关,该模块使整体准确率提升2.5%。

Phase 2: Facial expression analysis
域适应优化的ViT模型在漫画风格表情识别中准确率达89.2%,较传统CNN提升5.1%。关键发现包括:上扬嘴角(curvature>0.3)与快乐情绪强相关,而眉毛内聚(distance<15像素)标记愤怒状态。

Phase 3: Text analysis
AFINN词典结合语境加权策略,成功识别出17.3%案例中文本与视觉模态的情感冲突,如"太好了"在冷色调背景下被重新归类为"反讽"。

Fusion using fuzzy logic
设计的27条模糊规则(如"IF 文本=积极 AND 颜色=暖 AND 表情=微笑 THEN 输出=高置信度快乐")有效协调多模态矛盾,使F1-score提升3.1%。

该研究的突破性体现在三方面:技术上首次将ViT应用于漫画表情识别,理论层面提出可解释的模糊融合规则,应用上支持实时分析(4.5秒/面板)。其构建的开放数据集和模块化框架,为后续研究提供了跨艺术风格情感计算的新基准。值得注意的是,背景色分析模块揭示了色彩饱和度(S>80%)对情绪强度预测的关键作用,这一发现对设计情感化视觉内容具有直接指导价值。

讨论部分强调,该框架的适应性使其能处理日漫、美漫等不同画风,但需进一步解决超现实主义漫画的语义解析难题。未来工作可探索生成式AI(如Stable Diffusion)合成训练数据,以扩大模型覆盖的情感谱系。这项发表于《Expert Systems with Applications》的研究,标志着情感计算从现实场景向艺术化表达的重要跨越。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号