在保护隐私的卷积神经网络(CNN)推理中优化的同态线性计算
《Expert Systems with Applications》:Optimized Homomorphic Linear Computation in Privacy-Preserving CNN Inference
【字体:
大
中
小
】
时间:2025年09月19日
来源:Expert Systems with Applications 7.5
编辑推荐:
本文提出一种自适应多模态语义知识增强框架,通过情绪感知的视觉语言模型提取图像情感语义,结合OCR处理高文本密度图像,并利用双向跨模态注意力与图注意力机制优化模态交互,在MSD和MMSD 2.0数据集上实现检测准确率和F1分数的显著提升,同时降低计算开销。
本文探讨了多模态讽刺检测(Multimodal Sarcasm Detection, MSD)领域的最新进展,并提出了一种创新的框架以提升检测性能。随着社交媒体的广泛应用,用户在表达观点时常常采用讽刺这一语言技巧,而这种表达方式往往具有情绪上的反差,即表面上的语义与实际传达的情绪并不一致。因此,自动识别讽刺内容对于理解用户的真实意图具有重要意义,尤其是在情感计算和自然语言处理等任务中。
近年来,多模态讽刺检测受到了广泛关注。研究者们尝试从图像和文本中提取高级语义信息,以增强模型对讽刺的理解能力。然而,尽管这些方法在一定程度上提升了性能,但仍有部分关键的情绪信息未被充分考虑,尤其是在图像中所表达的情绪与文本内容不一致的情况下,这种忽略可能导致模型对讽刺的识别不够准确。为此,本文提出了一种基于语义知识增强的多模态讽刺检测框架,旨在通过更全面地挖掘图像中的情绪信息,从而提升模型的整体表现。
该框架的核心思想是构建一个辅助的语义知识模态,该模态通过图像中的情绪感知信息进行增强。首先,设计了一个自适应的处理流程,以提取图像中的情绪感知语义,并将其作为辅助模态,从而增强多模态特征表示。通过引入双向跨模态注意力机制和图注意力机制,模型能够更有效地分析不同模态之间的交互关系,进一步提升讽刺检测的准确性。此外,该框架还结合了图像和文本模态的特征,通过图结构和双向注意力机制进行融合,使得模型能够更好地捕捉跨模态的情感不一致。
为了验证所提出方法的有效性,本文在两个公开的多模态讽刺检测数据集上进行了广泛的实验。这两个数据集分别是MSD和MMSD 2.0,涵盖了大约19,000条推文样本。实验结果表明,所提出的方法在讽刺检测的准确率和F1-score方面均优于现有的强基线模型,如DIP和KnowleNet。此外,基于ViT(Vision Transformer)架构的模型在计算开销方面也具有优势,这表明其在实际部署中的潜力。
本文的研究还指出,尽管现有的多模态讽刺检测方法在提取图像和文本的高级语义信息方面取得了一定进展,但这些方法往往忽略了图像中所包含的情绪信号。情绪信号在讽刺检测中具有重要作用,尤其是在图像和文本之间存在情感不一致的情况下,例如正面的文本与负面的图像结合。因此,本文提出的方法通过自适应处理流程,能够更好地识别图像中的文本成分,并根据不同的文本密度选择不同的处理方式,如在文本较多的图像中使用OCR技术提取语义,而在文本较少的图像中则利用视觉语言模型生成情感丰富的描述。
在实验部分,本文还通过消融实验分析了不同组件对模型性能的影响。结果表明,情绪感知的视觉语言模型和双向注意力机制是提升模型性能的关键因素。此外,所提出的框架在处理情感不一致的图像和文本对时表现出更强的适应能力,这使得模型能够更准确地识别讽刺内容。
本文的贡献主要体现在三个方面。首先,提出了一种基于图像的语义知识增强框架,该框架通过自适应处理图像,构建了一个辅助模态,从而提升多模态特征表示的能力。其次,首次将情绪感知引入视觉语言模型中,以提升讽刺检测的准确性。通过使用BLIP-2作为模型的基础,本文能够在图像中提取出更丰富的情感特征,并生成更具情感色彩的语义描述。最后,提出了一种双路径注意力机制,该机制结合了图注意力和双向跨模态注意力,能够同时捕捉模态内部的结构信息和模态之间的语义不一致,从而提升模型的整体表现。
综上所述,本文通过引入情绪感知的辅助模态和双路径注意力机制,为多模态讽刺检测提供了一种新的解决方案。该方法不仅提升了检测的准确性,还增强了模型的可解释性和适应性,为未来的研究提供了新的方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号