ForgeFinder:通过多粒度伪造定位实现精准的多模态深度伪造检测

《ACM Transactions on Multimedia Computing, Communications, and Applications》:ForgeFinder: Perceptive Multimodal Deepfake Detection via Multi-grained Forgery Localization

【字体: 时间:2025年11月25日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  多模态Deepfake检测框架ForgeFinder通过整合跨模态注意力机制和时空自注意力模块,实现了对视频与音频模态及时空维度的细粒度伪造定位。该框架采用Intra-MIE探索模内不一致性,利用SSTSA在原始维度进行时空自注意力计算;Cross-MIE通过引入时间偏移项的OSCA解决跨模态时序错位问题,最终可判别整体真伪并精确定位伪造的模态、时序及空间坐标。实验表明其检测性能最优,且能有效识别扩散模型生成的Deepfake内容。

  

摘要

深度伪造技术如今能够生成包含视频和音频轨道的多模态内容。与单模态的深度伪造图像、视频或音频相比,多模态深度伪造内容更具欺骗性,更容易导致仇恨言论、暴力煽动和虚假信息的传播。因此,多模态深度伪造的检测近年来受到了大量研究关注。尽管交叉注意力在模拟多模态深度伪造检测中音频和视频之间的复杂依赖关系方面展现出巨大潜力,但如果音频和视频在时间维度上不对齐,它就无法准确学习到跨模态的模式。此外,目前大多数多模态深度伪造检测器仅提供二分类标签,缺乏在多个维度(如模态、时间和空间维度)上对伪造内容的精细定位能力。在这项研究中,我们提出了一个名为ForgeFinder的新多模态深度伪造检测框架,该框架超越了二分类标签预测,实现了在模态和时空维度上的多粒度伪造定位。ForgeFinder结合了模内和模间不一致性来进行多模态输入的分类。具体来说,我们在模内不一致性探索器(Intra-MIE)中采用了串行时空自注意力(SSTSA),使得时间自注意力能够在原始维度上运行,而不会带来过高的计算复杂度。在模间不一致性探索器(Cross-MIE)中,我们通过引入时间偏移项来改进传统的交叉注意力,以减轻由于时间不对齐导致的跨模态依赖关系建模的不准确性。通过利用Intra-MIE的输出处理单模态任务,我们可以识别出被篡改的模态,并定位这些篡改部分。同时,SSTSA的注意力权重可以被可视化,从而确定深度伪造操作的时间和空间分布。因此,对于单个音视频输入样本,ForgeFinder不仅能够判断整个输入的真实性,还能定位出伪造内容的模态、时间序列和空间坐标,极大地促进了更全面的取证分析。大量实验结果表明,ForgeFinder在模态和时空维度上实现了先进的检测性能以及准确的伪造定位。此外,针对扩散模型(DMs)生成的内容进行的实验也表明,我们的模型能够有效识别这些模型生成的内容。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号