DeepfakeCLIP:基于语义对立提示学习的泛化性深度伪造检测新方法

【字体: 时间:2025年10月26日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文提出DeepfakeCLIP创新框架,通过CLIP模型的视觉-语言联合表征能力,采用语义对立文本提示(prompt)学习策略实现深度伪造图像的泛化检测。该方法突破传统依赖特定图像特征的局限,通过全局-局部上下文优化与文本空间微调模块,在GAN和Diffusion Models生成图像的多元数据集上展现出卓越的准确率与平均精度提升。

  
亮点
本研究的主要贡献如下:
• 我们探索利用CLIP的双编码器(图像与文本)提升深度伪造检测模型的泛化能力,创新性地构建了利用CLIP多模态优势的检测框架。
• 提出DeepfakeCLIP方法,通过语义对比文本提示(包含对象无关模板和提示对比损失)有效学习真实与生成图像的特征差异,增强文本编码器在深度伪造识别中的判别能力。
• 大量实验表明,DeepfakeCLIP在涵盖GAN与扩散模型的深度伪造数据集上均取得领先性能,即使在有限训练数据下仍保持强大的跨领域泛化能力。
预训练视觉-语言模型
CLIP等预训练视觉-语言模型通过4亿图像-文本对的对比学习,将视觉与文本特征映射到共享嵌入空间。这种联合表征使其在零样本和少样本场景中表现卓越,广泛应用于图像分类、图文检索等任务。
方法概述
DeepfakeCLIP框架通过语义对立文本提示学习增强CLIP的深度伪造检测能力。如图2所示,该方法采用对象无关的文本提示模板生成两个语义对立的提示:一个聚焦真实图像的核心特征,另一个针对深度伪造图像的共性特征。通过最小化文本提示特征与对应图像特征的余弦相似度,同时最大化对立提示间的特征距离,实现更具判别力的表征。此外,引入 refinement 模块微调文本特征空间,提升图文对齐效果。
训练数据集
训练数据来源于ForenSynths数据集,包含20个物体类别,每个类别含ProGAN生成的1.8万张合成图像及LSUN数据集的等量真实图像。遵循前人研究,选取汽车、猫、椅子、马四类代表性数据进行训练。
测试数据集
为评估模型在真实场景中的泛化性能,测试集涵盖多类生成模型(如StyleGAN、Diffusion Models)产生的图像,并包含跨域分布差异的挑战性样本。
结论
DeepfakeCLIP通过语义对立文本提示与 refinement 模块的协同设计,在GAN与扩散模型生成的深度伪造检测中表现优异。实验验证该方法在有限训练数据下仍具竞争力,为多模态伪造检测提供了新思路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号