DeepfakeCLIP:基于语义对立提示学习的泛化性深度伪造检测新方法
【字体:
大
中
小
】
时间:2025年10月26日
来源:Knowledge-Based Systems 7.6
编辑推荐:
本文提出DeepfakeCLIP创新框架,通过CLIP模型的视觉-语言联合表征能力,采用语义对立文本提示(prompt)学习策略实现深度伪造图像的泛化检测。该方法突破传统依赖特定图像特征的局限,通过全局-局部上下文优化与文本空间微调模块,在GAN和Diffusion Models生成图像的多元数据集上展现出卓越的准确率与平均精度提升。
• 我们探索利用CLIP的双编码器(图像与文本)提升深度伪造检测模型的泛化能力,创新性地构建了利用CLIP多模态优势的检测框架。
• 提出DeepfakeCLIP方法,通过语义对比文本提示(包含对象无关模板和提示对比损失)有效学习真实与生成图像的特征差异,增强文本编码器在深度伪造识别中的判别能力。
• 大量实验表明,DeepfakeCLIP在涵盖GAN与扩散模型的深度伪造数据集上均取得领先性能,即使在有限训练数据下仍保持强大的跨领域泛化能力。
CLIP等预训练视觉-语言模型通过4亿图像-文本对的对比学习,将视觉与文本特征映射到共享嵌入空间。这种联合表征使其在零样本和少样本场景中表现卓越,广泛应用于图像分类、图文检索等任务。
DeepfakeCLIP框架通过语义对立文本提示学习增强CLIP的深度伪造检测能力。如图2所示,该方法采用对象无关的文本提示模板生成两个语义对立的提示:一个聚焦真实图像的核心特征,另一个针对深度伪造图像的共性特征。通过最小化文本提示特征与对应图像特征的余弦相似度,同时最大化对立提示间的特征距离,实现更具判别力的表征。此外,引入 refinement 模块微调文本特征空间,提升图文对齐效果。
训练数据来源于ForenSynths数据集,包含20个物体类别,每个类别含ProGAN生成的1.8万张合成图像及LSUN数据集的等量真实图像。遵循前人研究,选取汽车、猫、椅子、马四类代表性数据进行训练。
为评估模型在真实场景中的泛化性能,测试集涵盖多类生成模型(如StyleGAN、Diffusion Models)产生的图像,并包含跨域分布差异的挑战性样本。
DeepfakeCLIP通过语义对立文本提示与 refinement 模块的协同设计,在GAN与扩散模型生成的深度伪造检测中表现优异。实验验证该方法在有限训练数据下仍具竞争力,为多模态伪造检测提供了新思路。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号