DeepfakeCLIP：基于语义对立提示学习的泛化性深度伪造检测新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月26日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　本文提出DeepfakeCLIP创新框架，通过CLIP模型的视觉-语言联合表征能力，采用语义对立文本提示（prompt）学习策略实现深度伪造图像的泛化检测。该方法突破传统依赖特定图像特征的局限，通过全局-局部上下文优化与文本空间微调模块，在GAN和Diffusion Models生成图像的多元数据集上展现出卓越的准确率与平均精度提升。

亮点

本研究的主要贡献如下：

• 我们探索利用CLIP的双编码器（图像与文本）提升深度伪造检测模型的泛化能力，创新性地构建了利用CLIP多模态优势的检测框架。

• 提出DeepfakeCLIP方法，通过语义对比文本提示（包含对象无关模板和提示对比损失）有效学习真实与生成图像的特征差异，增强文本编码器在深度伪造识别中的判别能力。

• 大量实验表明，DeepfakeCLIP在涵盖GAN与扩散模型的深度伪造数据集上均取得领先性能，即使在有限训练数据下仍保持强大的跨领域泛化能力。

预训练视觉-语言模型

CLIP等预训练视觉-语言模型通过4亿图像-文本对的对比学习，将视觉与文本特征映射到共享嵌入空间。这种联合表征使其在零样本和少样本场景中表现卓越，广泛应用于图像分类、图文检索等任务。

方法概述

DeepfakeCLIP框架通过语义对立文本提示学习增强CLIP的深度伪造检测能力。如图2所示，该方法采用对象无关的文本提示模板生成两个语义对立的提示：一个聚焦真实图像的核心特征，另一个针对深度伪造图像的共性特征。通过最小化文本提示特征与对应图像特征的余弦相似度，同时最大化对立提示间的特征距离，实现更具判别力的表征。此外，引入 refinement 模块微调文本特征空间，提升图文对齐效果。

训练数据集

训练数据来源于ForenSynths数据集，包含20个物体类别，每个类别含ProGAN生成的1.8万张合成图像及LSUN数据集的等量真实图像。遵循前人研究，选取汽车、猫、椅子、马四类代表性数据进行训练。

测试数据集

为评估模型在真实场景中的泛化性能，测试集涵盖多类生成模型（如StyleGAN、Diffusion Models）产生的图像，并包含跨域分布差异的挑战性样本。

结论

DeepfakeCLIP通过语义对立文本提示与 refinement 模块的协同设计，在GAN与扩散模型生成的深度伪造检测中表现优异。实验验证该方法在有限训练数据下仍具竞争力，为多模态伪造检测提供了新思路。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号