《Journal of Imaging》:WAFF: A Synergetic Face Forgery Video Detection Method via Weakly Supervised EfficientNet
编辑推荐:
深度伪造检测(Deepfake Detection)已成为保障数字媒体真实性与安全性的关键任务。尽管近期方法取得显著进展,现有检测器对未见伪造技术的泛化能力仍有限,且易受压缩、噪声及对抗攻击等常见扰动的干扰。为解决上述问题,研究人员提出WAFF(Weakly
深度伪造检测(Deepfake Detection)已成为保障数字媒体真实性与安全性的关键任务。尽管近期方法取得显著进展,现有检测器对未见伪造技术的泛化能力仍有限,且易受压缩、噪声及对抗攻击等常见扰动的干扰。为解决上述问题,研究人员提出WAFF(Weakly Supervised EfficientNet Augmented Face Forgery Detector,弱监督EfficientNet增强人脸伪造检测器),一种将细粒度逐帧分析与自适应视频级融合相结合的新型框架。具体而言,WAFF集成了WSEffiNet——一种以EfficientNet-B3为骨干、增强有弱监督数据增强网络(WS-DAN)的架构。该设计通过生成注意力图(Attention Maps)以突出细微人脸伪造伪影,同时促进互补的局部-全局特征学习。在视频级,WAFF引入多策略融合方案,结合伪造帧计数、置信度平均与注意力引导投票,以平衡灵敏度与稳定性。在FaceForensics++、Celeb-DF v2、DFD、DFDC及FFIW-10K上的大量实验表明,WAFF在高、低质量压缩下均能达到当前最优(State-of-the-Art)性能,同时提升了跨数据集泛化能力。
WAFF:一种基于弱监督EfficientNet的协同式人脸伪造视频检测方法——论文解读
一、研究背景与意义
随着深度生成模型的发展,Deepfake(深度伪造)技术从专业研究走向大众化工具,可低成本生成高逼真度的人脸篡改视频。尽管其在影视后期与虚拟试穿等领域有正向应用,但也被广泛用于制造虚假信息、敲诈与破坏公共信任。因此,高效、鲁棒的人脸伪造检测成为数字取证的迫切需求。
现有方法多将检测建模为二分类问题,主要分为两类:基于单帧的空间分析与基于多帧的时序分析。帧级方法可捕捉上采样伪影、边界色差等,但对未知伪造类型与强压缩敏感;时序方法利用光流、眨眼频率等提升抗压缩性,却计算开销大,难以实时部署。更核心的痛点是:跨数据集泛化差,且对压缩、噪声、对抗扰动鲁棒性不足。
为此,研究人员提出了WAFF框架,发表于《Journal of Imaging》,旨在兼顾帧级细微伪影感知与视频级稳定决策,同时以弱监督方式降低标注成本并提升跨域鲁棒性。
二、主要关键技术方法
研究人员以FaceForensics++(c23)为主训练集,并在Celeb-DF v2、DFD、DFDC、FFIW-10K上做跨数据集测试。核心方法包括:
1)预处理:每秒采1帧,用RetinaFace检脸,取最大脸框扩1.3倍,基于五点landmark做相似变换对齐,统一缩至300×300,按ImageNet归一化。
2)骨干网络:以EfficientNet-B3为基底(输入调为300×300,后层通道微改),保留MBConv与SE模块,符合复合缩放原则(d=1.2,w=1.4,r=1.4)。
3)弱监督注意力:在骨干末端加1×1卷积生成M张注意力图,通过双线性注意力池化(Bilinear Attention Pooling, BAP)加权空间特征,配合sign–sqrt与L2归一化;训练中用注意力裁剪(Attention Cropping)与注意力丢弃(Attention Dropping)做多路径增强。
4)损失函数:联合交叉熵与中心损失(Center Loss),权重0.05。
5)视频级决策:融合伪造帧计数、平均置信度、关键帧(K=10)软多数投票,以及注意力加权扩展——AGFD(Attention-Guided Fusion Decision)。
训练用NVIDIA A40,PyTorch 2.12,SGD+momentum,余弦退火LR,batch=16,epoch=20,早停耐心=7。
三、研究结果
3.1 WSEffiNet架构
研究人员将WS-DAN与EfficientNet-B3结合形成WSEffiNet。特征图经1×1卷积出M张注意力图,BAP按注意力加权求和得高维描述子,再经sign–sqrt与L2归一化送入全连接层。多路径训练同时对原始、裁剪、丢弃图像做预测,联合优化。消融表明此设计约12M参数、1.8B FLOPs,效率与原生B3相当,但更敏感于眼周、嘴周、鼻周局部伪影。
3.2 决策规则(Decision Rules)
视频被采样为N帧,每帧输出伪造概率pi。研究人员对比四种规则:
- •
伪造帧计数(FFC):任pi>τf即判假;
- •
置信度平均(CA):若均值>τc判假;
- •
关键帧投票(KFV):选K帧高响应帧,比例>ρ判假;
- •
注意力引导融合(AGFD):结合注意力权重做软聚合。
在混合基准(FF++, CDF, DFDC-P各500实/假)上,AGFD取得最高ACC与AUC,兼顾稀疏伪影灵敏度和孤立误报抑制。阈值τf,τc,K,ρ由验证集网格搜索固定,避免测试集过拟合。
3.3 预处理
统一1 fps采样→RetinaFace最大脸→扩框1.3倍→五点landmark相似变换对齐→300×300裁剪→ImageNet归一化。无脸帧跳过,全无脸视频记为预处理失败不计入量化。该流程保证几何一致性与语义聚焦,减少姿态、尺度引入的噪声。
3.4 数据增强
不同于随机翻转/色彩抖动,研究人员用模型自身注意力图做定向增强:选两张高激活图,一张定裁剪区(保留最判别局部放大到原尺寸),一张定丢弃掩码(置零或中性值)。同一batch含原图+裁剪+丢弃,增广类内方差,强迫模型学互补区域,防过拟合单一显著块。
四、实验与讨论总结
4.1 实验设置
- •
数据集:训练用FF++(c23),测试含同数据集c23/c40及跨数据集CDF、DFD、DFDC、DFDC-P、FFIW-10K。
- •
指标:同分布用ACC与AUC;跨数据集以AUC为主(阈值无关、更稳)。
- •
训练:A40 GPU,SGD,初始LR=0.001余弦退火,batch=16,20 epoch,早停。
4.2 性能评估
- •
同数据集:c23下ACC=98.87%(最优),AUC=98.42%(次优,FD-GAN略高);c40下ACC=93.21%(最优),AUC=96.57%(具竞争力)。t-SNE显示高低质下实/假特征均大致可分。
- •
跨数据集:WAFF达最优AUC——CDF 87.43%、DFD 96.02%、DFDC 79.63%、DFDC-P 82.57%、FFIW-10K 74.30%,较Xception、Face X-ray等提升约5–10%。
- •
生成类型诊断:轻量子集上DeepFakes易检,NeuralTextures较难;假阳性多来自低分辨率/强压/运动模糊/极端姿态;假阴性常因伪影稀疏或仅少数帧含篡改。
- •
融合规则诊断:KFV降FN,CA降FP,AGFD平衡二者。
- •
鲁棒与部署:人脸对齐、注意力增强与验证集校准的视频融合提升实用稳定性;实时场景可用更少采样帧。
4.3 消融研究
- •
骨干选择:EfficientNet-B3在参量/FLOPs与精度间最优(ACC 81.1%,12M, 1.8B FLOPs),被选为WAFF骨干。
- •
决策规则:AGFD > KFV > CA > FFC,验证注意力加权融合优势。
- •
增强策略:无增强<随机增强<注意力引导增强;跨域CDF、DFDC-P下注意力增强带来明显ACC/AUC提升。
- •
弱监督vs全监督:全监督(WAFF-FS,用Face X-ray伪掩膜+区域一致性损失)在FF++微升(+0.42 AUC),但跨域降3–5 AUC;弱监督更通用。
- •
采样与预处理:1 fps(~120 ms/视频,PV=0.021)已够;提至4 fps仅微降PV却飙至380 ms;去对齐使PV翻倍至0.047,决策不稳。故1 fps+对齐为优。
五、结论翻译与意义
研究人员提出WAFF,一种融合WSEffiNet与灵活视频级融合的人脸伪造检测框架。WSEffiNet以EfficientNet-B3为基,通过弱监督数据增强网络(WS-DAN)生成细粒度注意力图以突出细微伪造伪影。视频级上,注意力引导决策融合平衡了局部篡改灵敏度和噪声/压缩鲁棒性。多基准实验表明,WAFF在同数据集上持续领先,且在跨数据集评估中优于现有方法,确认了其鲁棒性、泛化性与部署效率。当前局限包括对人脸检测对齐的依赖、EfficientNet-B3对极异源攻击的进一步适配需求、视频聚合延迟及长时运动不一致建模不足。未来将探索更轻量架构、自适应时序建模与可解释可视化工具。《Journal of Imaging》刊发此项工作,为现实世界深度伪造取证提供了兼顺精度与效率的新思路。