编辑推荐:
针对现有伪造图像检测方法在跨模型测试中性能下降问题,研究人员开展基于预训练视觉语言空间的伪造图像检测研究,设计 DWTA 和 CSFA 模块,实现跨模态特征语义对齐。实验表明方法泛化性优越,为检测提供新思路。
随着生成对抗网络(GANs)和扩散模型的飞速发展,逼真合成图像的大量涌现带来了严峻的安全挑战。这些几乎难辨真假的图像可能被用于虚假信息传播、隐私侵犯等场景,然而现有检测方法却面临显著瓶颈:基于预训练模型的固定范式过度关注全局特征,忽视局部高频异常,且单一特征提取器难以适应多源伪造特征的分布差异,导致跨模型检测时精度大幅下降。如何让检测模型同时捕捉全局结构异常与局部细节瑕疵,并实现跨生成方法的泛化能力,成为亟待突破的关键问题。
为攻克这一难题,国内研究人员开展了相关研究,其成果发表在《Digital Signal Processing》。研究团队基于预训练 CLIP 视觉语言空间,提出了 GLFAFormer 模型,旨在通过创新的特征提取与对齐机制,提升伪造图像检测的跨模型泛化性能。
研究中采用的关键技术方法包括:一是设计 Deep Window Triple Attention(DWTA)模块,通过类似密集滑动窗口策略捕捉多尺度局部异常模式,并利用三重注意力机制增强对生成伪影的敏感性;二是构建 Cross-Space Feature Alignment(CSFA)模块,建立全局特征与局部特征的双向交互通道,借助对齐损失函数实现跨模态特征空间的语义对齐,再通过门控机制自适应融合对齐后的特征,最终获得用于检测的自适应伪造特征。模型训练数据仅基于 ProGAN 生成图像,测试时则覆盖未见的 GANs 和扩散模型生成图像。
研究结果
模型设计与特征提取机制
传统 Vision Transformer(ViT)依赖全局自注意力建模长程依赖,但忽略局部细节。DWTA 模块通过密集滑动窗口操作,在不同尺度下捕捉图像中如不自然边缘等局部伪造痕迹,有效弥补了 ViT 的不足。同时,三重注意力机制可过滤与生成模型无关的常见伪造特征,聚焦关键异常模式。
跨空间特征对齐与融合
CSFA 模块通过双向交互,将 ViT 提取的全局语义特征与 DWTA 的局部异常特征进行对齐,消除不同生成模型在特征空间的分布差异。对齐后的特征通过门控机制自适应融合,突出重要特征的权重,形成对多源伪造特征具有高判别力的表示。
实验性能验证
在跨生成器泛化测试中,仅基于 ProGAN 数据训练的 GLFAFormer,在未见 GANs 上实现 94.7% 的平均检测准确率,对未见扩散模型的检测准确率达 94%,较现有方法提升 2.1%,显著证明了其在跨模型场景下的有效性。
研究结论与意义
GLFAFormer 通过全局与局部特征的协同建模及跨空间对齐,突破了传统方法对单一特征类型的依赖,有效解决了跨模型检测中的特征分布差异问题。其创新的模块设计为伪造图像检测提供了新的技术路径,尤其是在无需依赖多模型训练数据的情况下,实现了对 GANs 和扩散模型生成图像的高效泛化检测,为应对日益复杂的合成图像安全威胁提供了有力工具。该研究不仅深化了视觉语言空间在数字取证领域的应用,也为后续融合隐写分析等多任务检测框架的发展奠定了基础,对提升数字图像安全技术整体水平具有重要推动作用。