多尺度频域聚合与空间重建在深度伪造检测中的互补特性

《Image and Vision Computing》：Complementary features of multi-scale frequency domain aggregation and spatial reconstruction for deepfake detection

【字体：大中小】 时间：2026年05月27日 来源：Image and Vision Computing 4.2

编辑推荐：

　　黄曦|王晓峰|王琴|张佳璐|徐彤彤|王一航西安工业大学数学系，中国陕西省西安市710048摘要随着人工智能的快速发展，基于深度伪造技术的面部替换技术取得了显著进展。然而，深度伪造技术的恶意应用扰乱了社会秩序，削弱了公众的信任。尽管当前的检测方法在特定数据库上表现出高准确性，但当应

黄曦|王晓峰|王琴|张佳璐|徐彤彤|王一航

西安工业大学数学系，中国陕西省西安市710048

摘要

随着人工智能的快速发展，基于深度伪造技术的面部替换技术取得了显著进展。然而，深度伪造技术的恶意应用扰乱了社会秩序，削弱了公众的信任。尽管当前的检测方法在特定数据库上表现出高准确性，但当应用于互联网传播的图像时，其性能往往会下降，这使得在现实场景中有效识别深度伪造内容变得困难。我们观察到，在图像传播过程中经常会发生压缩，降低了现有判别器的效果。此外，相机拍摄的图像与深度伪造生成的图像之间存在明显的色彩空间差异。基于这些发现，我们提出了一种专门针对互联网传播图像的深度伪造检测模型。首先，我们设计了一个多尺度频域聚合模块，以捕获细粒度的频域特征，减少传输过程中的信息损失，并增强对压缩和其他处理的鲁棒性。其次，我们引入了一个图像颜色重建模块，模拟相机成像过程，提取真实图像和深度伪造图像之间的独特色彩空间差异。这种方法为检测深度伪造内容提供了新的视角。广泛的实验表明，我们的模型在深度伪造检测方面具有很强的有效性，显著提高了在复杂和具有挑战性的现实场景中的检测准确性。

引言

随着信息技术的快速发展，人工智能（AI）已广泛应用于各个领域（Liu等人[1]；Lee等人[2]）。由于AI的深入发展，由生成对抗网络（GAN）和扩散模型（Goodfellow等人[3]）生成的深度伪造技术取得了显著进展。目前，深度伪造能够生成视觉上非常逼真的面部图像，几乎与真实图像无法区分。深度伪造的滥用带来了重大风险，包括声誉损害、电信欺诈和对面部识别系统的攻击。因此，有效检测深度伪造面部图像已成为学术界和工业界的紧迫任务。

目前，已经提出了多种基于深度学习的深度伪造图像检测器（Zhu等人[4]；Wang等人[5]；Huang等人[6]；Wu等人[7]；Jia等人[8]），在公开可用的数据集上取得了令人满意的检测准确性。然而，当应用于现实世界的数据集时，包括通过互联网社交媒体平台共享的图像、视频、低光照或高动态范围图像以及受噪声、退化或其他干扰影响的图像时，它们的性能往往会大幅下降。这些限制严重阻碍了这些检测方法的实际应用。因此，迫切需要开发出更强大的深度伪造检测技术，以提高这些方法在现实世界应用中的适应性和可靠性。

尽管深度伪造检测技术可以生成与真实图像分布非常相似的图像，从而欺骗人类视觉系统，但它们仍然难以完全复制真实图像中观察到的复杂色彩动态和细微的色彩空间分布变化，如图1所示。特别是在相机成像过程中，由于CFA插值，每个色彩空间中相邻像素的相关性难以准确模拟。这些差异和不一致性为识别深度伪造图像提供了有价值的线索。然而，在图像存储和传输过程中，由于图像压缩、后处理和保持内容不变的图像处理操作等因素，这些差异可能会减弱甚至消失。此外，图像传输过程中引入的各种类型的噪声进一步复杂化了识别过程。这对于深度伪造检测构成了重大挑战，尤其是在处理退化图像时，现有技术往往无法可靠地捕捉到深度伪造生成过程留下的细微痕迹。

为了解决这个问题，我们提出了一个深度伪造图像检测网络ComFS-Net，它结合了多尺度频域聚合和空间重建的互补特性。通过在频域构建多尺度特征感知器，ComFS-Net能够提取难以视觉感知的不同尺度的深度伪造线索，从而提高了其鲁棒性，并即使在图像退化的情况下也能保持高检测性能。此外，该网络强调了重建图像的色彩分布，特别是相邻像素之间的色彩相关性，以有效区分真实图像和被篡改的图像。我们的方法不仅能够准确检测深度伪造面部图像，还在各种图像扰动的情况下显著提高了鲁棒性。具体来说，本工作的贡献如下：

(1)
我们创新性地提出了一个多尺度频域聚合（MFDA）模块。具体来说，我们设计了这个模块来捕获细粒度的频域特征，使神经网络能够有效地从频域中提取语义信息。因此，即使在处理低质量图像时，该模块也能确保强大的检测性能。
(2)
引入了图像颜色重建（ICR）模块，以精确模拟相机成像过程中的颜色空间分布特征。通过使用这个模块，可以有效地检测和量化真实图像和深度伪造图像之间的颜色空间分布变化，以及不同色彩空间中相邻像素的相关性差异。
(3)
集成残差引导注意力（RGA）模块使判别器能够选择性地关注真实图像和伪造图像之间的不一致区域，从而增强了网络识别图像差异的能力。

章节片段

方法

为了解决检测退化图像时性能下降的问题，本文提出了一种名为ComFS-Net的深度伪造检测算法。ComFS-Net的架构整合了三个核心组件：多尺度频域聚合模型、图像颜色重建模块和残差引导注意力模型，如图2所示。ComFS-Net的骨干网络基于Xception，如图3所示。多尺度频域特征聚合模型

实验

在本节中，我们首先介绍了实验设置，然后通过一系列实验结果证明了我们方法的优越性。

结论

在这项研究中，我们介绍了一个名为ComFS-Net的创新深度伪造检测框架。该框架巧妙地结合了图像空间域和频域的特征，全面捕获图像中的深度伪造线索。ComFS-Net包括两个核心模块：首先，多尺度频域聚合模块使用多尺度频域聚合模型来检测深度伪造模式，有效揭示深度伪造操作留下的独特痕迹；其次，

局限性与未来工作

尽管ComFS-Net在各种图像扰动下具有很强的鲁棒性，但其适应性仍然有限。目前的评估主要集中在FF++数据集中的面部替换操作上，限制了其对其它伪造类型的泛化能力。ICR模块依赖于全局颜色相关性，在捕捉局部篡改（如眼睛或嘴唇的篡改）方面精度有限。此外，MFDA模块对针对性攻击较为脆弱

CRediT作者贡献声明

黄曦：撰写——原始草稿、可视化、验证、软件、方法论。王晓峰：撰写——审阅与编辑、资源管理、项目协调、资金获取、概念化。王琴：数据管理、形式分析、方法论、验证、可视化、撰写——审阅与编辑。张佳璐：数据管理、验证、可视化、撰写——审阅与编辑。徐彤彤：调查、形式分析。王一航：监督、数据管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

致谢

本工作得到了中国国家自然科学基金（项目编号：62376212）和中国陕西省自然科学基金（项目编号：2022GY-087）的支持。

黄曦于2020年在中国咸阳师范学院获得经济学学士学位，目前正在攻读硕士学位。她的研究兴趣包括计算机视觉、深度学习和图像深度伪造检测与分类。

摘要

引言

章节片段

相关工作

方法

实验

结论

局限性与未来工作

CRediT作者贡献声明

利益冲突声明

致谢

热点排行