通过反向补丁缩放实现统一的全球-局部特征建模，以用于图像处理与定位

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Visual Communication and Image Representation》：Unified global–local feature modeling via reverse patch scaling for image manipulation localization

【字体：大中小】 时间：2026年01月24日 来源：Journal of Visual Communication and Image Representation 3.1

编辑推荐：

　　统一单流框架全局语义与局部细节交互式建模提升图像篡改定位精度

Jingying Cai|Hang Cheng|Jiabin Chen|Haichou Wang|Meiqing Wang

福州大学数学与统计学院，中国福州，350108

摘要

图像操控定位需要全面提取和整合全局特征与局部特征。然而，现有方法通常采用并行架构，分别处理语义上下文和局部细节，导致交互有限且表示碎片化。此外，对所有层应用统一的补丁策略忽略了深度特征的不同语义角色和空间属性。为了解决这些问题，我们提出了一个统一框架，该框架直接从层次化的全局特征中派生局部表示。反向补丁缩放策略为更深层分配更小的补丁尺寸和更大的重叠范围，从而实现与语义抽象程度增加相匹配的密集局部建模。非对称交叉注意力模块增强了特征之间的交互和一致性。此外，双策略解码器通过连接和叠加融合多尺度特征，而统计引导的边缘感知模块从预测的掩码中建模局部方差和熵，以细化边界感知。广泛的实验表明，我们的方法在准确性和鲁棒性方面均优于现有方法。

引言

随着用户友好型图像编辑工具的普及和深度生成模型的快速发展[1]、[2]，数字图像现在可以轻松地被操控以改变其语义内容。这种视觉上逼真的操控引发了严重的担忧，包括错误信息的传播、伪造证据的产生以及公众信任的丧失[3]。因此，图像操控定位在学术界和工业界都变得越来越重要。如图1所示，三种语义级别的操作尤为普遍：(1)拼接[4]，即将内容从一张图像转移到另一张图像；(2)复制移动[5]，在同一图像内复制和重新定位对象；(3)删除[6]，通过修复删除特定区域并填充。这些操控改变了图像的潜在含义，通常伴随着微妙的低级调整以增强视觉一致性，使得图像操控定位变得至关重要且具有挑战性。

卷积神经网络（CNN）由于其强大的局部特征捕捉能力和对微妙低级伪影的感知能力，在图像操控检测中被广泛采用。为了进一步提高对操控痕迹的敏感性，许多方法结合了关注补充线索（如噪声残差或边缘伪影）的辅助流。例如，空间丰富模型（SRM）滤波器[7]、[8]、[9]和受限CNN[10]、[11]用于提取噪声特征，而离散余弦变换（DCT）[12]和高通滤波[13]用于利用压缩伪影并捕获图像中的高频信息。然而，在复制移动操控等场景中，伪造区域往往与源区域具有相似的压缩伪影、像素级统计信息和噪声特征。这种内在相似性对依赖噪声不一致性进行检测的模型提出了重大挑战。此外，卷积结构本身受到其局部感受野的限制，难以捕捉对检测操控至关重要的长距离依赖性和语义不一致性。

为了解决这些问题，我们提出了一个单流框架，以交互方式统一全局和局部建模。具体来说，我们使用Swin Transformer作为骨干网络来提取多尺度全局特征，这些特征作为局部建模的基础。受渐进学习和层次化特征分辨率原理的启发，我们引入了反向补丁缩放（RPS）策略，从不同深度的全局特征中提取局部表示。在浅层，我们使用较大且重叠比例较低的补丁，以确保足够的感受野覆盖和训练稳定性。在更深层，特征图在语义上更为抽象且在空间上被压缩，我们使用较小且重叠比例较高的补丁，以提高局部建模对微妙扭曲的敏感性。此外，我们采用非对称交叉注意力机制来明确建模全局特征与局部特征之间的交互。融合后的表示通过残差连接进一步增强，然后解码以进行最终的操控定位。为了重建预测的掩码，我们设计了一个解码器，该解码器结合了双策略融合机制，有效地跨阶段整合多尺度特征。

除了层次化特征融合和局部-全局交互外，增强边界感知对于准确定位被操控区域也至关重要。以往的工作通常通过对输入图像或中间特征应用预定义的滤波器来结合边缘线索[14]、[15]。相比之下，我们提出了一个统计引导的边缘感知模块，该模块直接从预测的操控掩码中派生边界先验。通过明确建模局部方差和熵，该模块增强了边界细化能力，并加强了模型感知被操控区域微妙轮廓的能力。

总结如下：

$•$
我们提出了RPS策略，该策略根据层次调整补丁尺寸和重叠比例，以平衡对广泛上下文和细节的敏感性。进一步采用非对称交叉注意力机制来增强全局上下文与局部细节之间的交互。这种设计使网络能够交互式地捕捉微妙的操控痕迹。
$•$
我们开发了一种双策略融合解码器，用于高效的多尺度特征整合，并提出了一个统计引导的边缘感知模块，从预测的掩码中细化边界。这两个模块提高了整体掩码重建和操控定位的准确性。
$•$
我们提出了一个统一的单流框架，直接从层次化全局特征中提取局部表示。在四个标准数据集上的广泛实验表明，我们的方法在准确性和鲁棒性方面均优于现有的图像操控定位方法。

部分内容摘录

图像操控定位

近年来，图像操控定位得到了广泛研究。传统方法主要依赖于手工制作的特征，这些特征通常分为两类：一类基于设备特有的伪影[16]、[17]，另一类利用自然图像中的统计规律[18]、[19]、[20]。此外，还采用了基于关键点的描述符，如尺度不变特征变换（SIFT）[21]和定向FAST及旋转BRIEF（ORB）[22]来定位重复内容

方法

在本节中，我们首先概述所提出的架构，然后详细描述其各个组成部分。整个框架如图2所示，包括层次化变换器编码器（HTE）（第3.1节）、用于捕获局部特征和生成融合表示的反向补丁缩放交叉注意力（RPSCA）模块（第3.2节）、双策略融合（DSF）解码器（第3.3节）以及统计引导的边缘感知（SGEA）模块

实验设置

数据集。我们将我们提出的模型与四种广泛使用的图像操控基准数据集上的现有方法进行了性能比较：COLUMBIA [54]、COVERAGE [55]、CASIA [56] 和 NIST16 [57]。为了确保公平和一致的评估，我们严格遵循[8]中定义的相同训练和测试分割方式。所有数据的详细统计信息见表1。

•
COLUMBIA：COLUMBIA数据集包含未压缩的拼接图像及其对应的真实掩码。
•
COVERAGE

结论

在本文中，我们提出了一个统一的单流框架，用于图像操控定位，该框架在共享的表示空间中联合建模全局语义和局部取证线索。反向补丁缩放（RPS）策略使得可以从层次化全局特征中细粒度地学习局部表示，使语义抽象与细节保留保持一致，从而提高对微妙篡改痕迹的敏感性。非对称交叉注意力机制促进了

CRediT作者贡献声明

Jingying Cai：撰写——原始草案、可视化、方法论、形式分析、概念化。Hang Cheng：撰写——审阅与编辑、验证、资源获取。Jiabin Chen：撰写——审阅与编辑、方法论。Haichou Wang：撰写——审阅与编辑、验证。Meiqing Wang：撰写——审阅与编辑。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：Hang Cheng报告称获得了福州大学的财务支持。如果有其他作者，他们声明没有已知的可能会影响本文工作的财务利益或个人关系。

致谢

本工作部分得到了国家自然科学基金（项目编号：62172098和62471141）和福建省自然科学基金（项目编号：2020J01497）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

部分内容摘录

图像操控定位

方法

实验设置

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行