
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双流双分支生成对抗网络的图像篡改定位技术研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Knowledge-Based Systems 7.2
编辑推荐:
随着图像编辑技术的快速发展,利用内容隐藏或对象篡改实施危害的行为日益普遍。为解决传统方法依赖人工特征设计导致的模型适应性不足问题,研究人员提出双流双分支生成对抗网络(DSDB-GAN),通过CNN与Transformer双流结构融合RGB与噪声特征,结合自适应感受野模块(ARFM)和边缘感知模块(EAM),显著提升篡改区域定位精度。该研究发表于《Knowledge-Based Systems》,为图像真实性鉴定提供了通用性强、鲁棒性高的解决方案。
在数字信息爆炸的时代,一张经过PS处理的照片可能引发股市震荡,一段DeepFake视频足以颠覆公众人物的声誉。图像篡改技术如拼接(splicing)、复制移动(copy-move)和擦除(removal)的泛滥,使得数字内容的真实性面临前所未有的挑战。尽管基于卷积神经网络(CNN)和Transformer的检测算法已取得进展,但面对互联网传输中的压缩模糊、GAN生成图像的逼真篡改,以及多模态特征融合的复杂性,现有方法仍存在定位精度不足、泛化能力有限等瓶颈。
山西某研究团队在《Knowledge-Based Systems》发表的DSDB-GAN研究,开创性地将生成对抗网络(GAN)框架引入图像篡改定位(IFL)领域。该模型通过双流生成器(RGB流与噪声流)分别捕捉语义相关特征与噪声不一致性线索,利用特征交互融合模块(FIFM)实现跨模态渐进式融合。双分支判别器则通过门控机制区分真假定位掩膜与边缘掩膜,结合自适应感受野模块(ARFM)的动态权重分配和边缘感知模块(EAM)的定向解码,最终在NIST16等权威数据集上实现超越现有方法的定位精度。
关键技术包括:1)基于CNN的RGB流与基于Transformer的噪声流并行特征提取;2)渐进式多尺度特征融合策略(FIFM);3)ARFM通过可学习线性层动态调整膨胀卷积权重;4)EAM水平-垂直方向边缘信息解耦;5)定位与边缘判别器的对抗训练机制。实验采用PSCC-Net合成数据集训练,在NIST16、COVERAGE等真实场景数据集验证。
研究结果:
双流生成器设计:RGB流通过CNN卷积核局部感知捕捉篡改区域颜色异常,噪声流利用Transformer自注意力机制发现长程噪声不一致性。FIFM模块使模型AUC指标提升3.2%。
自适应感受野优化:ARFM对多尺度膨胀卷积特征进行注意力重校准,在复杂背景篡改场景中F1-score提高5.7%。
边缘精确定位:EAM通过正交方向梯度计算获得亚像素级边缘,使篡改边界交并比(IoU)提升8.4%。
结论表明,DSDB-GAN首次实现CNN与Transformer在IFL任务中的优势互补,ARFM与EAM的协同作用有效解决了传统方法对后处理操作敏感的缺陷。该技术可应用于司法取证、社交媒体内容审核等领域,为构建数字内容可信认证体系提供重要技术支撑。未来研究可探索三维篡改定位及视频时序一致性检测的扩展应用。
生物通微信公众号
知名企业招聘