基于面部掩模引导融合SegFormer的多人物伪造区域定位方法FMG-Locator

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月22日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　【编辑推荐】针对多人物场景图像中微小伪造区域定位精度低、背景干扰大的难题，研究人员提出FMG-Locator模型。该模型通过面部掩模引导（FMG）模块抑制背景干扰，结合三通道特征提取（RGB/FMG/HF）与双注意力机制（DAN）实现鲁棒特征融合，在3个多人物数据集和2个新兴伪造数据集上验证了其优越性，对社交平台图像退化具有强鲁棒性。

随着社交媒体成为信息传播的主要载体，AI生成的伪造图像对个人身份安全构成严重威胁。尽管现有检测算法在单一人脸无背景图像中表现良好，但面对多人物场景中的微小篡改区域时性能显著下降。更严峻的是，社交平台上传过程中的压缩、模糊等退化效应会进一步掩盖伪造痕迹。攻击者常选择具有复杂背景的多人物图像进行局部篡改以增强可信度，而当前方法因依赖大规模伪造特征且忽视背景干扰，难以应对这一挑战。

为解决这一难题，研究人员提出FMG-Locator模型。该研究创新性地将面部掩模引导（Facial Mask Guidance, FMG）模块与融合SegFormer架构结合，通过三通道特征提取（RGB通道、FMG通道和高频特征HF通道）捕获多模态线索，并利用双注意力网络（Dual Attention Network, DAN）强化空间与通道特征关联。实验表明，该模型在Celeb-DF、FaceForensics++等数据集中对小区域伪造定位准确率提升显著，对6种后处理攻击和6大社交平台退化保持强鲁棒性。

关键技术包括：1）基于实例分割模型生成面部掩模的FMG模块；2）采用空间富模型（Spatial Rich Model, SRM）提取高频噪声特征的HF通道；3）融合空间注意力与通道注意力的DAN模块；4）多尺度特征融合的SegFormer解码器。

【研究结果】

单一人脸伪造定位局限性：现有方法依赖面部裁剪和单一特征（如色度差异或GAN上采样伪影），难以应对多人物场景中背景与面部的复杂交互。
问题定义：明确多人物伪造定位需兼顾像素级精度（无论区域大小）和社交平台退化鲁棒性两大核心需求。
方法论创新：FMG模块通过预训练Mask R-CNN生成精确面部掩模；三通道设计分别捕获全局上下文（RGB）、面部结构（FMG）和噪声模式（HF）；DAN模块通过交叉注意力权重分配增强伪造特征。
实验验证：在FaceForensics++、Celeb-DF等数据集中，FMG-Locator的mIoU指标超越SOTA方法15.6%；社交平台测试集上AUROC保持0.92以上。
鲁棒性分析：对JPEG压缩（质量因子30）、高斯噪声（σ=0.1）等攻击的定位误差率低于基线模型40%。

【结论与意义】
该研究首次将面部掩模引导机制引入多人物伪造定位任务，通过三通道特征互补和注意力驱动融合，有效解决了复杂背景干扰与小区域检测的平衡难题。FMG-Locator的强泛化性（跨5个数据集）和退化鲁棒性（6类攻击/6大平台）为社交媒体的内容安全审计提供了实用工具。未来可探索动态掩模优化与多模态（如音频）联合检测方向。论文发表于《Expert Systems with Applications》，为DeepFake防御领域提供了新范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号