
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于面部掩模引导融合SegFormer的多人物伪造区域定位方法FMG-Locator
【字体: 大 中 小 】 时间:2025年06月22日 来源:Expert Systems with Applications 7.5
编辑推荐:
【编辑推荐】针对多人物场景图像中微小伪造区域定位精度低、背景干扰大的难题,研究人员提出FMG-Locator模型。该模型通过面部掩模引导(FMG)模块抑制背景干扰,结合三通道特征提取(RGB/FMG/HF)与双注意力机制(DAN)实现鲁棒特征融合,在3个多人物数据集和2个新兴伪造数据集上验证了其优越性,对社交平台图像退化具有强鲁棒性。
随着社交媒体成为信息传播的主要载体,AI生成的伪造图像对个人身份安全构成严重威胁。尽管现有检测算法在单一人脸无背景图像中表现良好,但面对多人物场景中的微小篡改区域时性能显著下降。更严峻的是,社交平台上传过程中的压缩、模糊等退化效应会进一步掩盖伪造痕迹。攻击者常选择具有复杂背景的多人物图像进行局部篡改以增强可信度,而当前方法因依赖大规模伪造特征且忽视背景干扰,难以应对这一挑战。
为解决这一难题,研究人员提出FMG-Locator模型。该研究创新性地将面部掩模引导(Facial Mask Guidance, FMG)模块与融合SegFormer架构结合,通过三通道特征提取(RGB通道、FMG通道和高频特征HF通道)捕获多模态线索,并利用双注意力网络(Dual Attention Network, DAN)强化空间与通道特征关联。实验表明,该模型在Celeb-DF、FaceForensics++等数据集中对小区域伪造定位准确率提升显著,对6种后处理攻击和6大社交平台退化保持强鲁棒性。
关键技术包括:1)基于实例分割模型生成面部掩模的FMG模块;2)采用空间富模型(Spatial Rich Model, SRM)提取高频噪声特征的HF通道;3)融合空间注意力与通道注意力的DAN模块;4)多尺度特征融合的SegFormer解码器。
【研究结果】
【结论与意义】
该研究首次将面部掩模引导机制引入多人物伪造定位任务,通过三通道特征互补和注意力驱动融合,有效解决了复杂背景干扰与小区域检测的平衡难题。FMG-Locator的强泛化性(跨5个数据集)和退化鲁棒性(6类攻击/6大平台)为社交媒体的内容安全审计提供了实用工具。未来可探索动态掩模优化与多模态(如音频)联合检测方向。论文发表于《Expert Systems with Applications》,为DeepFake防御领域提供了新范式。
生物通微信公众号
知名企业招聘