
-
生物通官微
陪你抓住生命科技
跳动的脉搏
FacePaint:基于双向跨上下文语义注意力网络的遮挡人脸图像修复方法
【字体: 大 中 小 】 时间:2025年06月05日 来源:Displays 3.7
编辑推荐:
为解决自然场景下遮挡人脸图像修复缺乏配对数据、大范围遮挡区域重建易失真等问题,研究人员提出基于Transformer的FacePaint框架。通过构建模拟真实遮挡的数据集,设计双向跨上下文语义注意力网络(TCCSA)结合自注意力(SA)、上下文到语义(CTS)和语义到上下文(STC)模型,并开发门控卷积前馈网络(FFN)优化局部特征提取。实验表明该方法在五个合成数据集上定量定性均优于现有技术,且能有效应用于真实场景,为人脸识别、检测等任务提供高质量修复结果。
在现实场景中,人脸常被眼镜、帽子或手势等物体遮挡,给计算机视觉任务如人脸识别、3D重建带来挑战。传统修复方法依赖简单背景和小面积缺失的假设,而现有深度学习方法虽能处理规则遮挡,却难以应对复杂自然遮挡导致的语义失真和纹理模糊。更棘手的是,缺乏真实遮挡-未遮挡配对数据,且大范围遮挡易引发结构扭曲。这些问题严重制约了人脸修复技术在安防、医疗等领域的应用。
针对上述瓶颈,上海人才发展基金支持的研究团队在《Displays》发表论文,提出名为FacePaint的创新框架。该研究首先通过地标生成方法,基于CelebA、LFW和LS3D数据集构建含37,133张图像的模拟真实遮挡数据集,涵盖眼镜、麦克风等五类遮挡。核心技术包含:双向跨上下文语义注意力网络(TCCSA)整合自注意力(SA)与双向语义引导机制;门控卷积前馈网络(FFN)强化局部特征提取;以及新型损失函数保障语义一致性。
方法论
研究采用三阶段技术路线:数据集构建阶段通过地标生成合成五类遮挡图像;网络设计阶段提出TCCSA模块实现语义与上下文特征双向交互,FFN模块通过门控机制细化局部特征;训练阶段采用混合损失函数优化模型。实验使用Adam优化器,在NVIDIA Tesla V100 GPU上实现。
实验结果
在合成数据集测试中,FacePaint的PSNR/SSIM指标显著优于PEN-Net、VCNet等方法。可视化结果显示,对于眼镜遮挡(IOcc
1
),TCCSA能准确重建镜框下的眼部结构;对麦克风遮挡(IOcc
4
),FFN有效恢复嘴部纹理。消融实验证实,移除CTS或STC模块会导致语义连贯性下降23.7%。
实际应用
将模型部署于Segment Anything分割后的真实遮挡图像时,FacePaint成功去除复杂遮挡物如手持物品,且保持肤色过渡自然。对比实验显示,其生成结果在FID指标上较LaMa降低18.2%,证明其在真实场景的鲁棒性。
结论与展望
该研究通过构建大规模模拟数据集和TCCSA-FFN联合架构,首次实现多类型自然遮挡的精准修复。其创新性体现在:语义先验引导的注意力机制解决长程依赖问题;门控卷积设计提升大范围修复能力。未来可探索动态遮挡物建模,进一步拓展在视频修复中的应用。国家档案局科技项目(2023-X-036)已将该技术应用于历史照片修复工程。
生物通微信公众号
知名企业招聘