
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多尺度上下文联合特征增强GAN的语义图像合成方法研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:Image and Vision Computing 4.2
编辑推荐:
为解决语义图像合成中存在的颜色不均、纹理不真实及边缘模糊等问题,研究人员提出了一种基于快速傅里叶卷积(FFC)和Transformer的多尺度上下文联合特征增强生成对抗网络(MSCJ-GAN)。该模型通过大感受野特征增强模块和双维度偏置特征增强模块,显著提升了生成图像的全局一致性与局部细节真实性,在ADE20K等数据集上超越现有方法,为可控图像生成提供了新思路。
在计算机视觉领域,语义图像合成(Semantic Image Synthesis)一直是个充满挑战的任务。想象一下,给计算机一张标注了“天空”“草地”“人脸”等语义标签的地图,它能否生成一张逼真的照片?现有方法虽然能完成基本转换,但生成的图像常常出现颜色斑块、纹理失真——比如天空出现不自然的色带,人脸皱纹模糊得像被磨皮过度。这些问题背后,是传统卷积神经网络(CNN)的固有局限:局部感受野难以捕捉全局上下文,而简单的特征融合又忽略了细节表达。
北京建筑大学的研究团队在《Image and Vision Computing》发表论文,提出了一种名为MSCJ-GAN的创新框架。该模型通过两个核心模块突破瓶颈:一是将Transformer嵌入快速傅里叶卷积(Fast Fourier Convolution, FFC)的大感受野特征增强模块,让网络在频域分析全局信息,解决了大尺度物体(如天空)的连贯性问题;二是基于偏置矩阵的双维度(空间+通道)特征增强模块,通过统计特征差异优化细节表达,使小尺度物体(如皱纹)边界更清晰。实验证明,该模型在ADE20K、CelebAMask-HQ和Cityscapes数据集上生成的图像,在颜色过渡和纹理复杂度上均优于现有技术。
关键技术包括:1)融合FFC与Transformer的混合架构,实现频域注意力机制;2)跨空间/通道维度的偏置矩阵动态调整;3)多尺度对抗训练策略。数据集来自公开的ADE20K(室内外场景)、CelebAMask-HQ(人脸)和Cityscapes(街景)。
大感受野特征增强模块
通过FFC将图像转换至频域,结合Transformer的全局注意力机制,使网络早期层即可获取全图上下文。实验显示,该模块使生成的大尺度物体颜色过渡平滑度提升23%。
双维度特征增强模块
利用偏置矩阵分别优化空间维度的局部统计特征和通道维度的差异性。在CelebAMask-HQ测试中,人脸微表情细节的FID(Frechet Inception Distance)分数改善17%。
实验对比
与SPADE、OASIS等方法相比,MSCJ-GAN在ADE20K的mIoU(语义分割匹配度)达到58.7%,且用户调研显示生成图像的真实感评分高出15%。
讨论指出,当前方法仍受限于单模态输入(仅语义图),未来可探索多模态(如文本+语义)联合生成。该研究的意义在于:1)为语义驱动图像生成提供了兼顾全局与局部的新范式;2)频域-空域联合优化思路可迁移至其他生成任务;3)开源代码(GitHub已发布)推动领域发展。正如作者Hengyou Wang所述:“这是首次将频域注意力与偏置矩阵统计特性结合,证明细节真实性可通过数学特征引导实现。”
生物通微信公众号
知名企业招聘