
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于小波域的单图像扩散模型SinWaveFusion:风格一致性增强与信息泄漏抑制
【字体: 大 中 小 】 时间:2025年05月27日 来源:Image and Vision Computing 4.2
编辑推荐:
针对扩散模型在图像编辑中存在的风格不一致和信息泄漏问题,研究人员提出小波域单图像扩散框架SinWaveFusion。该模型通过小波分解的多尺度特性捕捉源图像内部统计特征,结合降噪器受限感受野设计,在单图像训练条件下实现风格一致性生成,并支持超分辨率、文本引导生成等任务,计算效率提升近50%。
在图像生成领域,扩散模型(Diffusion Models)虽已能生成高保真图像,但其固有的随机性导致编辑结果与原始图像风格不一致,且存在信息泄漏问题。这些缺陷源于扩散过程的噪声累积和预训练模型对大规模数据的依赖。为此,Hansung大学的研究团队提出SinWaveFusion框架,通过将扩散过程嵌入小波域,利用其多尺度子带分解特性,在单图像训练条件下实现风格一致性生成。该成果发表于《Image and Vision Computing》,为图像编辑任务提供了兼具质量和效率的新范式。
关键技术包括:1) 小波域分层扩散过程,通过低频子带保留语义结构、高频子带捕捉细节;2) 受限感受野的降噪器设计,防止模型记忆整图;3) 基于单图像训练的端到端框架,支持无条件生成和文本/类条件生成;4) 定量评估采用LDM和DiT作为基线模型。
方法
研究提出在小波域构建分层扩散过程,将传统图像空间的多尺度生成重新定义为子带空间的谱分解。低频分量(LL)承载全局风格信息,高频分量(LH/HL/HH)保留局部纹理,通过子带重组实现信息可控传播。降噪器采用窄感受野卷积,有效抑制训练图像记忆效应。
实验
与LDM和DiT的对比显示,SinWaveFusion在气球、建筑等单图像生成任务中,FID指标平均提升37%,风格相似度(SSIM)提高22%。文本引导生成实验证实其能准确响应"保持原风格"的指令,而基线模型出现色彩偏移和结构失真。超分辨率任务中,8倍放大仍能保持边缘锐度,PSNR优于传统插值方法4.2dB。
结论
该研究创新性地将小波变换与扩散模型结合,解决了单图像生成中的核心矛盾:1) 通过子带分解的固有缩放机制替代人工多尺度结构,减少信息泄漏;2) 受限感受野设计在提升生成多样性的同时降低50%计算量;3) 实验证明其在风格一致性、编辑灵活性和计算效率方面的优势,为医疗影像修复、艺术风格迁移等应用提供新思路。讨论部分指出,未来可探索小波基函数选择对生成质量的影响,并扩展至视频生成领域。
生物通微信公众号
知名企业招聘