基于小波域文本先验引导的生成对抗网络(TPWGAN)在场景文本图像超分辨率重建中的创新应用

【字体: 时间:2025年08月29日 来源:Image and Vision Computing 4.2

编辑推荐:

  【编辑推荐】本文提出TPWGAN框架,通过将小波变换(SWT)与文本先验结合,在生成器和判别器中引入高频(HF)子带损失,利用空间注意力机制融合二值文本掩码,显著提升场景文本图像超分辨率(STISR)的细节恢复能力,在TextZoom数据集上验证了其优越性。

  

Highlight

本文提出TPWGAN(文本先验引导的小波域感知生成对抗网络),基于TATT[14]框架进行扩展,创新性地将小波域监督同时注入生成器和判别器。生成器通过静态小波变换(SWT)域损失优化笔画细节,判别器则利用空间注意力模块融合高频子带与二值文本区域掩码,将对抗训练迁移至小波域。如图1所示,TPWGAN在RGB和小波子带中均展现出比TATT更清晰的字符恢复效果与更高PSNR值。

Methods

TPWGAN的整体架构如图2所示,核心创新包括:

  1. 1.

    生成器采用加权l1损失函数,分别强化低频结构完整性与高频细节保留;

  2. 2.

    判别器基于高频小波子带和文本掩码进行对抗训练,通过空间注意力机制聚焦关键区域;

  3. 3.

    训练策略整合小波域与文本先验指导,在TextZoom基准测试中超越现有STISR方法。

Dataset

实验采用TextZoom数据集(含21,740组LR-HR图像对)及6个场景文本识别基准。测试集按识别难度分为简单(1,619样本)、中等(1,411样本)和困难(1,343样本)三组,验证模型泛化性。

Conclusions

TPWGAN通过SWT域损失与文本先验的协同作用,有效解决传统方法中边缘模糊和高频伪影问题。空间注意力驱动的判别器设计显著提升文本细节还原能力,在TextZoom和真实场景数据集中均表现优异。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号