
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于小波域文本先验引导的生成对抗网络(TPWGAN)在场景文本图像超分辨率重建中的创新应用
【字体: 大 中 小 】 时间:2025年08月29日 来源:Image and Vision Computing 4.2
编辑推荐:
【编辑推荐】本文提出TPWGAN框架,通过将小波变换(SWT)与文本先验结合,在生成器和判别器中引入高频(HF)子带损失,利用空间注意力机制融合二值文本掩码,显著提升场景文本图像超分辨率(STISR)的细节恢复能力,在TextZoom数据集上验证了其优越性。
Highlight
本文提出TPWGAN(文本先验引导的小波域感知生成对抗网络),基于TATT[14]框架进行扩展,创新性地将小波域监督同时注入生成器和判别器。生成器通过静态小波变换(SWT)域损失优化笔画细节,判别器则利用空间注意力模块融合高频子带与二值文本区域掩码,将对抗训练迁移至小波域。如图1所示,TPWGAN在RGB和小波子带中均展现出比TATT更清晰的字符恢复效果与更高PSNR值。
Methods
TPWGAN的整体架构如图2所示,核心创新包括:
生成器采用加权l1损失函数,分别强化低频结构完整性与高频细节保留;
判别器基于高频小波子带和文本掩码进行对抗训练,通过空间注意力机制聚焦关键区域;
训练策略整合小波域与文本先验指导,在TextZoom基准测试中超越现有STISR方法。
Dataset
实验采用TextZoom数据集(含21,740组LR-HR图像对)及6个场景文本识别基准。测试集按识别难度分为简单(1,619样本)、中等(1,411样本)和困难(1,343样本)三组,验证模型泛化性。
Conclusions
TPWGAN通过SWT域损失与文本先验的协同作用,有效解决传统方法中边缘模糊和高频伪影问题。空间注意力驱动的判别器设计显著提升文本细节还原能力,在TextZoom和真实场景数据集中均表现优异。
生物通微信公众号
知名企业招聘