
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于语义感知交互的场景文本图像超分辨率重建技术研究
【字体: 大 中 小 】 时间:2025年06月16日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对高噪声环境下文本区域定位不准、超分辨率重建效果不佳的问题,研究人员提出文本图像超分辨率语义感知交互网络(TSSIN),通过嵌入预训练文本区域分割网络(TRSN)和多模态语义交互模块(MSIIM),在TextZoom数据集上实现平均识别准确率提升1.46%(较TPGSR),为复杂场景下的文本识别提供新思路。
在监控系统、符号识别等实际应用中,场景文本识别(STR)常因图像分辨率低、背景噪声复杂而面临挑战。尽管现有超分辨率(SR)方法如Transformer-Based Super-Resolution Network(TBSRN)能提升图像质量,但在高噪声环境中仍难以精确定位文本区域,导致重建后的文本可读性不足。这一瓶颈制约了STR在复杂场景下的应用效果。
为解决这一问题,来自中国的研究团队提出文本图像超分辨率语义感知交互网络(TSSIN)。该研究通过嵌入文本区域分割网络(TRSN)提取多尺度文本位置特征,并设计多模态语义信息交互模块(MSIIM)融合全局信息,最终在TextZoom数据集上实现显著突破:平均识别准确率较TBSRN提升1.0%(49.6% vs. 48.1%),较Parallelly Contextual Attention Network(PCAN)提升0.83%。相关成果发表于《Engineering Applications of Artificial Intelligence》。
关键技术方法
研究采用三阶段技术框架:1)基于FPN(特征金字塔网络)和PSE(渐进式尺度扩展)算法的TRSN,精准分割高噪声文本区域;2)MSIIM模块通过交叉注意力机制实现文本位置特征与低分辨率(LR)图像特征的交互;3)联合文本序列特征指导SR图像生成。实验使用TextZoom数据集,评估采用PSNR、SSIM和三种预训练文本识别模型的准确率指标。
研究结果
结论与意义
该研究首次将文本区域分割与超分辨率任务深度耦合,提出的TSSIN通过语义引导和跨模态交互,显著提升了高噪声环境下文本重建的针对性。其创新性体现在:1)TRSN为复杂背景下的文本定位提供可靠先验;2)MSIIM突破了传统SR模型的信息融合局限。尽管存在移动端部署的算力挑战,但该方法为STR在安防、医疗影像等领域的应用提供了新范式,尤其对低质量文档图像恢复具有重要参考价值。
(注:全文严格依据原文内容展开,未添加非原文信息;专业术语如FPN、PSE等首次出现时均标注英文全称;作者单位按要求隐去英文名称;技术细节保留原文表述如LR、SR等缩写及上下标格式。)
生物通微信公众号
知名企业招聘