集中全部注意力并感知环境,以实现任意形状文本的检测

《IEEE Transactions on Multimedia》:Focus Entirety and Perceive Environment for Arbitrary-Shaped Text Detection

【字体: 时间:2025年11月19日 来源:IEEE Transactions on Multimedia 9.7

编辑推荐:

  针对场景文本检测中存在的噪声干扰和像素特征交互不足问题,提出多信息层任意形状文本检测器,通过焦点整体模块实现顶-down噪声抑制和尺度自适应,感知环境模块增强局部特征感知,在四类公开数据集上验证其优越性。

  

摘要:

由于场景文本在字体、颜色、形状和大小等方面的多样性,准确高效地检测文本仍然是一个巨大的挑战。在各种检测方法中,基于分割的方法因其灵活的像素级预测能力而成为主要的竞争者。然而,这些方法通常采用自下而上的方式对文本实例进行建模,这种方式极易受到噪声的影响。此外,像素的预测是孤立的,没有引入像素特征之间的相互作用,这也影响了检测性能。为了解决这些问题,我们提出了一种多信息层次的任意形状文本检测器,该检测器由焦点整体模块(FEM)和感知环境模块(PEM)组成。前者提取实例级特征,并采用自上而下的方案对文本进行建模,以减少噪声的影响。具体来说,它为同一实例内的像素分配一致的整体信息,以提高它们的凝聚力。同时,它强调尺度信息,使模型能够有效区分不同尺度的文本。后者提取区域级信息,并促使模型关注像素附近的正样本分布,从而感知环境信息。它将核心像素视为正样本,帮助模型区分文本特征和核心特征。大量实验表明,FEM能够有效地支持模型处理不同尺度的文本,并证实PEM通过关注像素邻域有助于更准确地感知像素。比较结果显示,所提出的模型在四个公开数据集上的表现优于现有的最先进方法。

引言

在过去几年中,由于场景文本检测在车牌识别、标志牌读取、自动驾驶和场景理解等领域的广泛应用,相关研究受到了越来越多的关注。随着对象检测和图像分割技术的快速发展,场景文本检测[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]取得了显著进展。然而,由于字体、颜色和尺度的变化,准确定位场景文本仍然很困难。其中,不规则的文本形状仍然是最大的挑战。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号