集中全部注意力并感知环境,以实现任意形状文本的检测
《IEEE Transactions on Multimedia》:Focus Entirety and Perceive Environment for Arbitrary-Shaped Text Detection
【字体:
大
中
小
】
时间:2025年11月19日
来源:IEEE Transactions on Multimedia 9.7
编辑推荐:
针对场景文本检测中存在的噪声干扰和像素特征交互不足问题,提出多信息层任意形状文本检测器,通过焦点整体模块实现顶-down噪声抑制和尺度自适应,感知环境模块增强局部特征感知,在四类公开数据集上验证其优越性。
摘要:
由于场景文本在字体、颜色、形状和大小等方面的多样性,准确高效地检测文本仍然是一个巨大的挑战。在各种检测方法中,基于分割的方法因其灵活的像素级预测能力而成为主要的竞争者。然而,这些方法通常采用自下而上的方式对文本实例进行建模,这种方式极易受到噪声的影响。此外,像素的预测是孤立的,没有引入像素特征之间的相互作用,这也影响了检测性能。为了解决这些问题,我们提出了一种多信息层次的任意形状文本检测器,该检测器由焦点整体模块(FEM)和感知环境模块(PEM)组成。前者提取实例级特征,并采用自上而下的方案对文本进行建模,以减少噪声的影响。具体来说,它为同一实例内的像素分配一致的整体信息,以提高它们的凝聚力。同时,它强调尺度信息,使模型能够有效区分不同尺度的文本。后者提取区域级信息,并促使模型关注像素附近的正样本分布,从而感知环境信息。它将核心像素视为正样本,帮助模型区分文本特征和核心特征。大量实验表明,FEM能够有效地支持模型处理不同尺度的文本,并证实PEM通过关注像素邻域有助于更准确地感知像素。比较结果显示,所提出的模型在四个公开数据集上的表现优于现有的最先进方法。
引言
在过去几年中,由于场景文本检测在车牌识别、标志牌读取、自动驾驶和场景理解等领域的广泛应用,相关研究受到了越来越多的关注。随着对象检测和图像分割技术的快速发展,场景文本检测[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]取得了显著进展。然而,由于字体、颜色和尺度的变化,准确定位场景文本仍然很困难。其中,不规则的文本形状仍然是最大的挑战。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号