集中全部注意力并感知环境，以实现任意形状文本的检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Multimedia》：Focus Entirety and Perceive Environment for Arbitrary-Shaped Text Detection

【字体：大中小】 时间：2025年11月19日 来源：IEEE Transactions on Multimedia 9.7

编辑推荐：

　　针对场景文本检测中存在的噪声干扰和像素特征交互不足问题，提出多信息层任意形状文本检测器，通过焦点整体模块实现顶-down噪声抑制和尺度自适应，感知环境模块增强局部特征感知，在四类公开数据集上验证其优越性。

摘要：

由于场景文本在字体、颜色、形状和大小等方面的多样性，准确高效地检测文本仍然是一个巨大的挑战。在各种检测方法中，基于分割的方法因其灵活的像素级预测能力而成为主要的竞争者。然而，这些方法通常采用自下而上的方式对文本实例进行建模，这种方式极易受到噪声的影响。此外，像素的预测是孤立的，没有引入像素特征之间的相互作用，这也影响了检测性能。为了解决这些问题，我们提出了一种多信息层次的任意形状文本检测器，该检测器由焦点整体模块（FEM）和感知环境模块（PEM）组成。前者提取实例级特征，并采用自上而下的方案对文本进行建模，以减少噪声的影响。具体来说，它为同一实例内的像素分配一致的整体信息，以提高它们的凝聚力。同时，它强调尺度信息，使模型能够有效区分不同尺度的文本。后者提取区域级信息，并促使模型关注像素附近的正样本分布，从而感知环境信息。它将核心像素视为正样本，帮助模型区分文本特征和核心特征。大量实验表明，FEM能够有效地支持模型处理不同尺度的文本，并证实PEM通过关注像素邻域有助于更准确地感知像素。比较结果显示，所提出的模型在四个公开数据集上的表现优于现有的最先进方法。

引言

在过去几年中，由于场景文本检测在车牌识别、标志牌读取、自动驾驶和场景理解等领域的广泛应用，相关研究受到了越来越多的关注。随着对象检测和图像分割技术的快速发展，场景文本检测[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]取得了显著进展。然而，由于字体、颜色和尺度的变化，准确定位场景文本仍然很困难。其中，不规则的文本形状仍然是最大的挑战。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号