
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于字符特征对齐的复杂场景文本检测识别一体化模型CFAS研究
【字体: 大 中 小 】 时间:2025年07月16日 来源:Advances in Biological Regulation CS8.9
编辑推荐:
为解决复杂场景下文本检测与识别任务协同优化难题,研究人员提出基于Swin Transformer和特征对齐模块(CA)的CFAS模型。该研究通过平衡交互模块(BIM)实现任意形状文本的精确定位,采用字符对齐机制自适应调整感受野,在未训练的水下噪声场景中仍保持优异性能,为智能导航等跨场景应用提供新范式。
在智能导航和自动驾驶等领域,自然场景中的文本信息识别一直面临严峻挑战。传统方法将文本检测与识别割裂处理,导致误差累积和泛化能力受限;而现有端到端模型对密集排列、变形文本的定位精度不足,且缺乏对字符级特征的动态调整能力。这些问题使得模型在跨场景应用时性能急剧下降,特别是在水下噪声或遮挡等复杂场景中表现欠佳。
针对这些瓶颈,获得国家自然科学基金资助的研究团队提出创新性解决方案——字符特征对齐场景文本识别器(Character Feature Alignment-based Scene Text Spotter, CFAS)。该模型突破性地将Swin Transformer作为主干网络,结合特征金字塔网络(FPN)实现多尺度特征融合,通过平衡交互模块(Balanced Interaction Module, BIM)迭代优化检测框,并首创字符对齐模块(Character Alignment module, CA)解决变形文本的识别难题。相关成果发表在《Advances in Biological Regulation》上,在未训练的水下数据集UWT上仍保持85.7%的识别准确率,展现出卓越的跨场景适应能力。
研究采用三大核心技术:1)基于Swin Transformer的多层次特征提取架构;2)融合分类特征与边缘信息的BIM模块;3)具有空间-通道双重注意力机制的CA模块。实验使用Curved SynthText合成数据集与ICDAR2013/2015等真实场景数据进行验证。
【Connector-free text Spotters】部分显示,CFAS摒弃传统RoI-Align操作,通过可学习参数提案框f0Box初始化,逐步优化RoI特征f0RoI,避免启发式后处理带来的误差。
【Enhancement model】章节揭示,模型通过N级检测阶段迭代优化文本实例特征,BIM模块采用加权融合策略降低密集文本的误检率,CA模块通过特征选择机制自适应调整感受野,使"弯曲"、"倾斜"等非常规字符的识别准确率提升12.6%。
【Dataset】部分证实,在包含94,723张合成图像和1,500张真实场景图像的混合数据集上,CFAS的端到端F1值达91.2%,较SwinTextSpotter提升4.3个百分点。特别值得注意的是,在未参与训练的200幅水下噪声图像(UWT数据集)上,模型仍保持83.4%的检测召回率。
研究结论表明,CFAS的创新性体现在三个方面:首先,CA模块通过局部特征与上下文信息的智能融合,有效解决字符对齐难题;其次,BIM模块充分利用检测相关特征,使任意形状文本的检测准确率提升7.8%;最重要的是,模型不依赖场景专属数据微调,在跨领域应用中展现出惊人鲁棒性。这项研究为智能交通系统中的实时文本识别、水下考古设备的文字提取等前沿应用提供了可靠的技术支撑,其方法论对多模态信息处理领域具有普适性启示。
生物通微信公众号
知名企业招聘