
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于门控挤压激励模块与轻量化时序卷积的免循环手写文本识别新架构
【字体: 大 中 小 】 时间:2025年06月19日 来源:Expert Systems with Applications 7.5
编辑推荐:
【编辑推荐】针对手写文本识别(HTR)中传统CRNN编码器特征表达能力不足、解码器参数量大的问题,研究者提出融合门控挤压激励(Gated SE)模块的增强型编码器与轻量化时序卷积网络(TCN)解码器,开发出EG-HTR/RG-HTR双模型。在IAM和RIMES数据集上分别实现CER降低5.94%/12.58%,参数量最高减少43.32%,为资源受限场景提供高效解决方案。
在数字化浪潮中,手写文本识别(Handwritten Text Recognition, HTR)技术扮演着重要角色,从古籍数字化到智能手写笔记转换,其应用场景日益广泛。然而,当前主流基于卷积循环神经网络(CRNN)的HTR系统面临两大瓶颈:编码器构建的潜在空间表征能力有限,迫使解码器承担过多补偿任务;而解码器中使用的循环神经网络(RNN)组件又带来高计算开销和内存占用。更令人头疼的是,现有模型中超过80%的参数都集中在RNN解码器部分,这种"头轻脚重"的结构严重制约了模型在资源受限环境中的部署。
为解决这一难题,研究人员开展了一项创新性研究,提出通过"增强编码器-简化解码器"的设计哲学重构HTR架构。该团队在编码器中引入门控挤压激励(Gated Squeeze and Excite, SE)模块来深化特征提取能力,同时采用改进的时序卷积网络(Temporal Convolutional Networks, TCN)构建轻量化解码器,最终形成两种创新模型:完全免循环的EG-HTR和保留最小循环单元的RG-HTR。这项突破性成果发表在《Expert Systems with Applications》上,不仅显著提升了识别精度,更实现了模型参数的大幅精简。
研究采用三项核心技术方法:首先,在编码器中设计Gated SE模块,通过通道注意力机制增强特征表征;其次,构建基于扩张卷积的TCN解码器,利用指数增长的感受野捕获长程依赖;最后,在IAM、RIMES等标准数据集上评估模型性能,对比分析CER、WER、SER等关键指标。实验数据来自公开的手写文本数据库,包括英语、法语等多语种样本。
研究结果部分呈现了系统性发现:
增强编码器设计:通过堆叠卷积层与Gated SE模块构建的深度编码器,在潜在空间中形成更丰富的特征表示。定量分析显示,这种设计使编码器参数量占比从传统模型的20%提升至56%,显著减轻了解码器负担。
轻量化解码器实现:EG-HTR模型完全摒弃RNN组件,采用多层TCN结构,参数量减少43.32%的同时保持可比精度。特别设计的扩张卷积策略使单层感受野可达2n
,有效建模长序列依赖。
混合架构优势:RG-HTR在TCN基础上添加单层双向GRU(BiGRU),在IAM数据集上CER降低5.94%,RIMES数据集上CER降幅达12.58%,验证了最小循环单元对复杂手写风格的适应性。
跨数据集泛化:模型在Bentham等历史文档数据集上表现优异,证明架构对墨水褪色、纸张老化等实际场景的鲁棒性。
研究结论指出,这项工作通过重新平衡编码器-解码器能力,实现了HTR领域的双重突破:一方面,Gated SE模块使编码器能捕获更精细的笔画特征和上下文信息;另一方面,TCN解码器的并行处理特性大幅提升推理速度。RG-HTR在IAM测试集上达到96.12%的序列识别准确率,比基准模型提升1.48个百分点,而EG-HTR的43.32%参数量缩减使其成为边缘设备的理想选择。
讨论部分强调,该研究为HTR架构设计提供了新范式:通过强化编码器表征能力,可以相应简化解码器结构。这种方法可能推广到其他序列学习任务,如语音识别和动作预测。值得注意的是,虽然RG-HTR在多数指标上领先,但EG-HTR在参数量-精度权衡方面展现出独特优势,为不同应用场景提供了灵活选择。这项成果不仅解决了CRNN模型长期存在的参数效率低下问题,更通过系统化的架构创新,推动了轻量化HTR技术的实际应用进程。
生物通微信公众号
知名企业招聘