基于轻量化U-Net与自适应缩放的天城文手写词分割方法研究

【字体: 时间:2025年07月16日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  为解决天城文手写文档中因字符重叠、间距不均及水平基线(Shirorekha)导致的词分割难题,研究人员提出轻量化U-Net模型LUNet,结合自适应特征缩放与新型HW-DEV数据集,实现95.52%的准确率,为印度语系文档分析奠定技术基础。

  

在数字化浪潮席卷全球的今天,手写文档的机器可读转换成为文化传承与信息检索的关键环节。然而,当这项技术遇上拥有独特水平基线(Shirorekha)和复杂变音符号的天城文(Devanagari)手写体时,传统分割方法便显得力不从心。这种用于印地语、梵语等的重要文字系统,其字符间粘连、书写风格差异以及著名的"头顶横线"特征,使得词分割成为文档分析领域的"珠穆朗玛峰"。

面对这一挑战,研究人员开发了名为LUNet的轻量化U-Net模型。这项发表在《Engineering Applications of Artificial Intelligence》的研究,通过三方面创新攻克了技术瓶颈:首先是对经典U-Net架构进行参数精简,在保持性能的同时降低75%计算量;其次引入实例归一化(Instance Normalization)和空间特征缩放技术,使模型能自适应处理不同书写风格;最后构建了包含1000份手写文档的HW-DEV数据集,填补了该领域基准数据的空白。

关键技术方法包括:采用CLAHE(对比度受限自适应直方图均衡)和Otsu阈值法进行图像预处理;设计具有跳跃连接(Skip Connection)的轻量化U-Net架构;开发基于轮廓检测的后处理算法提取单词边界。实验在NVIDIA GeForce GTX 1650硬件平台完成,评估指标涵盖Dice系数、IoU等。

主要研究结果

  1. 模型优化效果:通过减少卷积核数量和通道数,将参数量压缩至原U-Net的25%,推理速度提升2.3倍,同时保持95.52%的分割准确率。

  2. 跨场景鲁棒性:在包含模糊文本、双语混合、尺规书写等复杂场景的HW-DEV数据集测试中,F1-score达94.7%,显著优于传统CNN和Transformer模型。

  3. 特征缩放优势:实例归一化层使模型对书写工具、纸张质地等干扰因素的容忍度提升38%,特别适应老年书写者的颤抖笔迹。

讨论与意义

这项研究首次系统解决了天城文手写词分割的三大痛点:通过轻量化设计降低部署门槛,使算法可在移动设备运行;自适应机制有效应对"连笔字"和断裂基线等书写变异;HW-DEV数据集为后续研究提供标准化评估平台。Rajandeep Kaur团队特别指出,该技术的延伸应用将改变印度语系地区的文档数字化生态——从古籍数字化到邮政自动化,从法律文书识别到医疗记录管理,其影响将辐射至文化保护、教育公平等多个社会维度。未来工作将探索多脚本混合文档的分割方案,进一步推动南亚地区的数字包容性发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号