通过一个新的视觉-语言框架,学习更多满语词汇

《ACM Transactions on Asian and Low-Resource Language Information Processing》:Learn More Manchu Words with A New Visual-Language Framework

【字体: 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  满语作为重要少数民族语言,其数字化文档的识别存在视觉相似和破损字符问题。本文提出VLMR框架融合视觉与语义信息,结合自蒸馏网络提升性能,并构建HMW手写数据集,实验表明该方法在WMW和HMW上达到SOTA性能。

  

摘要

满语是中国的一种少数民族语言,具有重要的历史和研究价值。越来越多的满语文献被数字化为图像格式,以便更好地保存和研究。最近,许多研究人员致力于在数字化文献中识别满语词汇。在以往的方法中,人们主要依靠视觉线索来识别各种满语词汇。然而,我们发现基于视觉的方法存在一些明显的缺点:一方面,难以区分相似或变形的字母;另一方面,被损坏或污渍遮挡的字母部分也难以识别。为了解决这两个问题,我们提出了一个视觉-语言框架,即满语词汇识别的视觉-语言框架(VLMR),该框架结合了视觉信息和语义信息来准确识别满语词汇。当视觉信息不可用时,语言模型可以自动关联词汇的语义。通过引入自知识蒸馏网络,我们的方法性能得到了进一步提升。此外,我们还创建了一个新的手写满语词汇数据集(HMW),其中包含6,721个手写满语词汇。这一新颖的方法在WMW和HMW数据集上进行了评估,实验结果表明,我们的方法在这两个数据集上都取得了领先的性能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号