通过一个新的视觉-语言框架,学习更多满语词汇
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Learn More Manchu Words with A New Visual-Language Framework
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
满语作为重要少数民族语言,其数字化文档的识别存在视觉相似和破损字符问题。本文提出VLMR框架融合视觉与语义信息,结合自蒸馏网络提升性能,并构建HMW手写数据集,实验表明该方法在WMW和HMW上达到SOTA性能。
摘要
满语是中国的一种少数民族语言,具有重要的历史和研究价值。越来越多的满语文献被数字化为图像格式,以便更好地保存和研究。最近,许多研究人员致力于在数字化文献中识别满语词汇。在以往的方法中,人们主要依靠视觉线索来识别各种满语词汇。然而,我们发现基于视觉的方法存在一些明显的缺点:一方面,难以区分相似或变形的字母;另一方面,被损坏或污渍遮挡的字母部分也难以识别。为了解决这两个问题,我们提出了一个视觉-语言框架,即满语词汇识别的视觉-语言框架(VLMR),该框架结合了视觉信息和语义信息来准确识别满语词汇。当视觉信息不可用时,语言模型可以自动关联词汇的语义。通过引入自知识蒸馏网络,我们的方法性能得到了进一步提升。此外,我们还创建了一个新的手写满语词汇数据集(HMW),其中包含6,721个手写满语词汇。这一新颖的方法在WMW和HMW数据集上进行了评估,实验结果表明,我们的方法在这两个数据集上都取得了领先的性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号