以实体为中心的中文拼写校正:数据集与方法

《ACM Transactions on Asian and Low-Resource Language Information Processing》:Entity-focused Chinese Spelling Correction: Dataset and Approach

【字体: 时间:2025年11月07日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  中文拼写纠正通过预训练语言模型增强,重点解决实体词错误。构建首个公共实体拼写纠正数据集EFCSC,提出实体知识注入语言模型EKILM,实验证明其纠正性能优于基线模型。

  

摘要

由于预训练语言模型具有强大的表示能力,中文拼写校正模型的性能得到了显著提升。然而,预训练语言模型主要关注上下文信息,并将所有单词平等对待,从而忽略了实体信息。在实际应用中,实体词是各种人工智能任务(如机器翻译、光学字符识别和自动语音识别)中最难处理的部分。为了解决这个问题,我们首先构建了一个以实体为中心的中文拼写校正(EFCSC)数据集,这是首个专门针对实体错误进行标注的公开拼写校正语料库。此外,我们提出了一种基于实体知识的语言模型(EKILM),该模型将实体信息注入到预训练语言模型中,从而使传统的拼写校正模型更加关注实体词。在多个基准数据集上的实验表明,我们提出的模型性能优于所有现有的强基线模型,在所有数据集上都取得了领先的结果。广泛的实验和详细分析证明,我们提出的模型在提升实体错误校正能力的同时,没有损害正常的拼写校正性能。我们的代码和数据集将发布在 https://github.com/DPloved/EFCSC,以促进未来的研究。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号