一种用于藏语的多粒度词段评估集构建方法

《Engineering Applications of Artificial Intelligence》:A multi-granularity word segment evaluation set construction method for Tibetan language

【字体: 时间:2026年06月10日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  Cairang Zhuoma|Cai Zhijie中国西南民族大学计算机科学与技术学院,成都,610225摘要词分割作为自然语言处理(NLP)的基本组成部分,为人工智能(AI)中的语义理解提供了基础架构,尤其是在语言智能领域。分割评估集对于推动分割技术的发展至关重要。为了解决藏语

  
Cairang Zhuoma|Cai Zhijie
中国西南民族大学计算机科学与技术学院,成都,610225

摘要

词分割作为自然语言处理(NLP)的基本组成部分,为人工智能(AI)中的语义理解提供了基础架构,尤其是在语言智能领域。分割评估集对于推动分割技术的发展至关重要。为了解决藏语词分割缺乏科学严谨且实用的评估集的问题,本文提出了一种多粒度构建方法。该方法从评估句子中构建本地词表,通过将句子与其本地词表结合生成字符索引表,并通过索引表自动构建多粒度评估集。为了验证其有效性,我们以DeepSeek-R1和Jieba作为基线模型(这两种模型都支持藏语和汉语的多粒度分割),从多个维度(包括准确性、多样性、覆盖率、公平性和粒度偏好)进行了比较分析。此外,通过构建汉语多粒度评估集,我们还进行了语言无关的实验。结果表明,所提出的方法不仅为藏语分割评估提供了一种新颖高效的方法,还确保了其在多种语言中的良好可解释性和适用性。最后,我们将该方法集成到深度文本分类和藏汉机器翻译(MT)中,其中一种基于上下文的自适应粒度选择策略有效提升了模型性能。

引言

词分割将字符序列划分为词序列,是自然语言处理(NLP)的基础设施层,决定了人工智能(AI)系统如何感知和理解语言。在全球化时代,准确的词分割是实现有效多语言信息交流的基本前提。正确分割不同语言的文本对于实现可靠的机器翻译和跨语言信息检索至关重要,从而克服语言障碍,促进跨文化交流和知识传播。然而,低资源语言的词分割进展长期以来一直滞后,严重限制了分割技术的发展,导致AI系统中的级联机制失效。藏语作为一种典型的低资源语言,在形态学、句法和书写系统方面与汉语和英语等高资源语言存在显著差异(CHEN等人,2003年;Liu等人,2015年)。因此,藏语词分割的研究在补充现有分割理论并推动AI和NLP的理论创新方面发挥着重要作用(Cuo等人,2020年)。
分割评估集是推动词分割技术发展的关键资源。在典型的评估过程中,组织者提供训练语料库供参与者用于训练他们的分割系统,然后这些系统对组织者提供的测试语料库进行分割。将分割结果与真实值进行比较以生成性能分数,作为系统评估的基础。
为了推进低资源语言的词分割技术,中国信息处理协会于2017年和2021年与其民族语言信息处理和计算语言学委员会合作,组织了两次少数民族语言词分割评估活动(分别称为MLWS2017和MLWS2021)(Xiaobing等人,2022年)。评估的语言包括蒙古语、藏语和维吾尔语。在两次活动中,参与者使用提供的训练集训练他们的分割模型,并提交指定测试集的结果。组织者将这些结果与黄金标准进行比较以评估性能。然而,由于数据资源和技术发展的限制,这两次活动中的藏语分割评估(Gao,2017年;Gao等人,2022年)存在两个主要问题:
  • (1)
    训练数据集和评估数据集之间的分割粒度不一致。
  • (2)
    词分割的评估标准过于简单或缺乏多样性。
  • 上述问题的根本原因在于多粒度词分割评估数据的稀缺。现有的评估数据集通常只为每个句子提供单一粒度的分割结果,而在实际中,一个句子在不同粒度下可能有多种有效的分割结果,这导致了评估的偏差。例如,一个系统可能因为与提供的标准一致而获得高分,而另一个产生语义上正确但分割方式不同的系统可能获得低分甚至零分。这种不一致性在其他语言的分割评估中也是一个主要问题,包括汉语和日语。
    为应对这一挑战,本文分析了现有的分割评估方法,并提出了一种新的多粒度藏语分割评估集构建方法。该方法旨在解决公平性问题,为藏语词分割系统提供更全面和准确的评估框架。

    章节片段

    相关工作与问题分析

    词分割是自然语言处理中的基本任务,对于没有明确词分隔符的语言(如日语、汉语和藏语)尤为重要(Berriche等人,2024年;Cunha等人,2012年;Fangyu和CAI,2024年)。自20世纪80年代以来,词分割一直是自然语言处理的核心课题。尽管持续的研究努力带来了显著进展,但由于自然语言本身的复杂性,分割问题仍然是一个未解决的挑战。

    词分割评估过程

    词分割评估是一种有效且客观的方法,用于评估分割模型的性能。通常,分割模型在指定的训练集上训练,然后应用于测试集。系统的输出使用评估指标与真实值进行比较。整个过程如图1所示。
    在词分割评估中,训练集、测试集和评估算法都对最终结果至关重要。训练集用于

    实验与结果分析

    为了验证所提出方法的有效性,我们使用三个评估指标(准确性、多样性和覆盖率)对两个基线模型进行了系列比较实验:DeepSeek-R1(DeepSeek-R1,2024年),它支持藏语和汉语的多粒度分割;以及Jieba(Jieba开发团队,2023年),一个广泛使用的汉语词分割工具。我们还基于标准差(σ)、加权标准差(σw)和范围分析了性能

    结论

    藏语作为一种低资源语言,具有稀缺的标注数据、复杂的语言结构和有限的计算资源,带来了重大挑战。藏语词分割的研究不仅是藏语处理的关键技术,也是NLP任务(如跨语言智能检索、机器翻译和文本分类)的关键问题。为了解决当前藏语词分割评估中的问题——即缺乏科学

    CRediT作者贡献声明

    Cairang Zhuoma:概念化、形式分析、调查、方法论、可视化、初稿撰写、审稿与编辑。Cai Zhijie:数据整理、项目管理、资源协调、软件开发、验证。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

    致谢

    本工作得到了西南民族大学高层次人才引进计划(项目编号RQD2022039)、国家自然科学基金(项目编号61966031、61866032)以及青海省重点研发与转化项目(项目编号2019-SF-129)的支持。
    Cairang Zhuoma(1970-)是西南民族大学的教授。她毕业于西北工业大学,获得硕士学位,并在陕西师范大学获得博士学位。她是中国计算机联合会(CCF)的资深成员,也是中国信息学会少数民族语言信息委员会的常务委员会成员。主要研究方向为藏语智能信息处理和机器翻译。她主持了两个国家级科研项目
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号