Tibetan-LLaMA 2:用于藏语的大型语言模型

《ACM Transactions on Asian and Low-Resource Language Information Processing》:Tibetan-LLaMA 2: Large Language Model for Tibetan

【字体: 时间:2025年11月19日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  针对低资源语言藏语在大语言模型应用中的不足,提出通过构建大规模无监督预训练和监督微调数据集缓解数据稀缺问题,并扩展LLaMA词汇表提升编码效率。经二次预训练和微调后,藏语LLaMA在十项评估基准中表现显著提升,相关模型资源已开源发布。

  

摘要

大型语言模型(LLMs),如ChatGPT和LLama,在各种自然语言任务中表现出显著的能力。然而,目前的LLMs主要集中在资源丰富的语言上,如英语和中文。对于资源匮乏的语言(如藏语),与LLMs相关的研究和应用仍处于起步阶段。为了解决这一差距,我们提出了一种方法来增强LLaMA理解并生成藏语文本的能力,以及执行指令的能力。这是通过创建大规模的无监督预训练和有监督微调数据集来实现的,这些数据集弥补了藏语数据有限的不足。此外,我们通过单词分词(Unigram tokenization)将藏语词汇纳入LLaMA的词汇库中,从而提高了其编码效率和藏语的语义理解能力。进一步地,我们使用构建的数据集对模型进行了二次预训练和微调,增强了模型有效解释和执行指令的能力。为了验证模型的有效性,我们为藏语语言建立了十个评估基准。实验结果表明,所提出的模型显著提升了LLaMA理解和生成藏语内容的能力。为了促进进一步的研究,我们在https://github.com/Shajiu/Tibetan-LLaMA-2上发布了我们的模型和推理资源。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号