基于游戏化的众包方法用于土耳其语单词含义的消歧

《ACM Transactions on Asian and Low-Resource Language Information Processing》:Gamified Crowd-sourcing for Word Sense Disambiguation of Turkish

【字体: 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  词义消歧研究提出游戏化众包数据收集新方法,通过多语言玩家在互动游戏中标注歧义词义及互评机制,成功收集高质量数据集。相比传统众包方法,参与群体更广泛且持续投入度高,为构建鲁棒语言模型提供可靠训练资源。

  

摘要

词义消歧(WSD)是根据单词在句子中的上下文来确定其正确含义的过程,尽管大型语言模型(LLMs)取得了进展,但这仍然是自然语言处理(NLP)领域的核心挑战之一。虽然LLMs在WSD方面的性能有所提高,但在一些复杂语境、资源匮乏的语言以及特定领域术语中仍存在挑战。这些问题可能会影响LLMs在高风险应用和多语言环境中的准确性。为了解决WSD问题,我们提出了一种基于游戏化众包的新方法进行数据收集,据我们所知,这种方法在该领域尚未被应用过。我们使用消息机器人来吸引广泛且多元化的参与者,以生成高质量的WSD数据。通过多人游戏的形式,母语者可以为模糊词汇的不同含义提供示例,并对其他人的贡献进行评分。结合我们提出的改进措施,该平台吸引了来自不同年龄段、背景和性别的参与者,参与人数是类似众包方法在另一NLP任务中的20倍,并且他们的参与度在较长时间内保持稳定。与传统学术众包平台不同,这种方法着重于吸引来自学术界或AI相关社区之外的多样化背景的人士。这种方法不仅收集了数据,还鼓励参与者相互评价彼此的贡献,从而形成了一个丰富可靠的数据集。我们的研究结果表明,游戏化众包可以成为构建WSD语料库的有效工具。我们的方法不仅为未来的WSD研究提供了支持,还为开发更精确、更具鲁棒性的语言模型提供了宝贵的训练数据。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号