PokéLLMon:一种用于宝可梦对战中大型语言模型的基础训练与推理基准测试方法

《ACM Transactions on Internet Technology》:PokéLLMon: A Grounding and Reasoning Benchmark for Large Language Models in Pokémon Battles

【字体: 时间:2025年11月08日 来源:ACM Transactions on Internet Technology

编辑推荐:

  LLM基础设定与推理能力研究基准 PokéLLMon通过虚构游戏知识和动态对抗玩法挑战现有模型,实验揭示其不足并提出基于反馈与行动一致性分析的新方法,并引入人类对抗的高阶推理场景。

  

摘要

为大型语言模型(LLMs)开发基于现实世界的知识关联(grounding)技术需要满足两个条件:首先,环境应包含超出现有LLMs知识范围的丰富信息;其次,任务本身需要具备较高的复杂性,从而促使模型进行策略性推理。现有的交互式环境由于设计过于简单,或者过度依赖LLMs已内置的常识性知识,无法同时满足这两个要求。在本文中,我们提出了PokeLLMon这一新的基准测试平台,该平台融入了虚构的游戏中元素,并以宝可梦战斗的激烈、动态且对抗性强的特点为背景,为交互式环境中知识关联与推理技术的发展带来了新的挑战。实证评估表明,现有的LLMs在处理宝可梦战斗相关任务时存在明显不足。我们研究了几种能够利用反馈信息与游戏知识的推理方法,并从“行为一致性”这一全新视角对相关推理机制进行了深入分析。此外,我们还设计了与人类玩家对抗时所需的更高层次的推理任务。PokeLLMon基准测试平台的实现代码可在此链接获取:https://github.com/git-disl/PokeLLMon。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号