PokéLLMon：一种用于宝可梦对战中大型语言模型的基础训练与推理基准测试方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Internet Technology》：PokéLLMon: A Grounding and Reasoning Benchmark for Large Language Models in Pokémon Battles

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Internet Technology

编辑推荐：

　　LLM基础设定与推理能力研究基准 PokéLLMon通过虚构游戏知识和动态对抗玩法挑战现有模型，实验揭示其不足并提出基于反馈与行动一致性分析的新方法，并引入人类对抗的高阶推理场景。

摘要

为大型语言模型（LLMs）开发基于现实世界的知识关联（grounding）技术需要满足两个条件：首先，环境应包含超出现有LLMs知识范围的丰富信息；其次，任务本身需要具备较高的复杂性，从而促使模型进行策略性推理。现有的交互式环境由于设计过于简单，或者过度依赖LLMs已内置的常识性知识，无法同时满足这两个要求。在本文中，我们提出了PokeLLMon这一新的基准测试平台，该平台融入了虚构的游戏中元素，并以宝可梦战斗的激烈、动态且对抗性强的特点为背景，为交互式环境中知识关联与推理技术的发展带来了新的挑战。实证评估表明，现有的LLMs在处理宝可梦战斗相关任务时存在明显不足。我们研究了几种能够利用反馈信息与游戏知识的推理方法，并从“行为一致性”这一全新视角对相关推理机制进行了深入分析。此外，我们还设计了与人类玩家对抗时所需的更高层次的推理任务。PokeLLMon基准测试平台的实现代码可在此链接获取：https://github.com/git-disl/PokeLLMon。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号