大型语言模型在交互式叙事创作中的应用潜力与伦理考量：以视觉小说为例的实证研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Games》：Could vs Should: Exploring Prompting Strategies and Writer Perspectives Towards LLM Assistance in Storylet Authoring

【字体：大中小】 时间：2025年11月23日 来源：IEEE Transactions on Games 2.8

编辑推荐：

　　本文针对游戏叙事设计领域对大型语言模型（LLM）应用的“能否使用”与“应否使用”双重疑问，开展了一项关于LLM辅助故事单元（Storylet）创作的研究。研究人员通过对比不同提示策略生成分支叙事内容的能力，并调查专业叙事设计师对生成内容的评价，发现LLM虽能生成语法基本正确的分支对话树，但在语义连贯性和游戏状态参数操控方面存在局限。更重要的是，从业者普遍对LLM在工作流中的伦理问题、环境影响及创作乐趣的侵蚀表示担忧。该研究强调了在推进LLM工具化过程中，必须同步解决创作者关切与伦理问题的重要性。

在电子游戏叙事设计领域，一股新的浪潮正席卷而来——大型语言模型（Large Language Models, LLM）。这些强大的AI工具展现出生成人类级别文本的惊人能力，为游戏，特别是那些依赖大量文本和分支选择的交互式叙事游戏（如视觉小说Visual Novel, VN），带来了前所未有的自动化潜力。然而，在这股技术热潮之下，潜藏着叙事设计师们深深的焦虑：LLM究竟能否可靠地创造出高质量、符合叙事逻辑的分支对话？即便技术上可行，从伦理和职业满意度角度考量，我们应该将如此核心的创作任务交给AI吗？这种“能够”与“应该”之间的张力，构成了当前游戏叙事创作领域一个亟待探索的核心问题。

为了深入探究这一矛盾，发表于《IEEE Transactions on Games》的一项研究《Could vs Should: Exploring Prompting Strategies and Writer Perspectives Towards LLM Assistance in Storylet Authoring》进行了一项严谨的实证分析。该研究以学术严肃游戏系列“Academical”的开发为背景，设计了两项关联性研究，旨在系统评估LLM在程序化叙事创作中的实际能力，并倾听一线叙事设计师的真实声音。

研究背景植根于程序化叙事系统的复杂性。这类系统（如故事单元系统）将叙事分解为多个小片段（故事单元），根据游戏状态和玩家选择动态组合，创造出丰富的叙事体验。然而，手工创作这些包含大量分支路径、对话选项和游戏状态关联的叙事内容，是一项极其耗时费力的工作。LLM的出现似乎提供了一个解决方案，但早期的尝试（如在Academical 2.0开发中）效果不尽如人意，生成的对话被批评为语调不佳、重复性强、角色引用错误，甚至对创作者的创作体验产生了负面影响。随着LLM技术的快速演进，重新评估其潜力与局限变得至关重要。

为此，研究人员设定了三个核心研究问题（RQ）：RQ1关注LLM的技术能力，即其能否创建、增强和操控程序化叙事对话树，包括生成故事结构、连贯对话线以及操控定量游戏状态；RQ2探讨LLM是否能解决作者面临的实际问题并改善写作过程的乐趣；RQ3则直指伦理核心，调查从事程序化叙事项目的作者是否对LLM工具化存在伦理或工作相关的疑虑。

为了回答这些问题，研究团队开展了以下关键工作：

研究方法的核心在于对比不同的LLM提示策略与人类创作。 研究首先设计了四种不同的内容生成条件来应对RQ1：其一是“单次提示LLM生成结构与对话”，即通过一个复杂的提示词要求LLM（使用Meta Llama模型）一次性生成完整的分支对话树及其内容；其二是“迭代式LLM生成结构与对话”，通过多次交互式提示，逐步构建对话树；其三是“人类结构，单次提示LLM生成对话”，将人类预先设计好的对话树结构提供给LLM，让其填充具体对话内容；其四则是完全由人类作者创作的结构和对话，作为基线对照。所有生成内容均需符合特定的JSON输出格式，以便于转换为游戏引擎（如Ink）可读的格式，并包含节点对话、选择边、前提条件检查和游戏状态修改等信息。随后，研究团队邀请了五位具有游戏叙事创作经验的作者（未参与过Academical早期版本开发）对这些生成内容进行盲评，并通过问卷调查深入了解他们对LLM辅助创作的态度和担忧，以此回应RQ2和RQ3。

研究结果揭示了LLM在技术能力与创作者接受度之间的显著差距。

在技术能力（RQ1） 方面，量化分析显示：

•
语法正确性：LLM能够生成大部分语法结构正确的对话树。例如，“单次提示”条件生成了包含18个节点的树，有32条独特路径；“迭代式”条件生成了15个节点的树，有82条独特路径。然而，这两种LLM生成的结构都出现了循环路径（即对话可能陷入重复循环）和少量无法到达的“悬挂”节点，而人类创作的树则无此问题，且路径更多（143条）。
•
语义正确性：这是LLM的主要短板。尽管路径数量可能很多，但路径中对话和选择的逻辑连贯性很差。在“迭代式”生成的树中，82条路径里仅有3条是完全语义连贯的。人类创作的内容则表现出完全的语义连贯性，角色对话感觉更真实自然。
•
前提条件修改：LLM在理解和正确操作游戏状态参数（如角色关系值）方面表现不佳，常常做出与对话内容不符的参数修改，或者干脆不设置前提条件。

创作者视角（RQ2 & RQ3） 的调查结果更为引人深思：

•
内容质量排名：在盲评中，人类创作的对话树和LLM生成的树在质量排名上差距不大，甚至“迭代式LLM生成”的内容获得了最高平均分（2.0），但这更多是由于其清晰的语法和结构。然而，定性反馈却一致指出LLM生成内容缺乏“活力”和“真实感”，感觉“机械”、“呆板”。特别值得注意的是，“人类结构，LLM对话”条件评分最低，表明LLM在填充人类设定的框架时，反而产生了脱节和模糊的对话。
•
创作乐趣与灵感：参与者普遍表示，克服“空白页现象”（开始创作时的困难）是创作乐趣的一部分，他们很少或仅有时会遇到灵感枯竭，并且通常不依赖LLM获取灵感。他们享受自主构思故事线和情节的过程。
•
伦理与职业担忧：这是最强烈的反馈。作者们对LLM的应用表达了多方面的伦理关切，包括：1) 环境影响：训练和运行LLM的巨大能耗和水资源消耗是不可持续的；2) 工作替代：担忧公司会利用LLM替代人类作者，特别是初级作者；3) 版权问题：LLM训练数据可能包含了未经授权的受版权保护的内容；4) 作者意图稀释：使用LLM会导致独特的作者风格被AI的同质化输出所淹没，削弱叙事的力量。一位参与者（P2）的评论切中要害：“人类写作有可能偏离预测模型，从而提供更细致、更复杂的视角。”

讨论与结论部分对研究发现进行了升华。研究表明，尽管LLM在生成分支叙事结构上显示出一定潜力，但其在语义连贯性和系统操控上的缺陷，以及引发的创作者强烈的伦理焦虑和乐趣减损，都构成了巨大的应用障碍。这提示我们，当前将LLM直接用于设计时（design-time）的叙事内容生成可能并非最佳路径。未来的研究方向可能需要重新定位LLM的角色，例如，将其作为运行时（runtime）对话生成的工具，或者开发能够辅助人类作者进行编辑、反馈和结构优化的系统（如Phraselette），而不是试图取代核心的创作环节。此外，必须严肃对待伦理问题，探索使用合规数据训练模型、降低环境影响的方案。

总之，这项研究为LLM在交互式叙事创作中的应用提供了冷静而全面的评估。它清晰地指出，技术的“能够”并不自动等同于实践的“应该”。在追求叙事创作自动化的道路上，理解和尊重人类创作者的价值观、乐趣和伦理边界，与提升技术能力同等重要。这项研究为未来负责任地开发和部署AI创意工具树立了一个重要的路标。

联系信箱：

粤ICP备09063491号

热点排行