大型语言模型在交互式叙事创作中的应用潜力与伦理考量:以视觉小说为例的实证研究

《IEEE Transactions on Games》:Could vs Should: Exploring Prompting Strategies and Writer Perspectives Towards LLM Assistance in Storylet Authoring

【字体: 时间:2025年11月23日 来源:IEEE Transactions on Games 2.8

编辑推荐:

  本文针对游戏叙事设计领域对大型语言模型(LLM)应用的“能否使用”与“应否使用”双重疑问,开展了一项关于LLM辅助故事单元(Storylet)创作的研究。研究人员通过对比不同提示策略生成分支叙事内容的能力,并调查专业叙事设计师对生成内容的评价,发现LLM虽能生成语法基本正确的分支对话树,但在语义连贯性和游戏状态参数操控方面存在局限。更重要的是,从业者普遍对LLM在工作流中的伦理问题、环境影响及创作乐趣的侵蚀表示担忧。该研究强调了在推进LLM工具化过程中,必须同步解决创作者关切与伦理问题的重要性。

  
在电子游戏叙事设计领域,一股新的浪潮正席卷而来——大型语言模型(Large Language Models, LLM)。这些强大的AI工具展现出生成人类级别文本的惊人能力,为游戏,特别是那些依赖大量文本和分支选择的交互式叙事游戏(如视觉小说Visual Novel, VN),带来了前所未有的自动化潜力。然而,在这股技术热潮之下,潜藏着叙事设计师们深深的焦虑:LLM究竟能否可靠地创造出高质量、符合叙事逻辑的分支对话?即便技术上可行,从伦理和职业满意度角度考量,我们应该将如此核心的创作任务交给AI吗?这种“能够”与“应该”之间的张力,构成了当前游戏叙事创作领域一个亟待探索的核心问题。
为了深入探究这一矛盾,发表于《IEEE Transactions on Games》的一项研究《Could vs Should: Exploring Prompting Strategies and Writer Perspectives Towards LLM Assistance in Storylet Authoring》进行了一项严谨的实证分析。该研究以学术严肃游戏系列“Academical”的开发为背景,设计了两项关联性研究,旨在系统评估LLM在程序化叙事创作中的实际能力,并倾听一线叙事设计师的真实声音。
研究背景植根于程序化叙事系统的复杂性。这类系统(如故事单元系统)将叙事分解为多个小片段(故事单元),根据游戏状态和玩家选择动态组合,创造出丰富的叙事体验。然而,手工创作这些包含大量分支路径、对话选项和游戏状态关联的叙事内容,是一项极其耗时费力的工作。LLM的出现似乎提供了一个解决方案,但早期的尝试(如在Academical 2.0开发中)效果不尽如人意,生成的对话被批评为语调不佳、重复性强、角色引用错误,甚至对创作者的创作体验产生了负面影响。随着LLM技术的快速演进,重新评估其潜力与局限变得至关重要。
为此,研究人员设定了三个核心研究问题(RQ):RQ1关注LLM的技术能力,即其能否创建、增强和操控程序化叙事对话树,包括生成故事结构、连贯对话线以及操控定量游戏状态;RQ2探讨LLM是否能解决作者面临的实际问题并改善写作过程的乐趣;RQ3则直指伦理核心,调查从事程序化叙事项目的作者是否对LLM工具化存在伦理或工作相关的疑虑。
为了回答这些问题,研究团队开展了以下关键工作:
研究方法的核心在于对比不同的LLM提示策略与人类创作。 研究首先设计了四种不同的内容生成条件来应对RQ1:其一是“单次提示LLM生成结构与对话”,即通过一个复杂的提示词要求LLM(使用Meta Llama模型)一次性生成完整的分支对话树及其内容;其二是“迭代式LLM生成结构与对话”,通过多次交互式提示,逐步构建对话树;其三是“人类结构,单次提示LLM生成对话”,将人类预先设计好的对话树结构提供给LLM,让其填充具体对话内容;其四则是完全由人类作者创作的结构和对话,作为基线对照。所有生成内容均需符合特定的JSON输出格式,以便于转换为游戏引擎(如Ink)可读的格式,并包含节点对话、选择边、前提条件检查和游戏状态修改等信息。随后,研究团队邀请了五位具有游戏叙事创作经验的作者(未参与过Academical早期版本开发)对这些生成内容进行盲评,并通过问卷调查深入了解他们对LLM辅助创作的态度和担忧,以此回应RQ2和RQ3。
研究结果揭示了LLM在技术能力与创作者接受度之间的显著差距。
技术能力(RQ1) 方面,量化分析显示:
  • 语法正确性:LLM能够生成大部分语法结构正确的对话树。例如,“单次提示”条件生成了包含18个节点的树,有32条独特路径;“迭代式”条件生成了15个节点的树,有82条独特路径。然而,这两种LLM生成的结构都出现了循环路径(即对话可能陷入重复循环)和少量无法到达的“悬挂”节点,而人类创作的树则无此问题,且路径更多(143条)。
  • 语义正确性:这是LLM的主要短板。尽管路径数量可能很多,但路径中对话和选择的逻辑连贯性很差。在“迭代式”生成的树中,82条路径里仅有3条是完全语义连贯的。人类创作的内容则表现出完全的语义连贯性,角色对话感觉更真实自然。
  • 前提条件修改:LLM在理解和正确操作游戏状态参数(如角色关系值)方面表现不佳,常常做出与对话内容不符的参数修改,或者干脆不设置前提条件。
创作者视角(RQ2 & RQ3) 的调查结果更为引人深思:
  • 内容质量排名:在盲评中,人类创作的对话树和LLM生成的树在质量排名上差距不大,甚至“迭代式LLM生成”的内容获得了最高平均分(2.0),但这更多是由于其清晰的语法和结构。然而,定性反馈却一致指出LLM生成内容缺乏“活力”和“真实感”,感觉“机械”、“呆板”。特别值得注意的是,“人类结构,LLM对话”条件评分最低,表明LLM在填充人类设定的框架时,反而产生了脱节和模糊的对话。
  • 创作乐趣与灵感:参与者普遍表示,克服“空白页现象”(开始创作时的困难)是创作乐趣的一部分,他们很少或仅有时会遇到灵感枯竭,并且通常不依赖LLM获取灵感。他们享受自主构思故事线和情节的过程。
  • 伦理与职业担忧:这是最强烈的反馈。作者们对LLM的应用表达了多方面的伦理关切,包括:1) 环境影响:训练和运行LLM的巨大能耗和水资源消耗是不可持续的;2) 工作替代:担忧公司会利用LLM替代人类作者,特别是初级作者;3) 版权问题:LLM训练数据可能包含了未经授权的受版权保护的内容;4) 作者意图稀释:使用LLM会导致独特的作者风格被AI的同质化输出所淹没,削弱叙事的力量。一位参与者(P2)的评论切中要害:“人类写作有可能偏离预测模型,从而提供更细致、更复杂的视角。”
讨论与结论部分对研究发现进行了升华。研究表明,尽管LLM在生成分支叙事结构上显示出一定潜力,但其在语义连贯性和系统操控上的缺陷,以及引发的创作者强烈的伦理焦虑和乐趣减损,都构成了巨大的应用障碍。这提示我们,当前将LLM直接用于设计时(design-time)的叙事内容生成可能并非最佳路径。未来的研究方向可能需要重新定位LLM的角色,例如,将其作为运行时(runtime)对话生成的工具,或者开发能够辅助人类作者进行编辑、反馈和结构优化的系统(如Phraselette),而不是试图取代核心的创作环节。此外,必须严肃对待伦理问题,探索使用合规数据训练模型、降低环境影响的方案。
总之,这项研究为LLM在交互式叙事创作中的应用提供了冷静而全面的评估。它清晰地指出,技术的“能够”并不自动等同于实践的“应该”。在追求叙事创作自动化的道路上,理解和尊重人类创作者的价值观、乐趣和伦理边界,与提升技术能力同等重要。这项研究为未来负责任地开发和部署AI创意工具树立了一个重要的路标。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号