
-
生物通官微
陪你抓住生命科技
跳动的脉搏
《Nature》生成式 AI 赋能创意产业:从游戏开发探寻关键能力,解锁无限可能
【字体: 大 中 小 】 时间:2025年02月20日 来源:Nature 50
编辑推荐:
为解决生成式 AI 在创意产业应用中的难题,微软研究人员开展关于生成式 AI 用于创意的研究。他们得出可依用户需求评估和开发模型等结果,这为 AI 助力创意产业发展指明方向,推荐科研读者一读。
在当今科技飞速发展的时代,生成式人工智能(Generative AI)就像一个神奇的魔法棒,在各个领域掀起了创新的浪潮,尤其是在创意产业领域,它展现出了巨大的潜力。它能够生成文本、图像、音频、视频,甚至是游戏的玩法序列,这让创意工作者们看到了无限可能。比如说,在团队协作中,生成式 AI 生成的图像可以帮助不同技能的创意人员更好地沟通,当艺术家不在时,还能自动完成一些视觉制作任务。
然而,这个魔法棒也并非完美无缺。就像童话里的魔法总有一些限制一样,生成式 AI 的能力常常达不到创意工作者们的期望。在将这些技术更全面地融入创意实践的过程中,遇到了不少挑战。比如说,它生成的内容在连贯性和逻辑性上可能会出现问题,缺乏足够的上下文理解能力,很难在遵循特定规则和机制的基础上进行迭代生成。对于游戏开发这种需要高度创意和一致性的领域来说,这些问题就显得尤为突出。
游戏开发可是个 “大工程”!以 3D 游戏为例,它的复杂性犹如一座神秘的城堡,需要各种各样的创意技能才能搭建起来。从游戏世界的构建、角色的设计,到玩法的策划,每个环节都充满了挑战。而且,游戏行业是全球娱乐产业的 “巨头”,拥有超过 30 亿的庞大玩家群体。在这样的背景下,游戏工作室迫切希望借助 AI 的力量,满足玩家们对新内容日益增长的需求和期待。但目前的生成式 AI 模型在应用到游戏开发中时,却困难重重。那么,如何才能让生成式 AI 更好地助力游戏创作呢?这成为了摆在研究者面前的一道难题。
为了解决这些问题,来自微软的研究人员进行了深入探索,并在《Nature》上发表了名为 “Generative AI for creativity: a user-needs-driven evaluation and model development approach” 的论文。他们的研究发现,通过深入了解用户需求,可以设计出一种评估生成式 AI 模型的方法,并推动模型的开发,使其更符合创意实践的要求。同时,他们还开发了一种名为世界和人类行动模型(WHAM)的生成式模型,该模型在生成一致且多样的游戏玩法序列以及保留用户修改方面表现出色,为生成式 AI 在游戏开发领域的应用带来了新的突破。这一研究成果不仅为游戏开发行业带来了新的希望,也为其他创意产业提供了借鉴,具有重要的意义。
在这项研究中,研究人员主要运用了以下关键技术方法:首先,通过对 27 位游戏开发创意人员进行半结构化访谈,运用主题分析的方法,深入了解他们的需求,从而确定了评估生成式 AI 模型的关键能力,即一致性、多样性和持续性。其次,基于这些能力需求,他们构建了 WHAM 模型。该模型以 Transformer 架构为基础,将人类游戏玩法数据编码为离散令牌序列进行训练。在训练过程中,使用了大量来自游戏《Bleeding Edge》的真实人类游戏玩法数据。最后,针对一致性、多样性和持续性这三个关键能力,分别设计了相应的评估指标和方法,如利用 Fréchet 视频距离(FVD)评估一致性,使用 Wasserstein 距离评估多样性等。
下面,让我们详细看看他们的研究成果。
研究人员为了搞清楚游戏开发创意人员的真实需求,和多个跨学科创意团队进行了半结构化访谈。在访谈中,他们让参与者与一个设计探针互动,这个设计探针就像是一个创意启发器,提供了一些虚构但具体的潜在生成式 AI 能力,激发大家的思考。
通过对访谈内容的分析,研究人员发现了两个对 AI 模型开发很重要的主题。第一个是 “发散性思维”。创意人员经常使用生成式 AI 模型来寻找灵感,激发发散性思维,从而产生新的创意。但他们也提到,这些新创意需要在专业实践的一致性框架内才有意义。在游戏开发里,一致性包含很多方面,比如要遵循游戏世界的物理规则,保持游戏风格和氛围的统一,还要和游戏的整体叙事相契合。而多样性则体现在玩家的游戏路径等方面。如果没有这种上下文的一致性,生成的多样化内容可能就会变得毫无意义。就像一个游戏角色突然穿过墙壁,这在游戏世界里就显得很不合理。
另一个主题是 “迭代实践”。在创意过程中,迭代的重要性不言而喻。创意人员在制作游戏时,常常需要花费大量时间对各种细节进行微调,直到感觉 “恰到好处”。但这个 “恰到好处” 的感觉在创作初期往往是模糊的,需要通过不断尝试和调整才能逐渐清晰。而且,他们还会在不同的迭代版本之间来回探索,融合各种不同的元素。所以,为了更好地支持创意人员的迭代实践,生成式 AI 模型不能仅仅依赖文本提示,还应该支持对生成内容的直接操作,能够采纳用户提出的修改建议,并支持不同迭代版本的融合。
在明确了关键能力需求后,研究人员推出了 WHAM 模型。这个模型旨在模拟现代视频游戏随时间变化的动态过程,它通过对人类游戏玩法数据的学习,来预测游戏画面(“帧”)和玩家的控制器动作。
在模型架构和数据方面,WHAM 的设计充分考虑了之前确定的三种能力。一致性要求模型能够准确捕捉游戏画面和控制器动作之间的依赖关系,所以选择了顺序模型;多样性需要模型生成的数据能保留数据集中画面和控制器动作的顺序条件分布;持续性则通过一个可以根据(修改后的)图像和 / 或控制器动作进行条件预测的模型来实现。综合这些需求,WHAM 以 Transformer 架构作为序列预测的基础。为了将图像编码成离散令牌序列,它使用了 VQGAN 图像编码器,并且对 Xbox 控制器动作进行了离散化处理。之后,通过训练一个仅解码器的 Transformer 来预测序列中的下一个令牌。为了训练 WHAM,研究人员与游戏工作室 Ninja Theory 合作,使用了从《Bleeding Edge》这款游戏中提取的大量真实人类游戏玩法数据,包括 7Maps 数据集和 Skygarden 数据集。
在模型评估环节,研究人员针对一致性、多样性和持续性这三个能力制定了评估方法。在一致性方面,他们采用了 FVD 指标,并以人类游戏玩法作为基准。通过让 WHAM 根据 1 秒的游戏玩法(包括视频和控制器动作)生成游戏画面,然后再根据人类玩家在接下来 10 秒内的控制器动作继续生成,最后比较生成的游戏画面与基准的差异。结果发现,较大的模型和更多的计算资源可以提高一致性,比如 1.6B WHAM 模型就能生成长达 2 分钟的高度一致的游戏玩法序列。在多样性评估中,研究人员使用 Wasserstein 距离来衡量模型生成的动作与人类玩家动作的相似程度。结果显示,所有模型在训练过程中多样性都有所提高,1.6B WHAM 模型虽然在某些方面表现稍逊,但通过调整动作损失的权重可以进一步提升多样性,而且该模型能够生成行为和视觉上多样化的游戏玩法序列。对于持续性,研究人员通过手动在游戏图像中插入不同元素,然后使用 1.6B WHAM 模型生成图像,并让人类标注这些元素是否在生成的视频中持续存在。结果表明,当基于五个编辑后的图像进行条件生成时,WHAM 的持续性显著提高,对于各种插入元素的持续性都能达到 85% 以上,这说明它能够很好地保留用户的修改。
为了展示 WHAM 如何支持迭代实践和发散性思维,研究人员还构建了一个概念原型 ——WHAM Demonstrator。它为用户提供了一个可视化界面,用户可以通过选择起始帧来 “提示” 模型,模型会生成许多可能的游戏玩法序列分支,支持用户进行创造性探索。用户还可以对生成的帧进行修改,比如添加对手角色等,从而影响后续的生成结果,真正实现了在创作过程中的自主控制。
这项研究有着重要的意义。研究人员通过与游戏创意人员的深入交流,确定了开发支持创意的 AI 系统时应优先考虑的三个模型能力:一致性、多样性和持续性。这为 AI 系统的开发指明了方向,让开发人员知道应该朝着哪个方向努力,才能更好地满足创意工作者的需求。
他们开发的 WHAM 模型展示了现代生成式 AI 模型的强大潜力。这个模型可以从相关数据中学习复杂的结构,而且不需要事先具备领域知识。它生成的游戏玩法序列与 3D 游戏世界的物理规则和游戏机制相符合,这意味着在游戏开发过程中,它可以为开发者提供很多有用的帮助,比如快速生成一些符合游戏设定的场景和玩法,节省开发时间和精力。
从更广泛的角度来看,像 WHAM 这样的生成式 AI 模型有望将创意支持扩展到更多领域,比如音乐、视频等。以前,在不同领域开发创意支持工具时,往往需要针对每个领域手动定义或提取结构,这既耗时又费力。而现在,生成式 AI 模型可以从数据中自动学习相关结构,大大提高了效率,降低了开发成本。这对于整个创意产业来说,无疑是一个重大的突破,为未来的创意工作带来了更多的可能性。
此外,该研究还为机器学习研究人员开辟了新的创新路径。它强调了模型评估应该以人类创意人员的需求为导向,而不是仅仅关注任务完成的效率。同时,机器学习模型在创意领域不应被看作是孤立的工具,而应该融入更全面的创意工作流程中。这为未来的研究和开发提供了重要的指导原则,让研究者们更加明确如何将 AI 技术与创意工作更好地结合,推动创意产业的发展。
总的来说,微软研究人员的这项研究成果为生成式 AI 在创意产业的应用带来了新的曙光,它解决了当前存在的一些关键问题,为未来的研究和实践提供了重要的参考和方向,相信在不久的将来,我们会看到生成式 AI 在更多领域大放异彩,为我们的生活带来更多的惊喜和创意。
生物通微信公众号
知名企业招聘