探索使用Pepper进行多模态协作式故事讲述:一项基于零样本大语言模型(LLM)的初步研究

《Frontiers in Robotics and AI》:Exploring multimodal collaborative storytelling with Pepper: a preliminary study with zero-shot LLMs

【字体: 时间:2025年10月09日 来源:Frontiers in Robotics and AI 3.0

编辑推荐:

  本研究提出一种基于多模态交互的协作故事系统,用户可通过自然语言和物体展示与Pepper机器人共同创作故事。系统采用Llama 2零样本生成叙事内容,YOLOv11实现物体识别,并整合语音合成、情感分析和手势生成模块。实验显示用户对系统创新性、互动性评价较高,但存在语音识别延迟和模型叙事多样性不足的问题。

  随着大型语言模型(LLMs)的兴起,虚拟代理或聊天机器人中的协作式讲故事逐渐受到关注。尽管讲故事在社会机器人领域已有长期应用,用于教育、娱乐和说服等目的,但将LLMs整合到此类平台中的研究仍处于初步阶段。本文提出了一种全新的多模态协作讲故事系统,其中用户可以通过自然语言交互和展示物理对象的方式与社会机器人Pepper共同创作故事。该机器人采用基于YOLO的视觉系统来识别这些对象,并将它们无缝地融入叙事中。故事生成和适应过程由Llama模型在零样本设置下自主完成,旨在评估此类模型在互动讲故事中的可用性和成熟度。为了增强沉浸感,机器人通过富有表现力的手势、情感提示和语音调制来呈现最终的故事。用户反馈表明,系统获得了高度认可。

讲故事一直是人类交流的重要方式,它不仅用于教育,还用于娱乐和说服。在人类历史中,讲故事帮助塑造文化、传递知识并促进社会联系。近年来,将讲故事融入人机交互(HRI)为互动体验带来了新的可能性,尤其是在教育、治疗和娱乐领域。社会机器人因其能够识别语音、处理语言和表达情感的能力,正逐渐成为讲故事的有力工具。它们的物理存在可以提升参与度,使讲故事体验更加沉浸和有影响力。随着技术的进步,讲故事的形式从口头和书面传统演变为结合文本、图像、声音和视频等多媒体元素的数字讲故事(DST)。一些工具如Storybird已被用于提升外语学习者的写作技能,通过创造性的叙事项目促进词汇发展和语法准确性。尽管数字讲故事通常依赖于虚拟平台和视频系统,但近年来LLMs和社交机器人的发展为更互动和适应性的讲故事体验打开了新的大门。

LLMs的出现显著影响了讲故事的方式,使机器人能够生成连贯且适应性的文本,摆脱了传统脚本的严格限制。一些研究探索了不同开源LLMs在处理叙事困境时的表现,分析了它们根据多样化提示生成逻辑故事延续的能力。这些研究强调了提示工程在塑造AI生成故事的一致性和创造力方面的重要性。此外,Venkatraman等人(2024)开发了CollabStory数据集,其中多个LLMs协作生成故事的不同部分,展示了多模型讲故事的潜力。Yotam等人(2024)则构建了一个系统,利用儿童的绘画作为提示,由GPT-4模型生成角色描述和背景故事,实现了视觉驱动的互动讲故事。这些研究突显了LLMs在创造更灵活和互动的讲故事体验方面的巨大潜力。

在纯数字环境之外,社会机器人也成为了讲故事的新平台。它们通过具身性和多模态互动增强了参与感,使讲故事体验更加沉浸。例如,Liang和Hwang(2023)进行了一项对比研究,比较了基于机器人的与基于视频的DST系统对英语作为外语学习者的影响。结果显示,机器人辅助讲故事提升了英语口语能力、叙事参与度和沟通信心,优于传统视频方法。同样,Chang等人(2023)在儿科医疗领域研究了机器人辅助讲故事的效果,发现机器人比视频教育方法更能减轻儿童在医疗程序中的焦虑。他们的研究还指出,机器人干预有助于增强情感表达并加强治疗互动,进一步证明了其在医疗环境中的优势。Alimardani等人(2021)则研究了NAO机器人在治疗自闭症谱系障碍(ASD)儿童中的应用,机器人通过身体语言和LED颜色提示表达情感,帮助儿童提高情感识别和社会互动能力。

基于LLMs的讲故事与机器人辅助讲故事的结合,推动了协作式讲故事的发展。协作式讲故事强调用户与机器人的互动,使故事在动态过程中不断演变。然而,目前很少有研究将LLMs直接应用于协作式讲故事系统中,这表明该领域仍有很大的研究空间。例如,Elgarf等人(2022)开发了两种讲故事模型(一种是创造性模型,另一种是非创造性模型),分析了它们对儿童参与度的影响。研究结果表明,创造性模型增强了儿童的想象力,但交互模式(机器人主导或儿童主导)并未显著改变结果。Nichols等人(2020)和Nichols等人(2021)则介绍了基于Haru机器人头的回合制协作讲故事系统,其中讲故事从数据库中启动,并通过用户输入和LLM生成的延续逐步推进,从而提供更加互动和吸引人的讲故事体验。

本研究的初步目标是展示一种多模态协作讲故事系统的框架,用户可以通过自然语言和展示物理对象的方式与社会机器人Pepper共同创作故事。这一系统的核心在于将自然语言交互、视觉识别、语音合成和表达行为整合在一起,以实现更自然和沉浸的互动体验。该系统的主要贡献包括:

1. 设计并实现了社会机器人Pepper的多模态协作讲故事系统架构,整合了自然语言交互、视觉、语音和表达行为模块。
2. 采用Llama 2进行零样本故事生成和适应,结合YOLOv11的物体识别,使用户能够通过语言和物理对象影响叙事。
3. 集成并协调了互补模块,包括文本到语音(TTS)、自动语音识别(ASR)和情感识别(RoBERTuito),以增强机器人在人机互动中的表达力和沉浸感。
4. 通过标准化问卷(UEQ)、自定义问卷和定性分析(亲和图)相结合的方式,对用户反馈进行了系统评估,以衡量系统的自然性、参与度和整体接受度。

这一系统的设计和实现为未来人机互动中的讲故事方式提供了新的思路。通过结合语言和视觉输入,机器人能够动态地生成和调整故事,使用户成为故事创作的积极参与者。同时,系统在保持故事连贯性的同时,提供了更高的灵活性和创造性。然而,当前的研究仍处于初步阶段,存在一些局限性,如交互模式主要为回合制、推理时间较长,这可能影响实时互动的流畅性。这些问题为后续研究提供了优化的方向,例如开发更高效的推理机制和更丰富的表达方式。

系统的核心流程可以分为三个主要步骤:故事选择与引入、故事适应与用户输入整合,以及最终故事的呈现。在故事选择阶段,用户请求一个故事,机器人则提供五个经典童话故事供选择。用户选定故事后,机器人会以中性语气朗读故事,将其分为设定、冲突和解决三个部分。在每个部分结束后,用户有机会对故事进行个性化修改,提出任何类型的更改请求。一旦所有修改被收集,机器人将执行修改后的版本,结合语音、非语音表达和情感提示,使故事更加生动和富有感染力。

故事适应阶段,用户输入的修改信息被整合到故事中,以确保叙事的连贯性和逻辑性。为了实现这一目标,系统结合了多种关键模块,包括创意模块、语音交流模块、视觉识别模块、情感分析模块和手势生成模块。创意模块负责生成和组织故事文本,语音交流模块通过Whisper进行自动语音识别,将用户语音转化为文本,并进行语音合成。视觉识别模块利用YOLOv11模型识别用户展示的物体,并将其融入故事中。情感分析模块通过RoBERTuito模型生成情感向量,以反映故事的情绪基调。手势生成模块则结合节奏性手势和语义相关手势,以增强机器人的表达力和互动性。

在最终故事呈现阶段,机器人通过表达性手势、情感提示和语音调制,将故事生动地呈现给用户。这种多模态的表达方式不仅提升了故事的沉浸感,还增强了用户的参与度和情感共鸣。系统通过调整手势的速度和节奏,以及语音的语速和音调,来反映故事的情感变化。同时,Pepper的面部颜色也被用作情感表达的视觉提示,其中黄色代表积极情绪,蓝色代表消极情绪,白色则表示中性情绪。

为了评估系统的用户体验,本研究进行了用户实验。实验参与者为25人,涵盖了不同年龄和性别的人群。参与者被要求选择一个故事,随后机器人会读出故事,并在每个阶段结束时提供修改机会。实验结束后,用户填写了标准化问卷(UEQ)和自定义问卷(SDQ),以评估系统在自然性、效率、可靠性、刺激性和新颖性方面的表现。此外,用户还参与了半结构化访谈,以提供更深入的反馈。通过亲和图分析,研究者对用户的反馈进行了系统归纳,发现用户普遍认可系统的创意性和表达性,但也指出了一些需要改进的地方,如手势的突然变化和语音调制的不连贯。

实验结果显示,系统在多个方面表现出色。用户对机器人的表现性手势和情感表达给予了较高的评价,特别是在故事适应阶段,用户对系统的创造性表示认可。然而,系统在某些方面仍存在不足,例如语音识别模块偶尔会误识别用户输入,导致部分修改未能准确实施。此外,系统在生成新故事时的延迟问题也引起了关注,尤其是在故事修改阶段,较长的延迟可能会影响用户的沉浸感和互动体验。尽管一些参与者能够接受这些延迟,将其解释为机器人“思考”的过程,但过多的等待时间可能破坏叙事的流畅性。

从用户反馈来看,系统在交互设计方面也获得了认可,特别是通过物理对象和多种通信渠道的结合,使用户能够更直观地参与故事创作。然而,部分用户希望系统能提供更明确的指导,以减少操作上的不确定性。这表明在设计上需要在简洁性和详细指导之间找到平衡,以适应不同用户的经验水平。此外,实验中还发现,机器人在非母语环境下进行互动时,可能限制了用户的自发性和创造力,这提示未来版本应考虑支持多语言功能,以提升系统的可用性和适应性。

本研究强调,这是一个初步探索,目前的结果应谨慎解读。由于缺乏比较基准,无法确定所提出的系统是否在所有方面都优于其他方法。此外,叙事多样性仍是一个值得关注的问题,尽管LLM生成了125个故事建议,但仅有23个不同的标题出现,其中三个故事占据了超过一半的建议。这种偏见可能源于模型本身对某些故事的偏好,因此需要探索不同的提示策略或控制故事分配方式,以确保更大的多样性。同时,样本量较小(N=25)可能影响了Cronbach’s Alpha的稳定性,因此未来的研究应扩大样本规模,以更全面地评估系统的内部一致性。

为了进一步提升系统的互动性和表达力,未来的工作可以包括引入更先进的手势模型,如语义手势生成器(Semantic Gesticulator),以实现更丰富的表达方式。同时,探索更高效的推理机制,以减少生成故事时的延迟,提升实时互动的流畅性。此外,系统应考虑支持多语言环境,以适应不同文化背景的用户。通过这些改进,系统可以更好地满足用户的需求,提升其在教育、治疗和娱乐等领域的应用价值。

总的来说,本研究为多模态协作讲故事系统的设计和实现提供了新的思路,展示了社会机器人在互动讲故事中的潜力。尽管目前还存在一些局限,但系统的初步成果表明,通过结合自然语言处理、视觉识别和情感分析等技术,可以创造出更加沉浸和互动的讲故事体验。未来的研究应继续探索如何优化这些技术的整合,以提升系统的表达力、灵活性和适应性,使其成为更加自然和富有创意的互动工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号