《Proceedings of the Design Society》:LLM-based voice chatbot surveys as an alternative to post-experience questionnaires: probe-controlled, ultra-short field interviews
编辑推荐:
基于聊天机器人的调查提供了低负担、原位的数据收集方式,然而不受约束的大语言模型(LLM)常常偏离研究目标。研究人员在一个公共场馆进行了359次超简短的体验后语音访谈,以比较框架引导的大语言模型、不受约束的大语言模型和固定问题。引导式方法产生的回答显著长于固定问
基于聊天机器人的调查提供了低负担、原位的数据收集方式,然而不受约束的大语言模型(LLM)常常偏离研究目标。研究人员在一个公共场馆进行了359次超简短的体验后语音访谈,以比较框架引导的大语言模型、不受约束的大语言模型和固定问题。引导式方法产生的回答显著长于固定问题,并产生了最丰富的、针对具体过程的叙述多样性。这些发现表明,探针控制在现实世界、时间受限的环境中,对于获取可操作的、基于经验的反馈至关重要。
**研究背景与问题**
随着信息技术的进步,服务在多样化场景中的应用日益广泛。这一趋势提升了以用户为中心的设计(User-Centered Design, UCD)和工程设计的重要性,其中识别用户的潜在需求对于产品创新至关重要。问卷是UCD中常用的数据收集方法,因其成本效益高且能快速大规模实施而受到重视。然而,问卷无法实时追问回答,可能错失深入洞察;缺乏互动也可能导致低质量回答或拒绝回答。此外,开放式文本输入所需的努力是一种负担,常导致调查疲劳和参与者退出。这反映了人机交互(HCI, Human-Computer Interaction)中一个常见的权衡:诸如经验采样和移动传感等原位方法提高了时间保真度,但往往增加了负担或限制了回答深度。
为应对这些局限,聊天机器人“追问”定性调查问题的潜力被探索,许多研究采用遵循预定流程的对话代理来提问。研究表明,基于聊天机器人的调查通过其互动形式,可以比静态问卷促进更多的自我表露并收集更高质量的数据。大语言模型(LLM)的最新进展进一步增强了这种潜力,能够进行“当下”访谈,引出可与人类访谈者相媲美的更深层次的用户洞察和潜在需求。然而,一个显著的约束已被识别:将对话完全交由不受控制的大语言模型处理,常常无法收集到研究人员所需的特定数据。设计研究目前缺乏一个系统化的框架来规范何时以及追问什么,这构成了本文要解决的研究空白。
**研究目标与方法**
本研究基于一个将设计师隐性访谈策略系统化的用户访谈框架,提出了一种大语言模型驱动的对话方法,该框架用于控制在超简短语音访谈中的追问。其目标是通过一个可重复的追问机制,结合问卷的便利性和访谈的经验深度。具体而言,研究人员调查了在用户体验后立即进行的、基于大语言模型的超简短(四个问题)语音访谈——在这种情境下,用户时间有限,传统的聊天机器人调查可能不切实际。为验证所提出的方法(一个以该框架为输入的语音对话系统),研究人员提出了两个研究问题:与传统的开放式问卷相比,基于大语言模型的对话方法能否收集更长的回答和更多样化的内容?在使用大语言模型进行语音问卷时,应用与不应用所提出的框架在对话中会产生哪些差异?
为开展研究,研究人员在一个大型、拥挤的公共展览场馆进行了现场实验,参与者是刚使用完一个运动支持系统(Exercise-Support System, ESS)的访客。研究共招募了359名年龄在7至90岁之间的参与者。研究人员开发了一个iOS平板应用,使用相同的用户界面(UI)进行语音访谈,包括语音转文本(STT, Speech-to-Text)转录、大语言模型(使用Gemini-2.5-Flash-Lite-Preview-09-2025模型)处理以及文本转语音(TTS, Text-to-Speech)合成。实验设计了三种条件:(A)框架引导的大语言模型,应用三步控制序列(特征检测、方向选择和问题生成);(B)简单大语言模型,使用共享角色提示自由生成问题;(C)固定问题,基于现有文献预定义。参与者被近乎平均地分配到三种条件中。数据分析包括对参与者回答长度的量化分析(使用克鲁斯卡尔-沃利斯检验和邓恩事后比较),以及对所有对话日志的定性内容分析(使用演绎编码,基于从框架中衍生的预定义码本,比较不同条件下问题方向和回答特征的分布,并使用卡方检验和克莱姆V值分析差异)。
**研究结果**
**5.1 收集数据概览**
在回答长度方面,框架引导的大语言模型(条件A)和简单大语言模型(条件B)引发的回答中位数长度(分别为112和110.5个字符)均高于固定问题(条件C)的中位数长度(84个字符)。统计检验显示条件A的回答长度显著大于条件C,而条件B与条件C之间、条件A与条件B之间均无显著差异。这表明,仅仅引入大语言模型并不能保证收集到更多数据,对话控制策略至关重要。
**5.2 问题与回答的分布**
对问题方向的编码分析显示,条件A(框架引导)产生的问题主要集中在“细节:个体经历”(56.4%)、“情绪/感觉”和“时机”上。而条件B(简单大语言模型)则产生了更多的“想法/理想情况”(37.1%)和“横向追问”。两者的问题方向分布存在显著差异,且效应量大。
对参与者回答特征的编码分析显示,三种条件引发的回答特征分布存在显著差异。条件B引发了更多的“想法/理想情况”;条件A引发了更多的“负面情绪/担忧”和“行为/认知变化”;条件C则引发了更多的“正面情绪”和“拒绝回答”,同时产生的“想法/理想情况”和“好恶/偏好”较少。
在内容多样性方面(基于香农熵及其有效类别数计算),非拒绝回答的多样性排序为条件A > 条件B > 条件C。
**5.3 定性结果:深度与具体性的增长**
在条件A中,研究人员观察到追问链能够将最初模糊的用户陈述逐步深化为具体、可操作的描述。例如,一个模糊的情绪“很有趣”通过追问被具体化为一个特定的、可操作的行为。
在条件B中,类似的初始回答常常被引导至面向未来的理想或功能建议,而非深化对体验本身的探讨,对话转向了个体推测而非对体验情绪的深入探究。
在条件C中,由于缺乏适应性追问,回答往往是简单的、单次交换的回应,常常是模糊的,具体化有限,并且观察到许多拒绝回答的情况。
**5.4 定性结果:拒绝后的恢复**
在条件A中,当参与者出现拒绝回答时,系统通常会重新连接到先前提出的回答特征以恢复对话。
在条件B中,面对拒绝时,系统倾向于“跳转”到一个不相关的话题(通常是关于“想法/理想情况”的通用问题),导致调查深度变浅。
在条件C中,由于缺乏适应性追问,拒绝回答出现后,系统只能继续下一个预定义问题。
**讨论与结论**
**讨论**
关于引入大语言模型的效果(研究问题一),研究发现框架引导的大语言模型(条件A)比固定问题(条件C)产生了显著更多的回答量,而简单大语言模型(条件B)则没有。这表明,对话控制对于获取更多数据至关重要。条件A的系统化策略支持了对模糊陈述的具体化,并能够从拒绝中恢复,鼓励了参与者的持续投入。在内容多样性上,引入大语言模型(条件A和B)似乎抵消了向简短正面评价倾斜的趋势,从而拓宽了引发内容的类别范围。
关于应用用户访谈框架的价值(研究问题二),虽然条件A和B的回答量相似,但编码分布揭示了清晰的质性差异。条件A支持对“开放语境”——即用户体验的具体过程——进行推断。它生成了面向过程的追问,逐步将模糊陈述阐述为可操作的行为,这对于设计研究中重建用户体验非常重要。相反,条件B倾向于“想法/理想情况”和“横向追问”,这可能导致“封闭语境”,其假设性问题往往征求现场意见,使得回答更可能是访谈情境的产物,而非潜在需求的反映,因此作为设计推断的基础较弱。条件A更一致地引出了关于发生了什么、何时以及为何的、特定情境的、基于事件的描述,产生了比假设性理想更适合早期需求推理的约束和与失败相关的细节。作为一个指标,条件A比条件B更频繁地引出“负面情绪/担忧”,这些信号可以重塑视角并刺激创新。这种区别对于初步工程设计至关重要。捕获像失效模式这样的基于经验的知识可以最小化返工成本。与方法B的推测性构思不同,方法A为需求定义提供了更 grounded 的证据,有助于工程设计者降低开发风险。
研究存在一些局限性,包括未与从业者验证数据的效用、参与者年龄范围广、现场实验的外部因素(如噪音)可能影响互动,以及未系统评估可访问性。
**结论**
研究人员评估了在公共场馆进行的超简短语音访谈,比较了框架引导的大语言模型追问、简单大语言模型和固定问题。简单大语言模型并未增加回答量,而框架引导的条件则比固定问题引发了显著更多的谈话。它还将追问从假设性内容转向了具体的亲身经历,并引出了负面反馈。尽管承认公共现场环境的具体限制,但这些结果表明,一个捕捉设计师隐性追问逻辑的对话控制框架可以使大语言模型介导的访谈变得有效且可扩展。这些发现暗示了一种分工的可能性,即系统处理轻量级的、当下的追问以确保一定基线水平的质性细节,使研究人员能够专注于更高层次的工作,如意义建构、创造性构思和迭代系统改进。