通过行为模型增强的大型语言模型代理对虚拟个人助理(VPA)应用程序进行视觉用户界面(VUI)测试
《ACM Transactions on Software Engineering and Methodology》:VUI Testing of VPA Apps via Behavior Model-Enhanced LLM Agents
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Software Engineering and Methodology
编辑推荐:
针对智能语音助手测试中存在的无效用例生成和低覆盖率问题,提出Elevate框架。该框架采用多智能体架构(观察者、生成器、规划者),结合LLM驱动和DFA行为模型,实现高效状态探索与用例生成,在4000项Alexa技能测试中覆盖率提升15%,问题检测量较传统方法增加18-37个。
摘要
随着智能音箱的日益普及,虚拟个人助手(VPA)应用程序已成为日常生活中不可或缺的一部分,用户可以通过语音用户界面(VUI)获取新闻、娱乐内容并控制智能设备。然而,许多VPA应用程序存在质量问题,例如突然终止或无法处理常见的用户指令,这凸显了进行系统化且高效VUI测试的迫切需求。现有的聊天机器人风格和基于模型的测试方法缺乏全局性和语义理解能力,导致测试用例生成效果不佳,状态探索效率低下。
为了解决这些问题,我们提出了Elevate,这是一个基于大型语言模型(LLM)的VPA测试框架,该框架采用了多智能体架构来提升VUI行为测试的效果。Elevate包含三个专门的LLM智能体——观察者(Observer)、生成器(Generator)和规划器(Planner),它们协同完成状态提取、测试用例生成和引导式状态探索任务。此外,还设计了一个基于确定性有限自动机(DFA)的行为模型,用于抽象应用程序行为并为LLM智能体提供结构化的指导,从而提升测试性能。Elevate还融入了反馈机制,根据观察到的行为调整测试策略,确保测试效果的持续改进。
Elevate使用GPT-4-Turbo和DeepSeek-R1实现,并在问题检测、句子/语义覆盖范围以及大规模测试方面进行了评估。实验结果表明,Elevate的表现优于现有最先进的方法(Vitas和基于LLM的聊天机器人):分别多检测到至少18个和37个问题,状态覆盖范围提高了10%以上和30%以上。在对4000个Alexa技能进行的大规模评估中,Elevate的覆盖范围比Vitas高出15%,进一步证明了其有效性、可扩展性以及在VUI测试中的广泛应用潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号