关于评估大型语言模型(LLM)在机器人架构中的集成
《ACM Transactions on Intelligent Systems and Technology》:On Evaluating LLM Integration into Robotic Architectures
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Intelligent Systems and Technology
编辑推荐:
LLMs在机器人系统中的集成面临语法、语义及语用层面研究不足的问题,本文提出多维度评估指标与数据增强技术,比较LLMs作为预处理组件与解析器替代两种模式,实验表明后者语言理解更优但可解释性较弱,为系统化评估LLMs在机器人自然交互中的应用提供方法论。
摘要
大型语言模型(LLMs)正越来越多地被集成到具身机器人系统中。LLMs为机器人带来的一个有用功能是将人类自然语言指令转化为可执行的机器人动作。然而,这些集成方式在很大程度上是临时性的,且相关研究较少,因为它们往往没有考虑到人类交流中的句法、语义以及语用等多个方面。目前缺乏的是对将LLMs集成到机器人架构中的不同方法的系统描述,以及一套能够评估配备LLM的机器人是否能够正确理解这些人类指令各个方面的评估指标。在本文中,我们提出了一套评估指标和数据增强技术,这些技术和指标借鉴了认知科学和人类交流领域的理论,用于评估这些集成方案。为了说明这些指标和增强技术的应用效果,我们进行了实验,比较了两种集成方法:一种是将LLMs作为预处理组件,将人类指令转换为更结构化的形式,供系统的自然语言理解(NLU)子系统处理;另一种是将LLMs完全替代NLU的解析器。通过实验评估和机器人实现,我们展示了这两种方法之间的权衡。结果表明,虽然传统的解析工具与LLMs结合使用可以提高系统的可解释性,但其性能仍不如完全用LLM替代解析器的情况。所提出的评估指标以及对不同LLM集成方法的系统描述,为系统地评估LLMs作为机器人系统的自然语言接口提供了可能性,同时也解决了在开放环境下的具身系统中,可解释性/可验证性/可解释性与对噪声输入的鲁棒性以及广泛语言理解能力之间的重要权衡问题。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号