评估大语言模型(LLMs)在可解释的深度强化学习(explainable deep reinforcement learning)中的有效性

《Machine Learning with Applications》:Evaluating the effectiveness of LLMs for explainable deep reinforcement learning

【字体: 时间:2025年11月17日 来源:Machine Learning with Applications 4.9

编辑推荐:

  本文评估了CoT、MCTS增强和SFT三种方法在生成强化学习解释中的效果,发现MCTS显著提升大模型在复杂环境(如Lunar Lander)的解释质量,而SFT对中小模型更有效。通过LLMs作为评判者,验证了自动化评估框架与人工评估高度一致(Cohen's κ=0.77,Spearman ρ=0.88)。研究揭示了模型规模与环境复杂度的匹配策略,提出解释质量需兼顾逻辑一致性(Soundness)与特征对齐度(Fidelity)的双重评估标准。

  理解强化学习(RL)代理的决策过程对于其在现实世界中的应用至关重要。现有的可解释强化学习(XRL)技术,如特征归因和策略可视化,虽然提供了某些见解,但对非专家用户来说往往难以理解。大语言模型(LLMs)提供了一种自然语言的解释方式,但通常缺乏逻辑一致性和与代理目标的一致性。本研究评估了三种解释生成方法:链式推理(CoT)作为之前研究中使用的标准基线,蒙特卡洛树搜索(MCTS)增强,以及监督微调(SFT)。使用Soundness和Fidelity指标进行评估显示,CoT经常产生推理错误,而MCTS对于较大模型显著提高了解释质量(平均提升23% Soundness,17% Fidelity),而SFT则为较小模型带来了更显著且更一致的改进(平均提升58% Soundness,52% Fidelity),这强调了将方法与模型容量对齐的重要性。一个“LLM作为评委”的框架进一步验证了这些发现,显示了与人类评估的强烈一致性(加权Cohen’s κ=0.77,Spearman ρ=0.88),支持了对文本解释进行可扩展和可靠评估的可行性。

随着深度强化学习(DRL)在多个领域取得显著进展,其在数据驱动决策中的作用愈发重要。然而,DRL系统常常被视为“黑箱”,使得从业者和非专家对决策过程充满不确定性。可解释强化学习(XRL)旨在通过阐明代理的行为、策略和目标来弥合这一差距。尽管现有的技术如特征重要性归因和策略可视化对AI专家有帮助,但它们往往需要进一步简化才能达到更广泛的受众。大语言模型(LLMs)提供了一种有前景的方法,能够生成易于理解的自然语言解释,但将LLMs用于解释RL代理带来了独特挑战:解释必须准确反映代理的实际行为和决策因素,避免误导性解读,并通过清晰地将行动与代理目标联系起来,保持与环境动态的一致性。

在本文中,我们引入了新的方法,即使用特征归因向量直接从DRL代理的策略中提取,从而提供忠实且细致的见解。解释质量通过手动验证和“LLM作为评委”的框架进行评估,后者使用定量方法,显示了与手动注释的强一致性。这些结果支持了在XRL中实现自动化解释评估的可扩展路径。

本文的贡献包括:对DRL代理的LLM生成解释策略进行了全面评估,比较了CoT、MCTS和SFT三种方法在多个模型和环境中表现;引入了一个结合定性和定量评估框架,通过Soundness和Fidelity两个互补指标衡量解释质量,由专家和自动化的“LLM作为评委”验证;对基于LLM的评估可靠性进行了定性和定量分析,识别了系统性偏差和错误模式,并提出了提高XRL中解释质量评估的更稳健、可扩展路径。

在相关工作中,XRL的方法被分为四类:模型解释、奖励解释、状态解释和任务解释。模型解释方法通过揭示或重构RL代理的内部逻辑来提高其行为的可解释性,而奖励解释方法则通过分解奖励函数来明确其对代理行为的影响。状态解释方法通过后处理解释来澄清特定环境状态对代理行为的影响,而任务解释方法则通过分解任务来提供多级可解释性。

LLMs在生成自然语言解释方面展现出潜力,但存在挑战,特别是避免幻觉和确保模型解释的忠实性。一些研究利用LLMs作为自动评委来评估自然语言生成(NLG)输出,如摘要、对话和问答响应。通过使用“LLM作为评委”的框架,我们可以减少对昂贵的人类注释的依赖,同时保持解释的一致性。

在实验结果部分,我们发现CoT方法在两个不同复杂度的环境中(Cartpole和Lunar Lander)都产生了较低的解释质量,特别是在Lunar Lander中。MCTS方法在较大模型上显著提高了解释质量,而SFT方法则对较小模型带来了更大的提升。通过分析MCTS组件(如评估者和批评者)的影响,我们发现评估者在提升解释质量方面起着关键作用。然而,对于较小模型,SFT方法由于依赖高质量的训练数据,其效果有限。

在“LLM作为评委”的评估中,我们发现LLMs在识别正确的解释(评分2)方面表现可靠,但在识别不正确的解释(评分0)时存在过高的置信度,这表明在处理边缘情况时仍需进一步改进。通过对评分1的解释进行分析,我们发现LLMs容易受到措辞差异和流畅性偏见的影响,即使部分解释是正确的,也可能因为整体流畅性而被误判为完全正确。

本文的研究结果表明,解释策略必须与模型容量和部署环境相匹配。大型模型与MCTS结合可以产生高质量的解释,但其计算成本较高;而小型模型与SFT结合则提供了一种高效且成本效益高的方法,但依赖于高质量的训练数据。这些方法可以被视为互补策略:MCTS最大化解释质量,但计算成本高;SFT则强调效率,但依赖于数据的可用性。

此外,我们发现LLMs在评估解释时,如果评估者和生成者属于同一模型家族,能够减少措辞误解,提高评估的一致性。这表明未来的研究可以采用加权或优先投票方案,以考虑模型之间的语言一致性。结合这些技术与改进的评分标准和评估指标,可以使得基于LLM的评估更加透明、一致,并与人类判断相一致,从而缩小当前XRL中的解释评估差距。

本文的局限性包括评估环境的范围有限,仅限于两个相对简单的环境(Cartpole和Lunar Lander);未进行广泛的超参数调优,这可能会影响结果;SFT结果依赖于相对较小的数据集,限制了其在分布外状态中的可扩展性和泛化能力;以及在模糊或部分正确的情况下,人类评估者和LLM评委在评估一致性方面存在困难,这可能引入评分过程中的噪声。

未来的工作可以扩展到更丰富的环境,如基于视觉的或多代理环境,以发现新的推理挑战并进一步测试提出的方法。此外,可以探索将策略摘要与LLMs结合,从而解释整个代理策略,而不仅仅是单个状态。在评估方面,可以开发更先进的提示和评估技术,如多步自适应提示,以提高评估的稳健性。检查表式评估框架可以将评估提示分解为结构化的多标准检查,引导评委更系统地评估因果正确性、完整性和忠实性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号