通过逆强化学习提高文本的可读性
《ACM Transactions on Autonomous and Adaptive Systems》:Automate Legibility through Inverse Reinforcement Learning
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Autonomous and Adaptive Systems
编辑推荐:
智能体在随机环境中优化决策时,常因追求最大预期奖励导致行为不可解释。本文提出通过逆强化学习技术同时自动生成奖励函数与可读性函数,解决传统主观赋值方法的主观性和复杂性。实验验证了该方法在多领域决策问题中的有效性。
摘要
当智能代理在随机环境中行动时,会使用最大化预期奖励的原则来优化它们的策略。在大多数情况下,当解决代理的决策问题时,“最大奖励”这一目标成为唯一的标准。这有时会导致代理的行为(即解决决策问题的最优策略)变得难以理解。换句话说,当代理执行最优策略时,用户(或其他代理甚至人类)很难理解它们的意图。因此,考虑代理决策问题的可读性变得非常重要。关键挑战在于如何在问题中制定一个合适的可读性函数。依赖领域专家的输入在指定可读性值时往往具有主观性和不一致性,而在复杂的问题领域中,手动方法很快就会变得不可行。在本文中,我们的目标是在开发传统奖励函数的同时学习这样一个可读性函数。我们采用逆强化学习技术来自动化代理决策问题中的可读性函数。首先,我们展示了当决策问题中仅考虑可读性时,逆强化学习技术的有效性。当需要同时找到奖励函数和可读性函数时,问题就变得复杂了。我们开发了一种多目标逆强化学习方法,以同时自动化这两个函数,并在性能研究中通过实证结果加以验证。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号