基于图表示学习的任务导向对话系统奖励稀疏性优化方法

【字体: 时间:2025年07月25日 来源:Neurocomputing 5.5

编辑推荐:

  推荐:针对强化学习(RL)任务导向对话(TOD)系统中奖励稀疏导致的低效探索问题,研究人员创新性地提出结合图注意力网络(GAT)与最小割池化(MinCutPool)的基于势能的奖励塑形(PBRS)方法。该方法通过图表示学习捕捉对话状态间结构语义关系,实现奖励信号的有效传播,在电影票预订等任务中取得93%成功率,显著提升策略学习效率。

  

在人工智能交互领域,任务导向对话系统(Task-Oriented Dialogue, TOD)正面临"奖励稀疏"这一关键瓶颈。当用户通过自然语言与系统交互预订机票或查询天气时,传统强化学习(RL)框架仅在对话结束时提供成功/失败的二元奖励,犹如让盲人摸象——智能体要在浩瀚的状态动作空间中盲目探索,往往需要数万次试错才能找到有效策略。这种低效学习不仅导致计算资源浪费,更可能使系统陷入局部最优,产生不可靠的响应。尽管现有研究尝试通过人工设计密集奖励或模仿学习来缓解问题,但要么依赖昂贵的专家知识,要么面临算法扩展性不足的困境。

Semnan大学(伊朗塞姆南)人工智能系的Shaghayegh Saffari团队在《Neurocomputing》发表的研究中,创新性地将图论与深度学习相结合。研究人员受人类"触类旁通"学习机制的启发,开发了融合图注意力网络(Graph Attention Network, GAT)和最小割池化(MinCutPool)的奖励塑形框架。该方案通过构建对话状态的关系图谱,使系统能像社交网络传播信息那样,将稀疏的终端奖励反向传播至中间状态,同时利用自适应聚类处理动态对话中常见的孤立状态。在亚马逊众包平台收集的三个基准测试中,该方法在电影票预订任务达到93%的成功率,训练效率提升近40%。

关键技术包括:1) 基于马尔可夫决策过程(MDP)建模对话状态转移;2) 采用GAT算法学习状态节点的结构嵌入;3) 引入MinCutPool进行谱聚类实现状态空间压缩;4) 设计基于势能的奖励塑形(Potential-Based Reward Shaping, PBRS)函数;5) 使用稀疏矩阵优化计算效率。实验对比了GraphSAGE等5种图算法,数据来自Amazon Mechanical Turk构建的对话数据集。

【RL for TOD system】
研究将对话过程形式化为MDP,通过五元组建模状态转移。关键创新在于将传统RL的标量奖励扩展为基于图结构的向量化奖励信号,使状态价值评估兼顾局部邻域信息。

【Addressing reward sparsity】
相比需要人工标注的模仿学习方法,提出的GAT+MinCut+CSR模型通过无监督聚类自动发现状态关联模式。MinCutPool的软分配策略可处理15.7%的孤立状态,较硬聚类提升23%的泛化能力。

【Method】
架构包含三层:图构建层采样初始对话轨迹,特征聚合层通过消息传递机制更新节点嵌入,奖励塑形层计算势能差生成密集奖励。其中MinCutPool的聚类数k通过肘部法则自适应确定。

【Experimental results】
在GPU内存仅7GB限制下,模型在200轮内收敛,较基线DQN提速3.2倍。消融实验显示GAT的注意力机制使关键状态识别准确率提升28%,而CSR稀疏存储减少内存占用41%。

【Conclusion】
该研究开创性地将图表示学习引入对话系统奖励设计,其核心价值在于:1) 提出可解释的奖励传播机制,通过可视化注意力权重揭示决策依据;2) 开发的MinCutPool适配器可迁移至医疗咨询等动态领域;3) 为多智能体对话协作中的信用分配问题提供新思路。后续工作将探索基于异构图的多模态状态表示,进一步缓解目标重置导致的语义漂移问题。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号