
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图表示学习的任务导向对话系统奖励稀疏性优化方法
【字体: 大 中 小 】 时间:2025年07月25日 来源:Neurocomputing 5.5
编辑推荐:
推荐:针对强化学习(RL)任务导向对话(TOD)系统中奖励稀疏导致的低效探索问题,研究人员创新性地提出结合图注意力网络(GAT)与最小割池化(MinCutPool)的基于势能的奖励塑形(PBRS)方法。该方法通过图表示学习捕捉对话状态间结构语义关系,实现奖励信号的有效传播,在电影票预订等任务中取得93%成功率,显著提升策略学习效率。
在人工智能交互领域,任务导向对话系统(Task-Oriented Dialogue, TOD)正面临"奖励稀疏"这一关键瓶颈。当用户通过自然语言与系统交互预订机票或查询天气时,传统强化学习(RL)框架仅在对话结束时提供成功/失败的二元奖励,犹如让盲人摸象——智能体要在浩瀚的状态动作空间中盲目探索,往往需要数万次试错才能找到有效策略。这种低效学习不仅导致计算资源浪费,更可能使系统陷入局部最优,产生不可靠的响应。尽管现有研究尝试通过人工设计密集奖励或模仿学习来缓解问题,但要么依赖昂贵的专家知识,要么面临算法扩展性不足的困境。
Semnan大学(伊朗塞姆南)人工智能系的Shaghayegh Saffari团队在《Neurocomputing》发表的研究中,创新性地将图论与深度学习相结合。研究人员受人类"触类旁通"学习机制的启发,开发了融合图注意力网络(Graph Attention Network, GAT)和最小割池化(MinCutPool)的奖励塑形框架。该方案通过构建对话状态的关系图谱,使系统能像社交网络传播信息那样,将稀疏的终端奖励反向传播至中间状态,同时利用自适应聚类处理动态对话中常见的孤立状态。在亚马逊众包平台收集的三个基准测试中,该方法在电影票预订任务达到93%的成功率,训练效率提升近40%。
关键技术包括:1) 基于马尔可夫决策过程(MDP)建模对话状态转移;2) 采用GAT算法学习状态节点的结构嵌入;3) 引入MinCutPool进行谱聚类实现状态空间压缩;4) 设计基于势能的奖励塑形(Potential-Based Reward Shaping, PBRS)函数;5) 使用稀疏矩阵优化计算效率。实验对比了GraphSAGE等5种图算法,数据来自Amazon Mechanical Turk构建的对话数据集。
【RL for TOD system】
研究将对话过程形式化为MDP,通过
【Addressing reward sparsity】
相比需要人工标注的模仿学习方法,提出的GAT+MinCut+CSR模型通过无监督聚类自动发现状态关联模式。MinCutPool的软分配策略可处理15.7%的孤立状态,较硬聚类提升23%的泛化能力。
【Method】
架构包含三层:图构建层采样初始对话轨迹,特征聚合层通过消息传递机制更新节点嵌入,奖励塑形层计算势能差生成密集奖励。其中MinCutPool的聚类数k通过肘部法则自适应确定。
【Experimental results】
在GPU内存仅7GB限制下,模型在200轮内收敛,较基线DQN提速3.2倍。消融实验显示GAT的注意力机制使关键状态识别准确率提升28%,而CSR稀疏存储减少内存占用41%。
【Conclusion】
该研究开创性地将图表示学习引入对话系统奖励设计,其核心价值在于:1) 提出可解释的奖励传播机制,通过可视化注意力权重揭示决策依据;2) 开发的MinCutPool适配器可迁移至医疗咨询等动态领域;3) 为多智能体对话协作中的信用分配问题提供新思路。后续工作将探索基于异构图的多模态状态表示,进一步缓解目标重置导致的语义漂移问题。
生物通微信公众号
知名企业招聘