基于图表示学习的任务导向对话系统奖励稀疏性优化方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月25日 来源：Neurocomputing 5.5

编辑推荐：

　　推荐：针对强化学习(RL)任务导向对话(TOD)系统中奖励稀疏导致的低效探索问题，研究人员创新性地提出结合图注意力网络(GAT)与最小割池化(MinCutPool)的基于势能的奖励塑形(PBRS)方法。该方法通过图表示学习捕捉对话状态间结构语义关系，实现奖励信号的有效传播，在电影票预订等任务中取得93%成功率，显著提升策略学习效率。

在人工智能交互领域，任务导向对话系统(Task-Oriented Dialogue, TOD)正面临"奖励稀疏"这一关键瓶颈。当用户通过自然语言与系统交互预订机票或查询天气时，传统强化学习(RL)框架仅在对话结束时提供成功/失败的二元奖励，犹如让盲人摸象——智能体要在浩瀚的状态动作空间中盲目探索，往往需要数万次试错才能找到有效策略。这种低效学习不仅导致计算资源浪费，更可能使系统陷入局部最优，产生不可靠的响应。尽管现有研究尝试通过人工设计密集奖励或模仿学习来缓解问题，但要么依赖昂贵的专家知识，要么面临算法扩展性不足的困境。

Semnan大学（伊朗塞姆南）人工智能系的Shaghayegh Saffari团队在《Neurocomputing》发表的研究中，创新性地将图论与深度学习相结合。研究人员受人类"触类旁通"学习机制的启发，开发了融合图注意力网络(Graph Attention Network, GAT)和最小割池化(MinCutPool)的奖励塑形框架。该方案通过构建对话状态的关系图谱，使系统能像社交网络传播信息那样，将稀疏的终端奖励反向传播至中间状态，同时利用自适应聚类处理动态对话中常见的孤立状态。在亚马逊众包平台收集的三个基准测试中，该方法在电影票预订任务达到93%的成功率，训练效率提升近40%。

关键技术包括：1) 基于马尔可夫决策过程(MDP)建模对话状态转移；2) 采用GAT算法学习状态节点的结构嵌入；3) 引入MinCutPool进行谱聚类实现状态空间压缩；4) 设计基于势能的奖励塑形(Potential-Based Reward Shaping, PBRS)函数；5) 使用稀疏矩阵优化计算效率。实验对比了GraphSAGE等5种图算法，数据来自Amazon Mechanical Turk构建的对话数据集。

【RL for TOD system】
研究将对话过程形式化为MDP，通过 $五元组建模状态转移。关键创新在于将传统RL的标量奖励扩展为基于图结构的向量化奖励信号，使状态价值评估兼顾局部邻域信息。$

【Addressing reward sparsity】
相比需要人工标注的模仿学习方法，提出的GAT+MinCut+CSR模型通过无监督聚类自动发现状态关联模式。MinCutPool的软分配策略可处理15.7%的孤立状态，较硬聚类提升23%的泛化能力。

【Method】
架构包含三层：图构建层采样初始对话轨迹，特征聚合层通过消息传递机制更新节点嵌入，奖励塑形层计算势能差生成密集奖励。其中MinCutPool的聚类数k通过肘部法则自适应确定。

【Experimental results】
在GPU内存仅7GB限制下，模型在200轮内收敛，较基线DQN提速3.2倍。消融实验显示GAT的注意力机制使关键状态识别准确率提升28%，而CSR稀疏存储减少内存占用41%。

【Conclusion】
该研究开创性地将图表示学习引入对话系统奖励设计，其核心价值在于：1) 提出可解释的奖励传播机制，通过可视化注意力权重揭示决策依据；2) 开发的MinCutPool适配器可迁移至医疗咨询等动态领域；3) 为多智能体对话协作中的信用分配问题提供新思路。后续工作将探索基于异构图的多模态状态表示，进一步缓解目标重置导致的语义漂移问题。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号