UISA:用于商品推荐策略的用户信息分离架构与深度强化学习

《ACM Transactions on Recommender Systems》:UISA: User Information Separating Architecture for Commodity Recommendation Policy with Deep Reinforcement Learning

【字体: 时间:2025年11月07日 来源:ACM Transactions on Recommender Systems

编辑推荐:

  商品推荐中,深度强化学习(DRL)可提升系统性能,但直接使用原始特征存在低效问题,且序列决策复杂度高。本文提出用户信息分离架构(UISA),通过离散处理静态和动态用户信息,结合PPO和DDPG算法优化长期收益。实验表明,在JDEnv和Virtual Taobao环境中,UISA使奖励和点击率提升5%-40%,验证了其有效性。

  

摘要

商品推荐在人们的日常生活中扮演着重要角色。在这一背景下,深度强化学习方法在提升推荐系统性能方面展现了显著的效果。然而,一些推荐系统直接使用原始特征信息作为决策的基础,这种方法显得过于简单且效率低下。此外,引入序列决策机制进一步增加了推荐任务的复杂性。
为了最大化推荐系统的长期序列回报,我们提出了一种名为“用户信息分离架构”(User Information Separating Architecture,简称UISA)的新架构。该架构专为与经典强化学习算法兼容而设计,旨在通过离散处理静态和动态用户信息来提取用户的兴趣值。通过与深度强化学习的结合,该架构旨在实现长期利润的最大化,并适用于序列推荐场景。我们通过将所提出的架构与近端策略优化(Proximal Policy Optimization,简称PPO)和深度确定性策略梯度(Deep Deterministic Policy Gradient,简称DDPG)算法相结合进行了实验评估。实验结果表明,在自构建的JDEnv环境和虚拟淘宝环境中,商品推荐效果有了显著提升,奖励指标和点击率指标分别提高了约5%到40%。通过对比实验,UISA模型展现了可比的性能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号