UISA:用于商品推荐策略的用户信息分离架构与深度强化学习
《ACM Transactions on Recommender Systems》:UISA: User Information Separating Architecture for Commodity Recommendation Policy with Deep Reinforcement Learning
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Recommender Systems
编辑推荐:
商品推荐中,深度强化学习(DRL)可提升系统性能,但直接使用原始特征存在低效问题,且序列决策复杂度高。本文提出用户信息分离架构(UISA),通过离散处理静态和动态用户信息,结合PPO和DDPG算法优化长期收益。实验表明,在JDEnv和Virtual Taobao环境中,UISA使奖励和点击率提升5%-40%,验证了其有效性。
摘要
商品推荐在人们的日常生活中扮演着重要角色。在这一背景下,深度强化学习方法在提升推荐系统性能方面展现了显著的效果。然而,一些推荐系统直接使用原始特征信息作为决策的基础,这种方法显得过于简单且效率低下。此外,引入序列决策机制进一步增加了推荐任务的复杂性。
为了最大化推荐系统的长期序列回报,我们提出了一种名为“用户信息分离架构”(User Information Separating Architecture,简称UISA)的新架构。该架构专为与经典强化学习算法兼容而设计,旨在通过离散处理静态和动态用户信息来提取用户的兴趣值。通过与深度强化学习的结合,该架构旨在实现长期利润的最大化,并适用于序列推荐场景。我们通过将所提出的架构与近端策略优化(Proximal Policy Optimization,简称PPO)和深度确定性策略梯度(Deep Deterministic Policy Gradient,简称DDPG)算法相结合进行了实验评估。实验结果表明,在自构建的JDEnv环境和虚拟淘宝环境中,商品推荐效果有了显著提升,奖励指标和点击率指标分别提高了约5%到40%。通过对比实验,UISA模型展现了可比的性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号