UISA：用于商品推荐策略的用户信息分离架构与深度强化学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Recommender Systems》：UISA: User Information Separating Architecture for Commodity Recommendation Policy with Deep Reinforcement Learning

【字体：大中小】 时间：2025年11月07日 来源：ACM Transactions on Recommender Systems

编辑推荐：

　　商品推荐中，深度强化学习（DRL）可提升系统性能，但直接使用原始特征存在低效问题，且序列决策复杂度高。本文提出用户信息分离架构（UISA），通过离散处理静态和动态用户信息，结合PPO和DDPG算法优化长期收益。实验表明，在JDEnv和Virtual Taobao环境中，UISA使奖励和点击率提升5%-40%，验证了其有效性。

摘要

商品推荐在人们的日常生活中扮演着重要角色。在这一背景下，深度强化学习方法在提升推荐系统性能方面展现了显著的效果。然而，一些推荐系统直接使用原始特征信息作为决策的基础，这种方法显得过于简单且效率低下。此外，引入序列决策机制进一步增加了推荐任务的复杂性。

为了最大化推荐系统的长期序列回报，我们提出了一种名为“用户信息分离架构”（User Information Separating Architecture，简称UISA）的新架构。该架构专为与经典强化学习算法兼容而设计，旨在通过离散处理静态和动态用户信息来提取用户的兴趣值。通过与深度强化学习的结合，该架构旨在实现长期利润的最大化，并适用于序列推荐场景。我们通过将所提出的架构与近端策略优化（Proximal Policy Optimization，简称PPO）和深度确定性策略梯度（Deep Deterministic Policy Gradient，简称DDPG）算法相结合进行了实验评估。实验结果表明，在自构建的JDEnv环境和虚拟淘宝环境中，商品推荐效果有了显著提升，奖励指标和点击率指标分别提高了约5%到40%。通过对比实验，UISA模型展现了可比的性能。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号