一种基于奖励信息的半个性化强盗算法，用于提升在线推荐系统的准确性和意外发现效果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Recommender Systems》：A Reward-Informed Semi-Personalized Bandit Approach for Enhancing Accuracy and Serendipity in Online Slate Recommendations

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Recommender Systems

编辑推荐：

　　上下文强化学习通过决策树分割用户群体并采用个性化Thompson Sampling策略，平衡预测精度与意外性推荐，解决过滤气泡问题。

摘要

“上下文盗贼”（Contextual Bandits）为在线推荐系统中的个性化提供了基于原则的框架。然而，由于这些方法会根据个别用户的需求定制推荐列表，它们容易导致过度专业化，从而产生内容单一的推荐结果，限制用户接触到多样化的内容，并加剧诸如“信息茧房”和“回音室效应”等系统性问题。为缓解这些影响，推荐系统必须在预测准确性之外融入偶然性，提供新颖且出人意料的推荐内容，同时确保其与用户背景相关。

本研究提出了一种半个性化推荐算法：对于每个推荐项目，该算法会学习一棵决策树，根据用户的上下文特征和行为模式对用户进行分类，并为每个用户群体运行独特的汤普森采样（Thompson Sampling）策略来生成推荐列表。通过汇总行为相似的用户信息并在用户群体层面进行探索，该框架能够避免过度专业化问题，促进偶然性的推荐结果。此外，这种算法具有高度的可解释性，决策树揭示了用户分组的逻辑路径，有助于理解推荐系统的运作机制。

在三个不同在线领域的实验表明，与个性化推荐方法相比，半个性化推荐框架在降低平均用户遗憾感的同时，提升了在用户互动较少的场景下的偶然性体验。这些发现凸显了半个性化推荐算法在复杂环境中的潜力，有助于提升推荐质量。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号