一种基于奖励信息的半个性化强盗算法,用于提升在线推荐系统的准确性和意外发现效果

《ACM Transactions on Recommender Systems》:A Reward-Informed Semi-Personalized Bandit Approach for Enhancing Accuracy and Serendipity in Online Slate Recommendations

【字体: 时间:2025年11月08日 来源:ACM Transactions on Recommender Systems

编辑推荐:

  上下文强化学习通过决策树分割用户群体并采用个性化Thompson Sampling策略,平衡预测精度与意外性推荐,解决过滤气泡问题。

  

摘要

“上下文盗贼”(Contextual Bandits)为在线推荐系统中的个性化提供了基于原则的框架。然而,由于这些方法会根据个别用户的需求定制推荐列表,它们容易导致过度专业化,从而产生内容单一的推荐结果,限制用户接触到多样化的内容,并加剧诸如“信息茧房”和“回音室效应”等系统性问题。为缓解这些影响,推荐系统必须在预测准确性之外融入偶然性,提供新颖且出人意料的推荐内容,同时确保其与用户背景相关。
本研究提出了一种半个性化推荐算法:对于每个推荐项目,该算法会学习一棵决策树,根据用户的上下文特征和行为模式对用户进行分类,并为每个用户群体运行独特的汤普森采样(Thompson Sampling)策略来生成推荐列表。通过汇总行为相似的用户信息并在用户群体层面进行探索,该框架能够避免过度专业化问题,促进偶然性的推荐结果。此外,这种算法具有高度的可解释性,决策树揭示了用户分组的逻辑路径,有助于理解推荐系统的运作机制。
在三个不同在线领域的实验表明,与个性化推荐方法相比,半个性化推荐框架在降低平均用户遗憾感的同时,提升了在用户互动较少的场景下的偶然性体验。这些发现凸显了半个性化推荐算法在复杂环境中的潜力,有助于提升推荐质量。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号