一种基于奖励信息的半个性化强盗算法,用于提升在线推荐系统的准确性和意外发现效果
《ACM Transactions on Recommender Systems》:A Reward-Informed Semi-Personalized Bandit Approach for Enhancing Accuracy and Serendipity in Online Slate Recommendations
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Recommender Systems
编辑推荐:
上下文强化学习通过决策树分割用户群体并采用个性化Thompson Sampling策略,平衡预测精度与意外性推荐,解决过滤气泡问题。
摘要
“上下文盗贼”(Contextual Bandits)为在线推荐系统中的个性化提供了基于原则的框架。然而,由于这些方法会根据个别用户的需求定制推荐列表,它们容易导致过度专业化,从而产生内容单一的推荐结果,限制用户接触到多样化的内容,并加剧诸如“信息茧房”和“回音室效应”等系统性问题。为缓解这些影响,推荐系统必须在预测准确性之外融入偶然性,提供新颖且出人意料的推荐内容,同时确保其与用户背景相关。
本研究提出了一种半个性化推荐算法:对于每个推荐项目,该算法会学习一棵决策树,根据用户的上下文特征和行为模式对用户进行分类,并为每个用户群体运行独特的汤普森采样(Thompson Sampling)策略来生成推荐列表。通过汇总行为相似的用户信息并在用户群体层面进行探索,该框架能够避免过度专业化问题,促进偶然性的推荐结果。此外,这种算法具有高度的可解释性,决策树揭示了用户分组的逻辑路径,有助于理解推荐系统的运作机制。
在三个不同在线领域的实验表明,与个性化推荐方法相比,半个性化推荐框架在降低平均用户遗憾感的同时,提升了在用户互动较少的场景下的偶然性体验。这些发现凸显了半个性化推荐算法在复杂环境中的潜力,有助于提升推荐质量。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号