别感到无聊:提升基于会话的推荐系统的可扩展性和多样性
《ACM Transactions on Recommender Systems》:Don’t Get Bored: Enhancing Scalability and Diversity in Session-Based Slate Recommendation
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Recommender Systems
编辑推荐:
分层推荐系统中的强化学习优化与效率提升
在推荐系统领域,推荐多个项目(称为“slate”)已经成为一种重要的策略,因为它不仅能够更好地捕捉用户对推荐内容的整体偏好,还能通过项目的组合和顺序优化用户的选择体验。然而,由于推荐内容可能来自庞大的项目池,因此slate推荐面临着巨大的动作空间挑战,这使得传统强化学习(RL)方法难以在实际应用中高效执行。本文旨在解决这一问题,通过引入一种名为SlateWolpertinger的策略,该策略利用基于项目(proto-item)和基于slate的表示方法,显著减少在推荐过程中对Q函数的评估次数,从而提升推理效率,使slate推荐系统能够在实际场景中快速部署。
在当前的推荐系统中,用户在浏览推荐内容时,往往希望获得与自身兴趣相符的多样化项目组合。然而,传统的价值函数方法在处理大规模项目池时,需要对所有项目进行评估,这不仅计算成本高昂,而且难以满足实时推荐的需求。为了解决这一问题,本文提出了一种新的方法,即通过学习一种生成函数,仅对一部分候选项目进行评估,从而减少Q函数的计算量。这种方法基于一个假设,即用户在选择项目时,更倾向于与当前状态相似的项目。通过将用户的兴趣和项目特征映射到一个连续的嵌入空间,可以更高效地找到最有可能满足用户需求的项目集合。
本文还讨论了用户行为模型的多样性,即“决定性”和“探索性”用户。决定性用户通常在会话中保持对某一类内容的偏好,而探索性用户则更倾向于尝试新的内容。为了评估SlateWolpertinger策略在不同用户行为下的表现,本文构建了一个模拟环境,其中包括用户兴趣和项目质量的随机性。该环境通过一个基于Q-learning的框架,评估不同策略在会话长度和用户满意度方面的表现。
研究结果表明,SlateWolpertinger策略在减少推理时间方面表现出色,特别是在处理大规模项目池时,其推理时间相比传统价值函数方法减少了至少四倍。同时,该策略在保持推荐效果的同时,能够提供更加多样化的项目组合,这对于探索性用户尤为重要。此外,本文还探讨了不同表示方法(proto-item和proto-slate)在处理不同用户行为时的优劣,发现proto-slate方法在探索性用户场景中表现更为优异,因为它能够更好地捕捉用户对多个主题的兴趣。
总之,本文提出了一种创新的强化学习方法,通过减少Q函数的评估次数,提升了slate推荐系统的推理效率,同时保持了推荐质量。这种方法在实际应用中具有重要意义,因为它能够在保证用户满意度的同时,提高系统的实时性和可扩展性。未来的研究可以进一步探索多项目消费模型或分层方法,以更好地捕捉项目间的相互作用,同时保持计算效率。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号