别感到无聊：提升基于会话的推荐系统的可扩展性和多样性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Recommender Systems》：Don’t Get Bored: Enhancing Scalability and Diversity in Session-Based Slate Recommendation

【字体：大中小】 时间：2025年11月07日 来源：ACM Transactions on Recommender Systems

编辑推荐：

　　分层推荐系统中的强化学习优化与效率提升

　　在推荐系统领域，推荐多个项目（称为“slate”）已经成为一种重要的策略，因为它不仅能够更好地捕捉用户对推荐内容的整体偏好，还能通过项目的组合和顺序优化用户的选择体验。然而，由于推荐内容可能来自庞大的项目池，因此slate推荐面临着巨大的动作空间挑战，这使得传统强化学习（RL）方法难以在实际应用中高效执行。本文旨在解决这一问题，通过引入一种名为SlateWolpertinger的策略，该策略利用基于项目（proto-item）和基于slate的表示方法，显著减少在推荐过程中对Q函数的评估次数，从而提升推理效率，使slate推荐系统能够在实际场景中快速部署。

在当前的推荐系统中，用户在浏览推荐内容时，往往希望获得与自身兴趣相符的多样化项目组合。然而，传统的价值函数方法在处理大规模项目池时，需要对所有项目进行评估，这不仅计算成本高昂，而且难以满足实时推荐的需求。为了解决这一问题，本文提出了一种新的方法，即通过学习一种生成函数，仅对一部分候选项目进行评估，从而减少Q函数的计算量。这种方法基于一个假设，即用户在选择项目时，更倾向于与当前状态相似的项目。通过将用户的兴趣和项目特征映射到一个连续的嵌入空间，可以更高效地找到最有可能满足用户需求的项目集合。

本文还讨论了用户行为模型的多样性，即“决定性”和“探索性”用户。决定性用户通常在会话中保持对某一类内容的偏好，而探索性用户则更倾向于尝试新的内容。为了评估SlateWolpertinger策略在不同用户行为下的表现，本文构建了一个模拟环境，其中包括用户兴趣和项目质量的随机性。该环境通过一个基于Q-learning的框架，评估不同策略在会话长度和用户满意度方面的表现。

研究结果表明，SlateWolpertinger策略在减少推理时间方面表现出色，特别是在处理大规模项目池时，其推理时间相比传统价值函数方法减少了至少四倍。同时，该策略在保持推荐效果的同时，能够提供更加多样化的项目组合，这对于探索性用户尤为重要。此外，本文还探讨了不同表示方法（proto-item和proto-slate）在处理不同用户行为时的优劣，发现proto-slate方法在探索性用户场景中表现更为优异，因为它能够更好地捕捉用户对多个主题的兴趣。

总之，本文提出了一种创新的强化学习方法，通过减少Q函数的评估次数，提升了slate推荐系统的推理效率，同时保持了推荐质量。这种方法在实际应用中具有重要意义，因为它能够在保证用户满意度的同时，提高系统的实时性和可扩展性。未来的研究可以进一步探索多项目消费模型或分层方法，以更好地捕捉项目间的相互作用，同时保持计算效率。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号