PAD:一种基于流行度感知的偏差校正方法,用于高价值商品推荐

《Expert Systems with Applications》:PAD: Popularity-Aware Debiasing for High-Value Item Recommendation

【字体: 时间:2025年09月25日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对高价值物品推荐中数据稀疏和流行偏差问题,本文提出PAD模型。通过预训练语言模型(PLM)的软提示整合用户属性文本信息,增强用户表征;结合流行度感知去偏见机制,抑制热门物品过度推荐,显著提升推荐覆盖率(实验显示覆盖率从5.99%提升至27.64%)而保持准确率。

  推荐系统在我们的日常生活中扮演着至关重要的角色。然而,在高价值商品推荐的场景下,它们面临诸多挑战。由于这些商品价格较高,用户购买历史通常非常稀疏,使得推荐系统难以准确捕捉用户的偏好。因此,推荐系统往往过度依赖于流行度信息。此外,高价值商品市场呈现出显著的分布不均衡,大多数用户互动集中在热门商品上。在这种情况下,传统推荐系统倾向于优先推荐这些热门商品,而很少推荐不太热门的商品,从而导致推荐覆盖范围较低。为了解决这一问题,我们提出了一种名为PAD(Popularity-Aware Debiasing)的模型,该模型在不牺牲准确性的前提下,提升了高价值商品的推荐覆盖范围。首先,我们利用软提示引导预训练语言模型(PLM)来丰富用户表示。通过引入PLM的语义知识,我们的模型能够捕捉更加全面的用户偏好,确保推荐的准确性同时减少模型对流行度信号的依赖。在此基础上,我们应用了流行度感知的去偏技术,以减少过拟合并提高覆盖范围。PAD能够防止推荐系统无差别地向所有用户推荐最热门的商品,鼓励其在推荐中探索更广泛的商品范围。在工业和公开数据集上的实验表明,我们的方法能够有效缓解流行度偏差,显著提升商品推荐的覆盖范围,同时保持推荐的准确性。

推荐系统已经成为现代社会不可或缺的一部分,在电子商务、媒体和金融等多个领域发挥着重要作用。然而,推荐高价值商品(例如汽车、奢侈品和房地产)与推荐普通消费品相比,具有独特的挑战。不同于价格较低的商品,高价值商品通常涉及较少的交易频率和更为谨慎的决策过程。因此,用户与商品之间的互动数据极为稀疏,这限制了监督信号的获取。这种稀疏性使得捕捉用户偏好变得困难,迫使推荐系统更多地依赖于流行度信息。此外,高价值商品的推荐市场通常表现出高度的不平衡分布,少数热门商品占据了大部分销售(Luo, Ma, Xiao, & Song, 2023)。在这种情况下,过度依赖流行度信息的推荐系统往往会强化这种不平衡,重复推荐已经流行的商品,而忽视那些较为冷门或较少购买的商品。这种对流行度信息的过度依赖不仅使得冷门商品的曝光度降低,还减少了推荐的覆盖范围。因此,它限制了这些商品的曝光和销售,进而影响了整体的用户体验(Wei et al., 2021)。

为了准确量化上述挑战,我们通过从ML-100K数据集(Harper & Konstan, 2015)和一个高价值商品数据集(Car-Sales)中分别采样80个用户和80个商品,进行了对比分析。交互矩阵的热图可视化(图1(a)和(b))显示,Car-Sales的用户-商品交互模式明显更加稀疏,其交互密度分别为28.33%(ML-100K)和1.8%(Car-Sales),存在约15.7倍的稀疏性差异。进一步分析交互分布(图1(c)和(d))表明,Car-Sales呈现出更显著的长尾特征:虽然ML-100K的长尾效应较为温和,但Car-Sales的长尾效应更为突出,头部商品与尾部商品之间的销售差距更大。这种结构性差异直接影响了推荐效果,传统算法(例如DSSM)在ML-100K数据集上实现了40.76%的商品覆盖,但在Car-Sales数据集上仅达到5.99%,其推荐结果主要集中在排名靠前的热门商品上。这些观察结果凸显了开发专门方法以缓解流行度偏差并提升高价值商品推荐覆盖范围的必要性。

为了解决这些挑战,已有研究探索了不同的方向。一方面,近年来语言模型(LMs)的进步显示出在增强推荐系统方面具有潜力,特别是在通过文本中的语义信息提升用户和商品表示方面。一些研究(Wei, Ren, Tang, et al., 2024;Yao, Xu, Lian, Wang, Yi, & Xie)探讨了利用文本描述作为上下文信息以改进用户和商品表示的方法。然而,大多数现有方法主要关注通过文本增强商品表示(Lin, Wang, Li, Feng, Ng, Chua, 2024;Yang, Subbiah, Patel, Li, Song, Mirghaderi, & Aggarwal)或直接将用户的历史购买序列转换为文本输入以构建用户表示(Li, Zhai, Alzantot, Yu, Vuli?, Korhonen, & Hammad;Liang, Jin, Wang, Fan, Xia, Chen, Yin, 2024)。尽管这些方法在传统的推荐设置中有效,但在高价值商品推荐场景下却面临局限,因为数据极度稀疏。优化商品表示对捕捉用户偏好提供了有限的支持,而短的交互序列则不足以构建可靠的用户表示。另一方面,为了应对流行度偏差和推荐覆盖范围低的问题,一些方法尝试通过重新加权用户-商品交互来减少流行商品的影响(Wang, Liang, Charlin, & Blei, 2018),或者通过解耦用户和商品嵌入(Zheng, Gao, Li et al., 2021)以及平衡训练数据(Bonner & Vasile, 2018)等手段。虽然这些技术可以缓解对流行商品的依赖,但在高价值商品推荐中仍然存在关键的不足:减少流行商品影响的加权策略进一步削弱了已经稀缺的监督信号;嵌入解耦方法需要足够密集的交互才能有效区分用户固有偏好和流行度效应;数据平衡技术(如对冷门商品进行过采样)在极端不平衡分布下引入过多噪声,加剧了虚假相关性。另一种直观的方法是通过替换推荐列表中的一些结果来引入冷门商品。然而,在实际操作中,很难准确识别出可以替换的错误推荐项,因此这种方法不可避免地牺牲了推荐的准确性,导致用户体验下降。因此,仍然需要一种能够在稀疏数据下丰富用户表示、提升准确性,并缓解流行度偏差以提高推荐覆盖范围的方法。

本文提出了一种新的方法,以解决高价值商品推荐中的数据稀疏性和流行度偏差问题,旨在在不牺牲准确性的前提下提高推荐覆盖范围。具体而言,我们将用户属性字段的名称和值转换为文本信息,并使用软提示引导预训练语言模型(PLM)生成更加丰富的用户表示。通过这种方式,PLM可以保留其通用的预训练知识,同时适应推荐任务,从而提供更具信息量的用户表示,并减少推荐系统对流行度信号的依赖。此外,我们引入了流行度感知的去偏机制(PAD),以防止模型无差别地向所有用户推荐最热门的商品,从而缓解对头部商品的过拟合,并鼓励更广泛的商品曝光。本文的主要贡献可以总结如下:

1. 我们提出了一种方法,通过软提示和PLM将有限的用户交互历史与文本信息相结合,旨在在极端稀疏的情况下丰富用户表示,同时确保推荐的准确性,并减少推荐系统对流行度信号的依赖。
2. 我们引入了流行度感知的去偏机制(PAD),该机制旨在缓解频繁交互商品的主导地位,促进推荐列表中商品的更均衡曝光。
3. 据我们所知,这是第一项系统性研究高价值商品推荐中数据稀疏性和覆盖范围低问题的工作。我们在工业和公开数据集上进行了实验,以展示PAD在缓解流行度偏差和提升推荐覆盖范围方面的潜力。

流行度偏差指的是推荐系统倾向于推荐那些已经流行或频繁购买的商品,而忽视那些相对冷门或小众的商品(Wang, Feng, He, Wang, & Chua, 2021b)。这种偏差不仅降低了商品推荐的覆盖范围,还限制了系统在商品空间中公平分配推荐的能力。为了解决流行度偏差问题,研究人员已经探索了多种去偏技术。例如,γ-AdjNorm(Zhao, Wu, Liang et al.)等方法通过调整模型参数,减少流行商品对推荐结果的影响。然而,这些方法在处理高价值商品推荐时仍存在局限性,因为高价值商品的用户交互数据通常非常稀疏,使得模型难以准确捕捉用户的偏好。此外,高价值商品市场通常呈现出严重的分布不均衡,少数热门商品占据了大部分交易。这种不平衡进一步加剧了流行度偏差,使得推荐系统更倾向于推荐那些已经被广泛购买的商品,而忽视了其他商品,从而降低了整体的推荐覆盖范围。

为了应对这一问题,本文提出了一种新的方法,即流行度感知的去偏(PAD)模型。该模型通过软提示引导预训练语言模型(PLM)来丰富用户表示,并应用流行度感知的去偏技术以进一步缓解流行度偏差。具体来说,我们从基本的用户表示中生成软提示,以指导PLM对用户文本属性进行编码。通过将基本表示与文本表示相结合,我们得出了一个增强的用户表示,该表示能够更全面地捕捉用户的偏好。这种方法不仅能够提升推荐系统的性能,还能在不牺牲准确性的情况下,提高推荐的多样性。

在实验部分,我们使用了一个真实的工业数据集和一个经过处理的公开数据集进行测试。这些数据集的描述如下,其统计信息详见表1。需要注意的是,我们并未从Car-Sales和Yelp-HV数据集中构建无偏数据集,因为大多数高价值商品的用户交互数据极为稀疏,许多用户和商品缺乏足够的交互次数(例如至少10次)以形成无偏数据集。Car-Sales数据集包含的是车辆销售数据,它在高价值商品推荐中具有代表性,因为车辆通常价格较高,且用户购买频率较低。这种稀疏性使得推荐系统难以准确捕捉用户的偏好,从而导致对流行度信息的过度依赖。此外,高价值商品市场通常呈现出高度不平衡的分布,少数热门商品占据了大部分交易。这种不平衡进一步加剧了流行度偏差,使得推荐系统更倾向于推荐那些已经被广泛购买的商品,而忽视了其他商品,从而降低了整体的推荐覆盖范围。

在结论部分,我们总结了本文的研究成果。高价值商品推荐中的数据稀疏性使得推荐系统难以有效捕捉用户偏好,导致其过度依赖流行度信息。此外,高价值商品市场通常表现出严重的分布不均衡,这种流行度偏差进一步加剧了推荐系统对某些热门商品的偏爱,减少了整体的推荐覆盖范围。为了解决这些问题,本文提出了PAD模型,该模型通过软提示引导PLM生成丰富的用户表示,并应用流行度感知的去偏技术以缓解流行度偏差。实验结果表明,该方法能够有效提升推荐的覆盖范围,同时保持推荐的准确性。

尽管PAD模型在缓解流行度偏差和提升推荐覆盖范围方面表现出色,但仍然存在一些局限性。首先,我们的方法依赖于用户属性信息,并通过提示进行文本转换,这在某些现实场景中可能不可用或信息不足。例如,在冷启动情况下,新用户可能尚未提供足够的用户属性数据,或者在隐私敏感的领域(如医疗和金融)中,用户属性受到严格限制,这可能会影响模型的性能。其次,我们的方法主要针对高价值商品推荐场景,尚未在其他类型的推荐任务中进行广泛验证。因此,未来的研究可以探索PAD模型在不同推荐场景中的适用性,以及如何进一步优化其在稀疏数据环境下的表现。此外,我们还可以考虑结合其他去偏技术,以实现更全面的流行度偏差缓解。最后,为了提高模型的泛化能力,我们可以进一步探索如何在不同数据集和用户群体中进行模型的适应性调整。这些方向都有助于推动高价值商品推荐技术的发展,使其在实际应用中更加高效和公平。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号