BNFW:适用于边界模糊且连接性较弱的数据的边界与噪声检测聚类方法

《Expert Systems with Applications》:BNFW: Boundary and noise detection clustering for data with fuzzy boundaries and weak connectivity

【字体: 时间:2025年09月25日 来源:Expert Systems with Applications 7.5

编辑推荐:

  高价值物品推荐面临数据稀疏和流行度偏差挑战,本文提出PAD模型:通过预训练语言模型(PLM)结合软提示技术增强用户表示,并引入流行度感知去偏差机制,在保持推荐准确性的同时显著提升覆盖率。

  推荐系统在我们的日常生活中扮演着至关重要的角色。然而,在高价值商品推荐的场景下,它们面临更为严峻的挑战。由于这些商品的价格较高,用户购买记录往往非常稀疏,使得推荐系统难以准确捕捉用户偏好。因此,推荐系统倾向于过度依赖流行度信息。此外,高价值商品市场通常呈现出明显的分布不均,大多数用户互动集中在热门商品上。在这种情况下,传统推荐系统往往优先推荐这些热门商品,而很少推荐不那么热门的商品,从而导致推荐覆盖范围有限。为了解决这一问题,我们提出了一种名为“流行度感知去偏”(PAD)的模型,该模型在不牺牲推荐准确性的前提下,提高了高价值商品的推荐覆盖范围。首先,我们利用软提示引导预训练语言模型(PLM)来丰富用户表示。通过结合PLM的语义知识,我们的模型能够捕捉更全面的用户偏好,从而确保推荐准确性,同时减少模型对流行度信号的依赖。在此基础上,我们应用流行度感知去偏技术来减少过拟合,提升推荐覆盖范围。PAD模型能够防止推荐系统无差别地向所有用户推荐最热门的商品,鼓励其在推荐中探索更广泛的商品范围。我们在工业和公开数据集上进行的实验表明,我们的方法能够有效缓解流行度偏差,显著提升商品推荐覆盖范围,同时保持推荐准确性。

推荐系统已经成为现代社会不可或缺的一部分,在电子商务、媒体和金融等多个领域发挥着重要作用。然而,与常规消费品相比,高价值商品的推荐面临独特的挑战。常规消费品通常价格较低,涉及频繁的互动和重复购买,而高价值商品则具有交易频率低和决策过程谨慎的特点。因此,用户与商品之间的互动数据极为稀疏,限制了监督信号的获取。这种稀疏性使得系统难以准确捕捉用户偏好,迫使推荐系统过度依赖流行度信息。此外,高价值商品推荐市场通常表现出明显的分布不均,少数热门商品占据大部分销售份额(Luo, Ma, Xiao, & Song, 2023)。在这样的背景下,过度依赖流行度信息的推荐系统会进一步加剧这种不平衡,不断推荐已经流行的热门商品,而忽视那些小众或较少购买的商品。这种对流行度信息的过度依赖不仅使小众商品被边缘化,还降低了推荐覆盖范围。因此,这限制了这些商品的曝光和销售,也影响了整体的用户体验(Wei et al., 2021)。

为了准确量化上述挑战,我们通过从ML-100K数据集(Harper & Konstan, 2015)和一个高价值商品数据集(Car-Sales)中分别采样80名用户和80个商品进行比较分析。通过对比用户-商品交互矩阵的热图(图1(a)和(b)),可以明显看出Car-Sales数据集中用户-商品交互模式更加稀疏,其交互密度分别为28.33%(ML-100K)和1.8%(Car-Sales),存在约15.7倍的稀疏性差异。进一步分析交互分布(图1(c)和(d))表明,Car-Sales数据集表现出明显的长尾特性:虽然ML-100K数据集的长尾特性较为温和,交互头部与尾部之间的差异较小,但Car-Sales数据集的长尾特性更为显著,头部商品与尾部商品之间的销售差距更大。这种结构上的差异直接影响推荐效果,传统算法(如DSSM)在ML-100K数据集上实现40.76%的商品覆盖,而在Car-Sales数据集上仅为5.99%,后者推荐结果主要集中在排名靠前的热门商品上。这些观察结果突显了开发专门方法以缓解流行度偏差并提高推荐覆盖范围的必要性。

为了解决这些挑战,现有研究已经探索了不同的方向。一方面,近年来语言模型(LMs)在增强推荐系统方面展现出了良好的前景,通过引入文本中的语义信息来改进用户和商品的表示。一些研究(如Wei, Ren, Tang等,2024;Yao, Xu, Lian等)探讨了利用商品描述作为上下文信息,以提升用户和商品的表示。然而,大多数现有方法主要关注通过文本增强商品表示(如Lin, Wang, Li等,2024;Yang, Subbiah, Patel等)或直接将用户的历史购买序列转换为文本输入以构建用户表示(如Li, Zhai, Alzantot等;Liang, Jin, Wang等,2024)。尽管这些方法在常规推荐场景下有效,但在高价值商品推荐中面临局限性,主要源于数据的极端稀疏性。优化商品表示为捕捉用户偏好提供了有限的支持,而短的交互序列则不足以构建可靠的用户表示。另一方面,为了应对流行度偏差和推荐覆盖范围有限的问题,一些方法尝试通过重新加权用户-商品交互来减少热门商品的影响(如Wang, Liang, Charlin等,2018),或者通过解耦用户和商品嵌入(如Zheng, Gao, Li等,2021)来区分用户偏好和流行度效应。此外,还有研究尝试通过平衡训练数据(如Bonner & Vasile,2018)来缓解偏差。然而,这些技术在高价值商品推荐中仍存在关键缺陷:减少热门商品影响的加权策略进一步削弱了已经稀缺的监督信号;解耦嵌入的方法需要足够密集的交互数据才能有效分离用户偏好和流行度效应;数据平衡技术(如对小众商品进行过采样)在极端不平衡分布下引入过多噪声,加剧了虚假相关性。另一个直观的提升推荐覆盖范围的方法是用一些不太热门的商品替换推荐列表中的部分结果。然而,在实践中,识别出哪些推荐结果是错误的并需要替换非常具有挑战性,因此这种方法不可避免地牺牲了推荐的准确性,导致用户体验下降。因此,仍然需要一种方法,能够在数据稀疏的情况下丰富用户表示,同时保持推荐准确性,并缓解流行度偏差以提高推荐覆盖范围。

本文提出了一种新的方法,旨在解决高价值商品推荐中的数据稀疏性和流行度偏差问题,目标是提高推荐覆盖范围而不牺牲推荐准确性。具体而言,我们将用户属性字段名称和值转换为文本信息,并利用软提示引导预训练语言模型(PLM)生成更加丰富的用户表示。通过这种方式,PLM可以保留其通用的预训练知识,同时适应推荐任务,从而有望提供更具信息量的用户表示,并减少对流行度信号的过度依赖。此外,我们引入了流行度感知去偏(PAD)机制,以防止模型无差别地向所有用户推荐最热门的商品,通过缓解对头部商品的过拟合,鼓励更广泛的物品曝光。本文的主要贡献可以总结如下:

我们提出了一种方法,通过软提示和PLM将有限的用户交互历史与文本信息相结合,旨在在极端稀疏的情况下丰富用户表示,并确保推荐准确性,同时减少推荐系统对流行度信号的依赖。我们引入了流行度感知去偏(PAD)机制,这是一种旨在缓解频繁互动商品主导现象,促进推荐列表中商品更均衡曝光的机制。据我们所知,这是首个系统性研究高价值商品推荐中稀疏交互和低覆盖问题的工作。我们在工业和公开数据集上进行了实验,以验证PAD在缓解流行度偏差和提升推荐覆盖范围方面的潜力。

流行度偏差指的是推荐系统倾向于推荐那些已经被广泛购买或受欢迎的商品,而忽视那些较为冷门或小众的商品(Wang, Feng, He, Wang, & Chua, 2021b)。这种偏差不仅减少了商品推荐的覆盖范围,还限制了系统在商品空间中公平分配推荐的能力。为了缓解流行度偏差,研究人员已经探索了多种去偏技术。例如,γ-AdjNorm(Zhao, Wu, Liang等)通过调整模型的输出权重来减少对热门商品的偏好。此外,一些研究还尝试使用嵌入去偏方法,通过分离用户偏好和流行度效应来提升推荐效果。然而,这些方法在高价值商品推荐中仍存在一定的局限性,尤其是在数据稀疏和分布不均的情况下。

在本研究中,我们提出了一种结合软提示和预训练语言模型的创新方法,以解决高价值商品推荐中的挑战。首先,我们将用户属性字段名称和值转换为文本信息,以丰富用户表示。这一过程利用了PLM的语义知识,使模型能够更全面地捕捉用户偏好,从而在不依赖流行度信号的情况下提升推荐效果。其次,我们引入了流行度感知去偏(PAD)机制,以防止模型无差别地推荐热门商品,从而缓解对头部商品的过拟合,并鼓励更广泛的物品曝光。通过这种方法,我们不仅能够提高推荐覆盖范围,还能保持推荐的准确性,从而提升整体用户体验。

我们使用了两种数据集进行实验:一个来自实际工业环境的高价值商品销售数据集和一个经过处理的公开数据集。这些数据集的描述和统计信息如表1所示。需要说明的是,我们并未从Car-Sales和Yelp-HV等数据集中构建完全无偏的数据集,因为大多数高价值商品的交互数据极为稀疏,许多用户和商品缺乏最低限度的交互(如至少10次)以形成无偏数据集。Car-Sales数据集是一个车辆销售数据集,包含了多种高价值商品的销售记录。通过在这些数据集上的实验,我们验证了PAD在缓解流行度偏差和提升推荐覆盖范围方面的有效性。

在推荐高价值商品的过程中,数据的稀疏性使得系统难以准确捕捉用户偏好,导致推荐算法过度依赖流行度信息。此外,高价值商品市场通常表现出明显的分布不均,这种流行度偏差进一步使推荐结果偏向于少数频繁互动的商品,从而降低整体的推荐覆盖范围。为了解决这些问题,本文提出了一种结合用户表示优化和流行度感知去偏的新方法,以提高推荐的多样性和覆盖范围,同时保持推荐的准确性。

本研究的局限性在于,尽管我们提出的PAD框架在提升推荐效果方面表现出一定的优势,但仍存在一些需要改进的地方。首先,我们的方法依赖于用户属性信息和通过提示生成的文本信息,这在某些实际场景中可能并不具备或信息量不足。比如,在冷启动阶段,新用户可能尚未提供足够的用户属性数据,或者在隐私敏感领域如医疗和金融中,用户属性信息受到严格限制,这会影响模型的性能。此外,我们当前的方法主要适用于那些具有明确用户属性和文本描述的商品,而对于那些缺乏这些信息的高价值商品,可能需要进一步探索其他方法来丰富用户表示。最后,我们目前的实验主要基于特定的数据集,未来可以考虑在更多样化的数据集上进行测试,以验证PAD在不同场景下的普适性和有效性。

在未来的研究中,我们计划进一步优化PAD模型,以提升其在不同数据集和场景下的适应能力。首先,我们将探索更多样化的用户属性信息来源,以丰富用户表示,同时保持模型的泛化能力。其次,我们计划引入更复杂的去偏机制,以进一步缓解流行度偏差,提高推荐的多样性。此外,我们还计划研究如何在不牺牲推荐准确性的情况下,更有效地提升推荐覆盖范围。这些研究将有助于推动高价值商品推荐技术的发展,为用户提供更加精准和多样化的推荐服务。

总之,推荐系统在高价值商品推荐中面临诸多挑战,包括数据稀疏性和流行度偏差。为了解决这些问题,我们提出了一种结合用户表示优化和流行度感知去偏的新方法。通过将用户属性信息转换为文本信息,并利用软提示引导PLM生成更加丰富的用户表示,我们能够更全面地捕捉用户偏好,从而在不依赖流行度信号的情况下提升推荐效果。同时,通过引入流行度感知去偏机制,我们能够缓解对热门商品的过拟合,鼓励更广泛的物品曝光,从而提高推荐的多样性。本文的实验结果表明,这种方法在工业和公开数据集上均表现出良好的效果,能够有效缓解流行度偏差,提升推荐覆盖范围,同时保持推荐的准确性。未来的研究将继续探索如何优化和扩展这一方法,以适应更多样化的推荐场景,并进一步提升推荐系统的性能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号