解锁未标记数据:利用中性样本和不确定性提升推荐效果

《ACM Transactions on Recommender Systems》:Unlocking the Unlabeled Data: Enhancing Recommendations with Neutral Samples and Uncertainty

【字体: 时间:2025年11月08日 来源:ACM Transactions on Recommender Systems

编辑推荐:

  协同过滤在利用未标记数据时存在中性样本建模不足的问题。本文提出PNNP方法,通过椭圆高斯分布建模中性样本不确定性,结合半监督学习和用户注意力机制,设计两步 centroid 排名损失函数,有效提升推荐系统性能。实验表明该方法可显著增强各类协同过滤模型效果,甚至使基础矩阵分解模型性能接近复杂图神经网络。

  

摘要

协同过滤(CF)是推荐系统中的基本技术,然而如何有效利用大量未标记数据是一个重大挑战。近期研究致力于提取这些数据中的子集,以近似负样本。遗憾的是,剩余的数据被忽视了,未能将这些宝贵信息充分整合到用户偏好的构建中。为了解决这一难题,我们提出了一种新颖的中性负学习范式(PNNP)。PNNP引入了一个中性类别,用于包含难以直接归类为正面或负面的复杂项目。通过基于这种三元部分排序的模型训练,PNNP为学习复杂的用户偏好提供了一条有前景的途径。通过理论分析,我们将PNNP与单向部分AUC(OPAUC)联系起来,以验证其有效性。然而,实施PNN范式在技术上具有挑战性,原因如下:(1)建模中性样本:用户对中性类别项目的态度可能复杂且不确定,需要先进的建模技术。(2)分类未标记数据:在没有监督信号的情况下,区分未标记数据中的中性样本和负样本特别具有挑战性。(3)缺乏合适的损失函数:目前没有现有的损失函数能够有效处理集合级别的三元排序关系。
为了解决这些挑战,我们提出了一种创新的方法,通过不确定性来建模中性样本。我们没有将中性样本表示为高维空间中的固定点,而是使用椭圆高斯分布来有效封装它们的内在不确定性。然后,我们引入了一种半监督学习方法,并结合了用户感知的注意力模型,以增强知识获取和分类精度。此外,我们还开发了一种具有两步质心排序方法的新损失函数,用于处理集合级别的排序。在四个真实世界数据集上的广泛实验表明,当与PNNP结合使用时,各种代表性的CF模型可以持续且显著地提高性能。即使是简单的矩阵分解模型,与PNNP结合后,也能达到与复杂图神经网络相当的性能。我们的代码可在https://github.com/Asa9aoTK/PNN-RecBole公开获取。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号