解锁未标记数据:利用中性样本和不确定性提升推荐效果
《ACM Transactions on Recommender Systems》:Unlocking the Unlabeled Data: Enhancing Recommendations with Neutral Samples and Uncertainty
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Recommender Systems
编辑推荐:
协同过滤在利用未标记数据时存在中性样本建模不足的问题。本文提出PNNP方法,通过椭圆高斯分布建模中性样本不确定性,结合半监督学习和用户注意力机制,设计两步 centroid 排名损失函数,有效提升推荐系统性能。实验表明该方法可显著增强各类协同过滤模型效果,甚至使基础矩阵分解模型性能接近复杂图神经网络。
摘要
协同过滤(CF)是推荐系统中的基本技术,然而如何有效利用大量未标记数据是一个重大挑战。近期研究致力于提取这些数据中的子集,以近似负样本。遗憾的是,剩余的数据被忽视了,未能将这些宝贵信息充分整合到用户偏好的构建中。为了解决这一难题,我们提出了一种新颖的正中性负学习范式(PNNP)。PNNP引入了一个中性类别,用于包含难以直接归类为正面或负面的复杂项目。通过基于这种三元部分排序的模型训练,PNNP为学习复杂的用户偏好提供了一条有前景的途径。通过理论分析,我们将PNNP与单向部分AUC(OPAUC)联系起来,以验证其有效性。然而,实施PNN范式在技术上具有挑战性,原因如下:(1)建模中性样本:用户对中性类别项目的态度可能复杂且不确定,需要先进的建模技术。(2)分类未标记数据:在没有监督信号的情况下,区分未标记数据中的中性样本和负样本特别具有挑战性。(3)缺乏合适的损失函数:目前没有现有的损失函数能够有效处理集合级别的三元排序关系。
为了解决这些挑战,我们提出了一种创新的方法,通过不确定性来建模中性样本。我们没有将中性样本表示为高维空间中的固定点,而是使用椭圆高斯分布来有效封装它们的内在不确定性。然后,我们引入了一种半监督学习方法,并结合了用户感知的注意力模型,以增强知识获取和分类精度。此外,我们还开发了一种具有两步质心排序方法的新损失函数,用于处理集合级别的排序。在四个真实世界数据集上的广泛实验表明,当与PNNP结合使用时,各种代表性的CF模型可以持续且显著地提高性能。即使是简单的矩阵分解模型,与PNNP结合后,也能达到与复杂图神经网络相当的性能。我们的代码可在https://github.com/Asa9aoTK/PNN-RecBole公开获取。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号