解锁未标记数据：利用中性样本和不确定性提升推荐效果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Recommender Systems》：Unlocking the Unlabeled Data: Enhancing Recommendations with Neutral Samples and Uncertainty

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Recommender Systems

编辑推荐：

　　协同过滤在利用未标记数据时存在中性样本建模不足的问题。本文提出PNNP方法，通过椭圆高斯分布建模中性样本不确定性，结合半监督学习和用户注意力机制，设计两步 centroid 排名损失函数，有效提升推荐系统性能。实验表明该方法可显著增强各类协同过滤模型效果，甚至使基础矩阵分解模型性能接近复杂图神经网络。

摘要

协同过滤（CF）是推荐系统中的基本技术，然而如何有效利用大量未标记数据是一个重大挑战。近期研究致力于提取这些数据中的子集，以近似负样本。遗憾的是，剩余的数据被忽视了，未能将这些宝贵信息充分整合到用户偏好的构建中。为了解决这一难题，我们提出了一种新颖的正中性负学习范式（PNNP）。PNNP引入了一个中性类别，用于包含难以直接归类为正面或负面的复杂项目。通过基于这种三元部分排序的模型训练，PNNP为学习复杂的用户偏好提供了一条有前景的途径。通过理论分析，我们将PNNP与单向部分AUC（OPAUC）联系起来，以验证其有效性。然而，实施PNN范式在技术上具有挑战性，原因如下：（1）建模中性样本：用户对中性类别项目的态度可能复杂且不确定，需要先进的建模技术。（2）分类未标记数据：在没有监督信号的情况下，区分未标记数据中的中性样本和负样本特别具有挑战性。（3）缺乏合适的损失函数：目前没有现有的损失函数能够有效处理集合级别的三元排序关系。

为了解决这些挑战，我们提出了一种创新的方法，通过不确定性来建模中性样本。我们没有将中性样本表示为高维空间中的固定点，而是使用椭圆高斯分布来有效封装它们的内在不确定性。然后，我们引入了一种半监督学习方法，并结合了用户感知的注意力模型，以增强知识获取和分类精度。此外，我们还开发了一种具有两步质心排序方法的新损失函数，用于处理集合级别的排序。在四个真实世界数据集上的广泛实验表明，当与PNNP结合使用时，各种代表性的CF模型可以持续且显著地提高性能。即使是简单的矩阵分解模型，与PNNP结合后，也能达到与复杂图神经网络相当的性能。我们的代码可在https://github.com/Asa9aoTK/PNN-RecBole公开获取。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号