准确性、公平性和多样性兼顾:一种基于影响函数的数据增强方法在推荐系统中的应用

《ACM Transactions on Knowledge Discovery from Data》:Accuracy, Fairness, Diversity All at Once: An Influence-Function-Guided Data Enhancement Approach for Recommender System

【字体: 时间:2025年11月07日 来源:ACM Transactions on Knowledge Discovery from Data

编辑推荐:

  本文提出了一种名为InFoDance的新型数据增强方法,旨在同时提升推荐系统的准确性、公平性和多样性。通过分析数据稀疏性对推荐性能的影响,设计了一个包含模型训练、虚拟数据生成、影响函数评估和虚拟数据筛选的迭代框架。实验表明,在MovieLens和LastFM数据集上,InFoDance相比基线方法,准确率提升24.27%,公平性(dRMSE)提升55.29%,多样性(Topic Cover)提升1.85%,且兼容深度学习模型(如NCF)和显式/隐式反馈场景。

  推荐系统在用户内容筛选中发挥着关键作用,通常依赖于数据驱动的算法和机器学习方法。然而,这些系统的数据导向本质引发了一些关键问题,例如偏差数据集和算法可能会无意中将偏差传播给终端用户,导致特定用户群体受到不公平对待。此外,机器学习技术虽然强大,但有时会过度拟合用户的偏好,造成推荐内容的单一性,这不仅影响用户体验,还可能引发社会层面的回音室效应。因此,计算机科学和信息系统领域都认识到在推荐系统中提升公平性和多样性的重要性,并提出了多种方法来缓解这些问题。然而,目前尚无一种方法能够同时兼顾推荐系统的准确性、公平性和多样性。本文提出了一种创新的数据增强方法,称为InFoDance,旨在同时提升这三个方面。

推荐系统通常基于用户-项目交互数据进行训练,这些数据在现实世界中往往存在数据稀疏性问题。例如,MovieLens 1M和LastFM 1K这两个广泛使用的数据集分别表现出95.5%和94.1%的数据稀疏性。这种稀疏性对推荐系统的准确性、公平性和多样性产生了显著影响。通过分析不同稀疏化策略(随机稀疏、性别稀疏和主题稀疏)对推荐性能的影响,我们发现随着数据稀疏性的增加,推荐的准确性、公平性和多样性均呈现下降趋势。这表明数据稀疏性是影响推荐系统性能的关键因素,为我们的研究提供了动机。

本文提出的InFoDance框架包含四个相互关联的模块:模型训练、候选数据生成、基于影响函数的候选评估和虚拟数据选择。模型训练模块使用常规的训练流程来训练推荐模型。候选数据生成模块负责创建潜在的虚拟数据点。影响函数评估模块则用于评估每个生成的候选数据对推荐系统性能的影响,它利用训练好的模型和一个独立的验证数据集进行评估。最后,虚拟数据选择模块根据评估结果选择最有益于预测模型的虚拟数据,并将其整合到训练数据中。整个过程是迭代进行的,直到验证数据集上的推荐准确性、公平性和多样性不再进一步改善为止。

为了应对数据稀疏性带来的挑战,我们引入了影响函数技术。这一技术最初来自稳健统计学,用于评估每个数据实例对预测误差的边际影响。在现代机器学习中,它被广泛应用于鲁棒性分析、对抗训练和领域不匹配调试等场景。本文将这一技术推广到推荐系统中,以同时提升准确性、公平性和多样性。具体而言,我们设计了一个三维影响函数,用于评估每个生成的虚拟数据实例对这三个目标的影响。其中,准确性、公平性和多样性分别对应于推荐误差、不同性别组的推荐质量差异和主题覆盖度。

在计算影响函数时,我们采用了迭代算法来近似计算Hessian矩阵的逆。这种方法不需要先计算Hessian矩阵,而是通过逐步更新Hessian逆矩阵的估计值来逼近真实值。此外,我们还开发了可微分的近似方法,以替代常用的不可微分的评估指标,如归一化折扣累积增益(NDCG)和根均方误差(RMSE)。这些方法使得我们能够高效地计算影响函数,并据此选择对推荐系统有积极影响的虚拟数据。

为了验证InFoDance的有效性,我们使用了两个广泛使用的数据集:MovieLens 1M和LastFM 1K。MovieLens 1M数据集包含用户对电影的评分,而LastFM 1K数据集则基于用户对音乐的互动(如点击)。我们对这两个数据集进行了实验,结果表明InFoDance能够显著提升推荐系统的准确性、公平性和多样性。在MovieLens数据集上,InFoDance分别提高了24.27%、55.29%和1.85%的性能;而在LastFM数据集上,其提升了24.27%、22.07%和3.75%。这些结果显著优于现有的基线方法。

此外,我们还对InFoDance的泛化能力进行了研究,验证了它在公平性/多样性导向设置中的适应性。结果表明,即使在已经考虑公平性和多样性约束的模型中,InFoDance仍然能够有效提升这三个方面的性能。最后,我们通过可视化分析了增强后的数据,发现InFoDance能够平衡用户和项目的评分频率,从而提升推荐的准确性和多样性。对于性别群体,InFoDance通过生成更多针对劣势群体的虚拟数据,有效改善了推荐的公平性。

本研究的成果不仅对推荐系统的性能提升具有重要意义,还对信息系统的理论和实践产生了深远影响。通过同时考虑准确性、公平性和多样性,InFoDance为推荐系统的设计提供了新的思路,有助于构建更加公正和多样化的推荐机制。此外,其对数据稀疏性的有效应对,为未来的研究和应用提供了宝贵的参考。在实际应用中,这种方法可以显著提升用户体验,增强企业竞争力,并促进社会公平。未来的研究可以进一步探索InFoDance在不同公平性定义下的表现,以及其在真实推荐系统中的应用效果。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号