基于自适应模糊聚类与JS散度的推荐系统优化研究及其电影推荐应用

【字体: 时间:2025年07月03日 来源:Computer Standards & Interfaces 4.1

编辑推荐:

  为解决推荐系统中模糊聚类算法(FCM)难以确定最佳聚类数的问题,本研究提出自适应模糊C均值詹森-香农算法(AFCM-JS)。该方法融合FCM与詹森-香农(JS)距离度量,通过自适应阈值策略动态识别聚类数。在人工数据集(6类/1000元素)和电影数据集(5种类型)的测试中,AFCM-JS以81.9366%的准确率超越FCM、PCM、PFCM等传统方法,7类聚类有效性指标验证其优越性,显著提升电影推荐系统的兴趣分组精度。

  

在信息爆炸的数字时代,用户面对海量商品常陷入选择困境。推荐系统虽能缓解这一痛点,但其核心聚类技术如模糊C均值(FCM)存在关键瓶颈——需预先设定聚类数量,而真实场景中数据结构的复杂性使最优聚类数难以预判。传统解决方案依赖人工经验或反复试错,不仅效率低下,更导致推荐准确性下降。当用户打开电影平台时,系统若错误合并恐怖片与喜剧片,或因过度细分错过类型关联,都将直接影响体验。

为解决这一难题,研究人员开发了自适应模糊C均值詹森-香农算法(AFCM-JS)。该方法创新性地将FCM的模糊隶属度概念与詹森-香农(Jensen-Shannon, JS)散度这一信息论距离度量结合,通过两阶段策略突破聚类数限制:第一阶段以最大可能聚类数运行FCM生成初始隶属度矩阵;第二阶段计算JS散度矩阵,利用四分位距(IQR)自适应确定阈值,自动合并相似簇。这种动态调整机制使算法能精准捕获数据内在结构,尤其适合用户兴趣多样化的推荐场景。

关键技术方法

  1. 数据集构建:人工数据集(6类/1000元素)验证基础性能;电影数据集通过狄利克雷函数加权处理动作、冒险等5种电影类型特征。
  2. 算法比较:对照FCM、概率C均值(PCM)、概率模糊C均值(PFCM)及基础JS方法。
  3. 评估体系:采用7种聚类有效性指标(如Xie-Beni指数、划分系数PC)及准确率指标gMeasure。
  4. 自适应阈值:基于JS距离矩阵的IQR动态设定合并阈值,消除人工干预。

研究结果

  1. 人工数据集测试

    • 在最大聚类数设定为4-15的多种场景下,AFCM-JS均稳定识别出真实聚类数6。
    • 7种有效性指标对比中,AFCM-JS在Xie-Beni指数(量化类内紧密度与类间分离度)等5项关键指标上显著优于对照组。
  2. 电影推荐应用

    • 聚类精度:以81.9366%的gMeasure准确率领先(FCM:78.2%, PCM:73.8%, PFCM:76.4%),证明其有效区分恐怖片、喜剧片等类型边界。
    • 兴趣分组:JS散度成功捕捉类型间兴趣关联,如将"动作-冒险"类自然合并,避免碎片化推荐。
    • 阈值鲁棒性:自适应阈值策略使算法在类型权重分布变化时仍保持稳定输出。

结论与意义
AFCM-JS的突破在于将模糊聚类从固定簇数限制中解放出来。其自适应机制通过JS散度量化数据点分布相似性,结合IQR阈值实现科学合并决策,解决了推荐系统领域长期存在的"最佳聚类数未知"痛点。在电影推荐场景中,该算法不仅能精确匹配类型特征(如区分恐怖片的紧张感与喜剧片的轻松元素),更能通过兴趣关联挖掘提升跨类型推荐合理性(如为喜欢"科幻-冒险"的用户推荐强剧情电影)。

研究结果发表于《Computer Standards & Interfaces》(中科院二区,影响因子5.0+),为推荐系统提供了可扩展的技术框架。未来该算法可进一步整合时间因素(如用户兴趣漂移)及跨平台数据,在医疗健康推荐(症状-药品聚类)、个性化学习资源匹配等领域具有广阔应用前景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号