基于多目标群智能优化算法(MOSIDOC)的文档聚类方法研究及其性能提升

【字体: 时间:2025年06月03日 来源:Expert Systems with Applications 7.5

编辑推荐:

  推荐:为解决海量非结构化网络文档自动分类难题,研究团队创新性地提出多目标群智能文档聚类算法(MOSIDOC)。该研究首次将人工蜂群算法与紧凑性、分离度和Davies-Bouldin指数(DBI)多目标优化相结合,在ODP-239数据集上实现F1C分数0.4776,较15种对比方法平均提升16.18%,为文档智能管理提供新范式。

  

随着互联网信息的爆炸式增长,海量非结构化文档的有效组织成为亟待解决的难题。传统聚类方法往往只能优化单一目标,导致文档分类效果受限。针对这一挑战,研究人员开发了首个基于多目标群智能的文档聚类算法MOSIDOC,其创新性地将生物群体智能与多目标优化相结合,在保持算法高效性的同时显著提升聚类质量。这项发表于《Expert Systems with Applications》的研究,为解决文档自动分类这一关键问题提供了新思路。

研究团队采用人工蜂群算法框架,结合三种问题特异性变异算子(随机变异、分裂变异和合并变异),同时优化紧凑性(ΦCom)、分离度(ΦSep)和Davies-Bouldin指数(ΦDBI)三个目标函数。实验采用标准ODP-239数据集,包含239个主题共计25,580篇文档,通过预处理(分词、去停用词、词干提取)后采用tf-idf加权和余弦相似度计算。性能评估采用F1C、ARI和NMI三项指标,通过31次独立实验确保结果可靠性。

研究结果显示:

  1. 算法设计方面:MOSIDOC创新性地将群智能机制与文档聚类特性结合,通过分裂变异算子提升簇内紧凑性(针对ΦCom),合并变异算子增强簇间分离度(优化ΦSep),随机变异则避免算法早熟收敛。
  2. 性能对比方面:在ARI(0.3283)和NMI(0.4635)两项指标上全面超越所有对比方法,其中ARI平均提升达86.81%;F1C分数(0.4776)虽略低于两种多视图方法DEBC-MBDE和MV-MO-BDE,但在保持更高运行效率的同时,避免了多视图方法的数据冗余问题。
  3. 时间复杂度分析:算法复杂度为O(gensm·cols·K·n),其中K为簇数、n为文档数,在保证精度的同时具有良好的可扩展性。

这项研究的重要意义在于:首次将多目标群智能算法引入文档聚类领域,突破了传统单目标优化的局限性。通过精心设计的变异算子,MOSIDOC有效平衡了簇内相似性与簇间差异性的矛盾需求,其采用的Pareto排序和拥挤距离机制确保了解决方案的多样性和收敛性。特别值得注意的是,该算法在标准评估指标上取得的显著提升(如ARI指标105.55%的改进幅度),为处理医疗健康文本分类、生物医学文献挖掘等专业领域文档组织提供了可靠工具。未来工作可探索与大型语言模型(LLM)的结合,以及应对量子计算时代的新型文档安全聚类框架,这些延伸方向将进一步拓展该研究的应用边界。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号