
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多目标群智能优化算法(MOSIDOC)的文档聚类方法研究及其性能提升
【字体: 大 中 小 】 时间:2025年06月03日 来源:Expert Systems with Applications 7.5
编辑推荐:
推荐:为解决海量非结构化网络文档自动分类难题,研究团队创新性地提出多目标群智能文档聚类算法(MOSIDOC)。该研究首次将人工蜂群算法与紧凑性、分离度和Davies-Bouldin指数(DBI)多目标优化相结合,在ODP-239数据集上实现F1C分数0.4776,较15种对比方法平均提升16.18%,为文档智能管理提供新范式。
随着互联网信息的爆炸式增长,海量非结构化文档的有效组织成为亟待解决的难题。传统聚类方法往往只能优化单一目标,导致文档分类效果受限。针对这一挑战,研究人员开发了首个基于多目标群智能的文档聚类算法MOSIDOC,其创新性地将生物群体智能与多目标优化相结合,在保持算法高效性的同时显著提升聚类质量。这项发表于《Expert Systems with Applications》的研究,为解决文档自动分类这一关键问题提供了新思路。
研究团队采用人工蜂群算法框架,结合三种问题特异性变异算子(随机变异、分裂变异和合并变异),同时优化紧凑性(ΦCom)、分离度(ΦSep)和Davies-Bouldin指数(ΦDBI)三个目标函数。实验采用标准ODP-239数据集,包含239个主题共计25,580篇文档,通过预处理(分词、去停用词、词干提取)后采用tf-idf加权和余弦相似度计算。性能评估采用F1C、ARI和NMI三项指标,通过31次独立实验确保结果可靠性。
研究结果显示:
这项研究的重要意义在于:首次将多目标群智能算法引入文档聚类领域,突破了传统单目标优化的局限性。通过精心设计的变异算子,MOSIDOC有效平衡了簇内相似性与簇间差异性的矛盾需求,其采用的Pareto排序和拥挤距离机制确保了解决方案的多样性和收敛性。特别值得注意的是,该算法在标准评估指标上取得的显著提升(如ARI指标105.55%的改进幅度),为处理医疗健康文本分类、生物医学文献挖掘等专业领域文档组织提供了可靠工具。未来工作可探索与大型语言模型(LLM)的结合,以及应对量子计算时代的新型文档安全聚类框架,这些延伸方向将进一步拓展该研究的应用边界。
生物通微信公众号
知名企业招聘