动态二分图学习驱动的聚类方法：提升大规模复杂数据适应性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月16日 来源：Neurocomputing 5.5

编辑推荐：

　　针对传统二分图聚类方法依赖固定图结构和标签传播交互不足的问题，研究人员提出动态二分图学习聚类模型（DBGL），通过迭代更新二分图与锚点标签矩阵实现双向优化。该模型采用IRW算法更新二分图，改进CD算法优化标签，实验证明其在准确率、效率和鲁棒性上均优于现有方法，为复杂数据聚类提供了灵活高效的解决方案。

在数据爆炸的时代，如何高效处理海量复杂信息成为机器学习领域的核心挑战。聚类分析作为无监督学习的重要分支，其目标是将相似对象归入同一类别，同时最大化类间差异。传统方法如k-means虽简单高效，却难以处理非凸分布数据；而基于图的聚类虽能捕捉复杂关系，却受限于计算成本。尤其当面对大规模数据集时，现有方法的局限性愈发凸显——要么牺牲精度换取速度，要么因计算复杂度过高而难以实用。

更棘手的是，当前主流的二分图聚类方法存在两大瓶颈：一是依赖预先构建的固定二分图，一旦初始构图不理想，后续聚类性能将直接受损；二是标签传播过程中，二分图与锚点标签之间缺乏有效互动，导致信息传递僵化。这些问题严重制约了算法在动态场景下的适应能力。尽管已有研究尝试通过多视图信息交换优化二分图，但这些方法仅适用于特定场景，且计算开销巨大。

针对这一现状，华南农业大学的研究团队在《Neurocomputing》发表了创新性研究成果。他们提出的动态二分图学习聚类模型（DBGL）突破了传统框架的束缚，通过建立二分图与锚点标签的动态交互机制，实现了聚类性能的显著提升。该研究不仅设计了交替优化策略（IRW算法更新二分图，改进CD算法优化标签），还通过理论分析证明了模型的收敛性。实验部分在合成与真实数据集上验证了DBGL的优越性——其聚类准确率最高提升15%，耗时仅为对比方法的1/3，且对初始化表现出极强的鲁棒性。

关键技术方法包括：基于锚点的数据降维、动态二分图构建（Iteratively Re-Weighted算法）、标签传播优化（改进Coordinate Descent算法）以及交替迭代优化框架。实验采用6个基准数据集，涵盖生物信息学和计算机视觉领域。

研究结果

动态二分图构建：通过IRW算法迭代更新样本-锚点关联矩阵，使图结构能随标签变化自适应调整，解决了固定图的僵化问题。
标签双向传播机制：改进的CD算法实现锚点标签与样本标签的协同优化，错误标签反馈修正二分图结构，形成闭环学习。
收敛性证明：理论分析显示目标函数在交替优化下单调递减，迭代10次后趋于稳定。
性能对比实验：在MNIST数据集上，DBGL的NMI指标达0.82，较最优基线提升12%；处理百万级数据时，耗时线性增长而非传统方法的指数增长。

结论与意义
该研究开创性地将动态学习机制引入二分图聚类：一方面，动态更新的二分图消除了对初始构图的依赖，使模型能自适应数据分布变化；另一方面，标签与图结构的双向互动突破了传统单向传播的局限。这种"边学习边优化"的策略，为处理超大规模数据提供了新思路——其线性计算复杂度（O(n)）使其特别适合物联网、生物信息学等数据密集型场景。未来工作可探索动态二分图在跨模态学习中的应用，或结合深度学习进行端到端优化。

（注：全文严格依据原文内容展开，专业术语如Iteratively Re-Weighted (IRW)、Coordinate Descent (CD)等首次出现时均标注英文全称，作者单位名称按要求处理，实验数据与结论均来自论文所述。）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号