编辑推荐:
推荐:现有加权网络聚类方法常忽略节点权重分配能力对边权重的影响,导致结果偏重总权重而非交互模式。本文提出 Dirichlet 随机块模型(DirSBM),通过 Dirichlet 混合直接建模组合权重向量,结合分类期望最大化算法推断。模拟和真实数据验证其有效,为加权网络聚类提供新方法。
在网络数据分析领域,如何有效对加权网络进行聚类一直是重要课题。传统方法直接使用原始边权重,忽视节点分配权重能力的影响,导致聚类结果更多反映节点总权重能力而非具体交互模式。例如在交通、贸易等网络中,节点规模差异会使原始权重聚类偏向规模分组,而非真实交互偏好。为解决这一问题,研究人员开展了针对组合加权网络的聚类模型研究。
来自相关研究机构的学者提出了一种适用于组合加权网络的 Dirichlet 随机块模型(Dirichlet Stochastic Block Model, DirSBM)。该研究通过将边权重转换为组合形式(即各边权重占发送或接收节点权重能力的比例),利用 Dirichlet 混合模型直接建模组合权重向量,参数由发送和接收节点的簇标签决定,并通过扩展分类期望最大化(EM)算法进行推断,同时推导了模型选择准则以确定最优簇数。研究成果发表在《Computational Statistics 》上,为加权网络聚类提供了新的思路和方法。
研究中主要采用的关键技术方法包括:1. 组合数据转换,将原始边权重转换为相对比例形式,消除节点总权重能力的影响;2. Dirichlet 混合模型建模,利用 Dirichlet 分布的特性处理组合数据的单位和约束;3. 分类 EM 算法,用于模型参数估计和潜簇分配推断;4. 模型选择准则(ICL),用于确定最优簇数;5. 多种初始化策略(随机、k-means、谱聚类等)对比,优化算法初始状态。
5.1 初始化策略选择
通过模拟 50 个含 3 个簇、50 节点的网络,对比随机、k-means、谱聚类等初始化策略。结果表明随机初始化平均调整兰德指数(ARI)最高(0.805),虽未利用数据信息,但能有效探索分区空间,避免陷入局部最优,且在多数情况下获得最高对数似然值。
5.2 参数估计性能
在不同簇数(2、3、5)和参数同质性水平下,随着网络规模增大(30-100 节点),参数估计的 Frobenius 距离减小,表明模型参数估计精度随节点数增加而提高。低同质性时估计更准确,高同质性及更多簇数时挑战较大。
5.3 聚类结构恢复
对比 Binary SBM、GausSBM、CLR+GausSBM 和 DirSBM,DirSBM 在多数场景下 ARI 更高,尤其在小网络和高同质性时优势显著。CLR+GausSBM 在 2 簇时表现较好,但 DirSBM 在多簇时更稳定。
5.4 模型选择性能
集成完成似然(ICL)准则在大网络中能准确选择真实簇数,但在小网络、高同质性或多簇时易低估簇数,这与参数估计难度和簇分离度有关。
5.5 零权重边影响
引入零权重边(比例 p?)的模拟显示,DirSBM 在处理含零权重边数据时,通过小常数填充可保持稳定性能,参数估计和聚类效果受零权重比例影响较小,表明模型对稀疏数据有一定鲁棒性。
研究结论表明,DirSBM 通过组合数据建模有效解决了传统加权网络聚类忽视节点权重分配能力的问题,在不同网络规模和结构下表现出良好的聚类性能和参数估计准确性。其优势在于直接处理组合数据的单位和约束,避免了传统变换方法的分布假设限制,且参数具有明确的实际解释(如簇间期望交换比例)。模型选择准则 ICL 为簇数确定提供了有效依据,多种初始化策略增强了算法适用性。该研究为交通、金融、生物等领域的加权网络分析提供了可靠工具,尤其在处理相对权重数据时具有显著优势,推动了组合数据在网络聚类中的应用和发展。