
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多尺度加权配对粗化与对比学习的属性图聚类模型MPCCL研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Neurocomputing 5.5
编辑推荐:
为解决属性图聚类中长程依赖捕获不足、特征坍塌及信息丢失等问题,研究人员提出多尺度加权配对粗化与对比学习模型MPCCL。该模型通过全局相似性优先的节点合并策略保留关键结构信息,结合“一对多”对比学习机制增强特征多样性,在ACM等数据集上实现NMI指标最高提升17.84%,为社交网络分析、生物信息学等领域提供新工具。
在信息爆炸时代,数据间的复杂关联蕴含着丰富价值,而属性图(Attributed Graph)作为融合拓扑结构与节点特征的载体,已成为社交网络分析、生物信息学等领域的关键工具。然而,现有属性图聚类技术面临三重困境:图神经网络(GNN)因局部感受野难以捕捉长程依赖,对比学习方法易受局部邻居偏差导致特征坍塌,而传统图粗化(Graph Coarsening)虽能降维却牺牲细粒度结构信息。这些问题严重制约了聚类性能,尤其在处理具有长尾分布的复杂图数据(如Cora文献引用网络)时表现尤为突出。
针对这些挑战,成都大学的研究团队在《Neurocomputing》发表了一项创新研究,提出多尺度加权配对粗化与对比学习模型MPCCL。该研究通过多尺度图粗化策略分层捕获全局结构特征,结合改进的对比学习机制增强特征判别力,最终在ACM、Reuters等数据集上实现归一化互信息(NMI)最高提升17.84%,为属性图聚类领域树立了新标杆。
研究团队采用四项核心技术:1)基于全局相似性的加权配对粗化算法,优先合并全图范围内高相似节点对;2)“一对多”对比学习框架,通过聚类中心对比增强特征多样性;3)拉普拉斯正则化(Laplacian Regularization)确保节点表征平滑性;4)图卷积网络(GCN)编码器与重构损失联合优化。实验选用ACM、DBLP等5个基准数据集,涵盖学术文献和新闻文本等多模态数据。
多尺度图粗化的结构保留机制
通过逐层粗化保留高权重边对应的全局相似节点对,实验证明该策略使ACM数据集聚类性能提升15.24%,有效解决传统方法因局部偏好导致的信息丢失问题。
对比学习与特征增强
引入KMeans生成的簇中心作为对比锚点,使低频节点特征向高频节点靠拢。消融实验显示,该设计使模型在Citeseer数据集上鲁棒性提升9.6%。
跨尺度一致性保障
结合KL散度(Kullback-Leibler Divergence)与图重构损失,确保不同粗化尺度下节点表征的连贯性,在DBLP数据集上显著缓解过平滑现象。
讨论与结论
MPCCL的创新性体现在三方面:其一,加权粗化策略突破传统GNN的局部视野限制;其二,簇中心对比机制打破特征坍塌桎梏;其三,多尺度协同优化实现结构-特征双维度信息互补。值得注意的是,在具有长尾分布的Cora数据集上,模型通过分层粗化有效平衡了高度连接节点与边缘节点的信息传播效率。该研究不仅为知识图谱构建、疾病分子网络分析等场景提供新方法,其正则化对比学习框架更为图表示学习领域带来普适性启示。未来工作可探索粗化尺度自适应选择机制,进一步提升模型在超大规模图数据上的适用性。
生物通微信公众号
知名企业招聘