GNS2CCL:一种基于图网络的半监督概念认知学习模型,用于节点分类

《Pattern Recognition》:GNS2CCL: A graph network semi-supervised concept-cognitive learning model for node classification

【字体: 时间:2025年12月28日 来源:Pattern Recognition 7.6

编辑推荐:

  本文提出基于局部图形式概念的半监督图神经网络概念认知学习模型,通过构建概念空间、动态更新伪标签实现高可解释性与动态学习能力,实验表明其分类准确率优于经典模型。

  
闫梦宇|李金海|王喜昭
昆明理工大学理学院,中国昆明,650500

摘要

半监督节点分类是图神经网络(GNNs)中的一个关键研究问题。尽管深度学习模型在分类任务中通常表现良好,但它们通常被视为“黑箱”模型,难以理解其决策过程。这在某些应用场景(如医疗诊断)中尤其不利,因为人们希望清楚地了解为何会得到特定的预测结果。然而,概念认知学习(concept-cognitive learning)展示了其优势,例如强大的可解释性、符合人类大脑认知方式以及良好的泛化性能。受概念认知学习优势的启发,我们建立了一个图概念认知学习模型来实现图网络半监督节点分类任务。具体来说,我们首先提出了局部图网络粒度概念(local graph network granular concept),然后讨论了这一概念的动态更新问题。此外,还构建了一个图网络半监督概念认知学习模型用于节点分类。该模型包括概念空间的构建、伪标记过程(pseudo-labeled process)和节点分类过程,保持了良好的可解释性。最后,选取了20个真实的图网络数据集进行控制实验,将所提出的模型与传统的半监督概念认知学习模型以及GNN中的传统半监督节点分类模型进行了比较,并评估了所提模型的动态学习能力。实验结果表明,所提出的模型不仅提高了分类准确性,还具备令人满意的鲁棒性和动态学习能力。

引言

节点分类[1]、[2]、[3]、[4]是图神经网络(GNNs)中的一个关键问题,其目标是根据GNN的特征和图结构将节点分类到特定类别中。节点分类过程的示意图如图1所示。通过解决节点分类问题,我们可以揭示节点之间的相似性和差异性,从而在推荐系统[5]、社交网络分析[6]、[7]、[8]等领域发挥重要作用。研究这一问题不仅可以提高数据分析的准确性和效率,还能推动各个领域的技术进步和创新。
在许多现实世界问题中,获取标记数据通常耗时且成本高昂,而获取未标记数据(如互联网上的未标记文本和未分类图像)相对容易。为了充分利用有限的标记数据和丰富的未标记数据来提升机器学习模型的泛化能力,半监督学习[9]、[10]受到了越来越多的关注,并从不同的角度进行了研究,例如集成学习[11]、动态学习[12]、[13]和多视图学习[14]。此外,半监督节点分类最近引起了学者们的极大兴趣,催生了多种创新方法和技术,有效提高了节点分类的准确性[15]。具体而言,图卷积网络(Graph Convolutional Network,GCN)[16]是首个将卷积操作应用于图结构数据处理的模型,并给出了具体的推导方法。随后,针对不同情况提出了多种半监督节点分类模型,包括图样本聚合(graphSAGE)[17]、图注意力网络(Graph Attention Networks,GAT)[18]、图同构网络(Graph Isomorphism Network,GIN)[19]、近似个性化神经预测传播(Approximate Personalized Propagation of Neural Predictions,APPNP)[20]、简单图卷积(Simple Graph Convolution,SGC)[21]、具有伪标记策略的可扩展自适应图神经网络(Scalable and Adaptive Graph Neural Networks,SAGN)[22]以及Possion-Charlier网络(PCNet)[23]。然而,上述节点分类模型在某种程度上都是“黑箱”模型,并存在可解释性问题。
概念认知学习(Concept-Cognitive Learning,CCL)旨在模拟人类大脑对数据的概念化过程,这种过程本质上是可解释的。CCL[24]、[25]、[26]、[27]强调了通过理解节点及其相互关系背后的概念来促进学习的必要性。因此,它能够更好地把握节点的语义信息,为分类提供更有价值的特征。CCL模型不仅在可解释性方面具有优势,在经典数据分类[28]、[29]、[30]、模糊数据分类[31]、社交网络[33]和交通预测[34]等方面也表现出一定的优越性。概念认知学习模型的基本思想是使用不同的概念(规则)来构建概念空间,然后通过概念空间和概念(规则)之间的相似性来执行分类任务。然而,现有的CCL模型主要模拟人类大脑从二元关系数据集中学习认知概念,这要么不适合图网络数据,要么无法挖掘对象之间的结构信息。鉴于现有CCL模型的这些不足,本文使用CCL方法来实现半监督节点分类任务。我们的工作不仅能够保持或提高节点分类效果,还具有良好的可解释性,因为我们能够了解哪些概念和特征对最终预测至关重要。
值得注意的是,闫梦宇等人[35]提出了图形式概念(graph formal concepts),并基于图网络数据进一步定义了这些概念。具体而言,全局图形式概念的条件更为严格,这意味着图中的一些局部信息通常会丢失;而局部图形式概念的条件相对较为宽松,意味着挖掘到的信息较为丰富。在半监督学习中,使用标记数据和大部分未标记数据来训练模型是至关重要的。这些未标记数据可以通过局部图形式概念挖掘更多相关信息,从而降低伪标签的错误率并提高分类准确性。因此,我们基于局部图形式概念设计了一个半监督概念认知学习模型。与现有的节点分类方法和CCL模型相比,所提模型的主要贡献如下:
  • 我们从概念认知学习的角度构建了一个半监督节点分类模型,该模型本身是可解释的。
  • 所提出的模型从局部图形式概念出发,能够从图网络中挖掘出比传统和全局图形式概念更多的信息,为后续的节点分类奠定了坚实的基础。
  • 所提模型中构建的概念空间对动态数据具有很强的适应性,可以直接体现在模型训练过程中。
本文的其余部分安排如下:第2节回顾了CCL和图论的一些基础知识。第3节讨论了在添加对象或属性时局部图形式概念的动态更新过程。第4节设计了一个图半监督概念认知学习模型,我们将其称为GNS2CCL,包括概念空间的构建、伪标记过程和预测过程。第5节选取了20个真实的图网络数据集,通过将其与传统的半监督CCL模型和GNN中的半监督节点分类模型进行比较,验证了所提模型的可行性和有效性,实验结果表明GNS2CCL模型在概念泛化、抗噪声能力和动态学习方面具有一定的优势。第6节总结了本文并提出了未来研究的一些方向。

节选内容

初步知识

本节主要介绍CCL和图论的一些基础知识。

局部图形式概念的动态更新

在实际应用中,图网络数据通常会随时间持续动态更新。以往的研究仅讨论了邻接矩阵或连接矩阵元素发生变化时局部图形式概念的动态更新情况,但这忽略了对象和属性也会发生变化的情况。因此,在这种情况下,局部图形式概念的动态更新仍然是一个需要进一步研究的关键问题。

图网络半监督概念认知学习模型

半监督学习的核心是在少量标记数据的情况下,通过对未标记数据的推理来分类和预测其结构和特征。为了充分利用未标记数据,有必要做出一些假设,将未标记数据揭示的数据分布信息与类别标签联系起来。该假设的本质是“相似的样本具有相似的输出”。在后续讨论中,我们使用X_L、X_U和X_T来表示相应的集合。

实验

在本节中,我们通过实验评估了所提出的GNS2CCL模型。具体来说,我们将GNS2CCL模型分别与传统的半监督概念认知学习模型和半监督GNN节点分类模型进行了比较,并进行了鲁棒性分析。最后,我们还评估了GNS2CCL的动态学习性能。
实验中使用的配置如下:CPU为Intel (R) Core (TM) i5-7200u CPU@2.50Hz,8.00GB内存,以及NVIDIA GeForce显卡。

结论

在本文中,我们提出了GNS2CCL模型用于节点分类,该模型不仅采用了全新的视角并具有自然的可解释性,还在分类准确性方面具有一定优势。具体而言,我们提出了局部图粒度概念(local graph granular concepts),这些概念能够有效模拟人类大脑对新事物的学习过程。此外,我们还基于粒度概念的动态更新设计了一种有效的分类算法。

CRediT作者贡献声明

闫梦宇:撰写——原始稿件、软件开发、数据整理。李金海:撰写——审稿与编辑、监督、调查、资金获取、形式分析。王喜昭:撰写——审稿与编辑、监督。

利益冲突声明

作者声明他们没有已知的财务利益冲突或个人关系可能会影响本文报告的工作。

致谢

本研究得到了国家自然科学基金(项目编号62476114和12171388)以及云南省基础研究项目(项目编号202401AV070009)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号