《Neurocomputing》:Graph entropy minimization for semi-supervised node classification
编辑推荐:
节点分类在图系统中的应用需兼顾预测精度、内存效率和推理速度,本文提出半监督学习方法Graph Entropy Minimization(GEM),通过熵最小化扩展长程信息传播,在浅层GNN中仍保持高效,并配合边缘熵最小化(EEM)和在线知识蒸馏(OKDEEM)优化训练和推理效率,实验表明其优于传统基线方法。
罗毅|孙旭|罗光春|秦珂|陈爱国
中国电子科技大学,四川省成都市高新区(西区)西园大道2006号,611731
摘要
节点分类是基于图的系统(如推荐系统和社交网络)中的基本任务。在这些应用中,需要具备预测准确、训练时内存效率高且推理速度快的节点分类器。然而,现有的学术方法大多只关注这三个方面中的一个或两个,而忽略了其他方面,这限制了它们在现实世界中的实用性。为了同时应对这三个挑战,我们提出了一种称为图熵最小化(Graph Entropy Minimization,简称GEM)的半监督学习方法。通过理论分析和实证研究,我们证明了GEM能够隐式扩展信息传播的范围,从而在性能上优于深度图神经网络(GNN)。即使将GEM应用于具有有限卷积层的浅层GNN时,这种长距离传播能力仍然得以保持,这使得mini-batch训练成为可能,从而提高了内存效率。我们还提出了一种在线知识蒸馏方法,用于生成多层感知器以实现低延迟推理,同时仍保持较高的准确性和训练效率。在八个真实世界数据集上的实验结果表明,我们的方法通常优于或达到了强大的基线算法。因此,GEM为在内存受限的硬件上运行的对延迟敏感和错误敏感的服务提供了一种高效且有效的解决方案。代码可在以下链接获取:
https://github.com/cf020031308/GEM。
章节摘录
背景与相关工作
节点分类是基于图的系统中的基本任务,其目标是根据一些已分类节点的现有数据模式为图节点分配标签。这一任务在各种现实世界应用中非常普遍,例如社交网络中的朋友推荐[1]、分子图中的属性回归[2]、交通网络中的速度预测[3]、引文网络中提交手稿的领域匹配[4]以及问答系统[5]等。
初步介绍
给定一个图 ,其中包含 个节点和 条边, 表示节点特征,其 行 是节点 的特征向量; 表示邻接矩阵,当且仅当存在边 时,该矩阵在 行 列处的元素值为 1。图神经网络(GNN)利用 和 来预测节点标签 ,因此我们将GNN的输出表示为 ,并通过温度缩放器 对其预测结果进行缩放,得到 ,其中 是Softmax函数。
方法论
在本节中,我们介绍了图熵最小化(GEM)作为一种缓解标签不足带来的挑战的方法。我们还提出了边熵最小化(Edge Entropy Minimization,简称EEM),以促进使用边mini-batch进行GEM的训练。此外,我们提出了在线知识蒸馏EEM(Online Knowledge Distillation EEM,简称OKDEEM),旨在通过非跳跃聚合来提升我们方法的整体性能和效率。
实验
在本节中,我们进行了多项实验来验证我们提出方法的性能,包括在标签稀缺情况下的节点分类能力、内存效率和推理速度。
结论
本研究提出了一套方法,包括图熵最小化(GEM)、边熵最小化(EEM)和在线知识蒸馏EEM(OKDEEM),旨在减少现实世界应用中的预测错误、训练资源需求和推理延迟。理论分析和实验结果证实了这些方法在利用有限标记数据和大量未标记数据来最小化预测错误方面的有效性。
CRediT作者贡献声明
罗毅:撰写初稿、软件开发、方法论设计、形式化分析、概念构建。孙旭罗光春秦珂陈爱国
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
本研究得到了四川省科技计划的支持(项目编号:2024ZDZX0011和2023ZYD0165)。
罗毅于2010年获得中国南开大学数学科学学院的学士学位。他目前是中国电子科技大学信息与软件工程学院的博士研究生,研究方向包括图神经网络和隐私计算。