GraphBSSN:一种面向类别不平衡图节点分类的边界样本生成与相似节点采样方法

【字体: 时间:2025年07月31日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  针对图神经网络(GNNs)在类别不平衡图中对少数类节点表征不足的问题,山东科技大学团队提出GraphBSSN框架,通过边界样本合成(Boundary Samples)和相似节点采样(Similar Nodes)策略,有效扩展少数类决策边界并优化拓扑结构。实验证明该方法在8个真实数据集上显著提升分类性能,为图数据不平衡问题提供新思路。

  

在人工智能领域,图神经网络(Graph Neural Networks, GNNs)已成为处理图结构数据的利器,尤其在节点分类任务中表现突出。然而现实世界的图数据往往存在令人头疼的"偏科"现象——某些类别(如虚假用户检测中的真实用户)样本数量远超其他类别,这种类别不平衡(class imbalance)问题导致GNN模型容易变成"多数派代言人",对少数类节点的分类准确率急剧下降。现有解决方案虽分为生成式方法和损失函数修正法两大阵营,但前者常陷入生成样本特征空间被压缩、拓扑结构失真的困境,后者则难以充分利用图结构的内在特性。

针对这一挑战,山东科技大学计算机科学与工程学院的研究团队在《Knowledge-Based Systems》发表创新成果,提出名为GraphBSSN的新型生成框架。该工作直击当前生成式方法的两大痛点:一是少数类决策边界被多数类挤压的问题,二是合成节点拓扑结构不合理的问题。研究人员创造性地将边界样本合成(Boundary Sample Synthesis)与相似节点采样(Similar Node Sampling)相结合,通过双管齐下的策略实现"特征-拓扑"协同优化。

关键技术路线包含两大核心:首先设计边界感知的特征合成策略,在特征空间中有意识地将合成节点定位在靠近多数类的边界区域,从而有效扩展少数类的决策边界;其次开发基于相似节点的拓扑建模方法,通过引入特征相似的原生节点来丰富合成节点的邻居分布,而非仅依赖源节点与目标节点的邻居信息。这些创新使GraphBSSN在保持方法简洁性的同时,显著提升生成样本的质量。

研究结果部分显示,在8个真实世界数据集上的系统实验验证了方法的优越性。在长尾分布(long-tailed)和阶梯式不平衡(step imbalance)两种典型场景下,GraphBSSN在F1-score和G-mean等关键指标上均超越GraphSMOTE、GraphENS等基线模型。特别值得注意的是,边界样本合成策略使少数类边界区域的分类准确率提升12.7%,而相似节点采样则使合成节点的拓扑合理性指标提高9.3%。消融实验进一步证实,两个创新模块具有显著的协同效应。

该研究的理论价值在于为图数据不平衡问题提供了新的解决思路:通过主动式边界扩展而非被动式样本补偿来应对类别不平衡,通过全局相似性引导而非局部邻居采样来构建拓扑。实践意义则体现在其简洁高效的框架设计,仅需O(|V|d)的时间复杂度即可实现高质量样本生成。正如作者团队在结论部分强调的,这项工作不仅为GNN在金融风控、医疗诊断等实际场景的应用扫除障碍,其"边界扩张+拓扑优化"的双轨思路对图数据增强领域也具有普适性启示。未来研究可望沿此方向,探索动态边界调整和多重相似性度量等延伸课题。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号