
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于潜在样本图生成与密集图优化的节点分类驱动图分类方法研究
【字体: 大 中 小 】 时间:2025年06月26日 来源:Neurocomputing 5.5
编辑推荐:
针对多尺度图结构在生成潜在样本图时存在的随机性及模型稳定性问题,吉林大学团队提出新型框架NbG(Node Classification based Graph Classification),通过潜在样本图生成(LSGG)技术构建多粒度图结构,结合Transformer实现节点分类驱动的图分类。实验证明该方法在生物信息学、小分子和社交网络等7个数据集上优于现有技术,代码已开源。
在现实世界中,从蛋白质相互作用网络到社交关系图谱,图结构数据无处不在。近年来,图神经网络(Graph Neural Network, GNN)凭借其强大的邻居信息聚合能力,在生物网络、化学分子和交通网络等领域大放异彩。然而,当研究者们试图通过多尺度图结构提升下游任务性能时,却遭遇了棘手的"图结构困境"——由于数据分割的随机性,生成的潜在样本图往往需要反复调参,不仅增加预训练成本,更难以保证模型稳定性。这种困境在疾病预测等关键领域尤为突出,因为患者图谱间的潜在关系蕴含着重要诊断线索,但现有方法却囿于单样本特征聚合,忽视了样本间的隐秘关联。
吉林大学计算机科学与技术学院的研究团队在《Neurocomputing》发表的研究中,创造性地将节点分类与图分类的优势相融合,提出名为NbG(Node Classification based Graph Classification)的新型框架。该研究通过多图种群融合方法构建潜在样本图,开发了LSGG(Latent Sample Graph Generation)技术解决高连接图问题,并引入Transformer处理图尺寸差异带来的超参数挑战。令人振奋的是,在涵盖生物信息学、小分子和社交网络的7个基准数据集测试中,NbG展现出卓越的泛化能力,其性能超越现有最先进模型。
关键技术包括:1)基于多图种群融合的潜在样本图构建;2)针对高连接图优化的LSGG方法;3)Transformer驱动的节点分类模块;4)创新的边加权同质性度量指标。实验数据来自公开的生物医学和社交网络数据集。
【Graph classification】传统方法局限在单图结构学习,而NbG通过潜在样本图挖掘图间关系,突破性地将图分类转化为节点分类任务。
【Methodology】Graph-to-Node模块通过LSGG构建多尺度潜在样本图,Node Classification模块采用Transformer架构,二者协同实现跨粒度信息聚合。特别设计的边加权同质性指标(edge-weighted homophily)有效评估加权图的结构特性。
【Experiments and results】在MUTAG等7个数据集上的实验表明,NbG在分类准确率上平均提升3.8%,尤其在生物医学数据中表现出更强的特征捕获能力。消融研究验证了LSGG对模型稳定性的关键作用。
【Conclusion】该研究开创性地将节点分类范式引入图分类领域,通过双重信息聚合机制(图内结构与图间关系)实现性能突破。LSGG技术为大规模样本图处理提供新思路,Transformer的引入则有效缓解了超参数敏感性问题。未来工作可进一步探索动态图场景下的应用。
这项由Huayang Liu等人完成的研究,不仅获得国家自然科学基金(82071995)和吉林省自然科学基金(20250102219JC)支持,其开源代码更为领域发展提供了重要工具。正如研究者所言:"潜在关系不应仅限于节点之间,更应存在于图与图之间"——这一理念或将重塑我们对复杂系统建模的认知方式。
生物通微信公众号
知名企业招聘