异质图高阶语义补全协同网络HGCCN:缺失属性表征学习的新范式

【字体: 时间:2025年06月03日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对异质图(Heterogeneous Graph)中节点属性缺失导致表征学习性能下降的问题,研究人员提出HGCCN模型,通过元路径(Meta-path)子图构建捕捉高阶语义信息,创新性采用扩散补全(Diffusion Completion)方法和图变换器(Graph Transformer)实现多子图协同交互。实验证明该方法在节点分类任务中显著优于现有技术,为生物网络、知识图谱等复杂系统建模提供新思路。

  

在现实世界的复杂系统中,从学术引用网络到蛋白质相互作用网络,数据往往以异质图(Heterogeneous Graph)的形式存在——包含多种节点类型(如论文、作者、期刊)和边类型(引用、合作)。然而,由于隐私保护或数据采集成本,这些图中高达40%的节点存在属性缺失问题。传统方法如AutoAC仅依赖一阶邻居信息补全,或机械堆叠不同补全策略,忽视了关键的高阶语义信息(如通过"论文-作者-论文"元路径揭示的潜在关联)和跨子图协同效应。这种缺陷导致下游任务如药物靶点预测或社交网络分析的准确率下降15%-30%。

贵州师范大学的研究团队在《Expert Systems with Applications》发表的研究中,提出HGCCN框架突破这一瓶颈。该工作通过三阶段创新:1)构建多维度元路径子图捕获高阶语义;2)设计扩散补全算法实现语义感知的属性传播;3)引入多头注意力图变换器融合跨子图信息。在IMDB等基准数据集上,节点分类F1值提升8.7%,尤其对稀疏属性场景(缺失率>50%)改善显著。

关键技术包括:1)基于元路径的异质子图构建;2)考虑节点类型投影的特征对齐;3)带重启随机游走(RWR)的高阶扩散补全;4)多子图注意力协同机制。实验使用三个公开数据集(含生物医学网络),采用5折交叉验证评估。

元路径子图构建
通过定义如"电影-导演-关键词"(MDK)等元路径,将原始异质图分解为多个同质子图。每个子图对应特定语义视角,例如在DBLP数据中,"作者-论文-会议"(APC)路径反映学术影响力。

扩散补全方法
提出双阶段补全:先通过类型特定投影层统一特征空间,再应用个性化PageRank算法实现K跳语义传播。数学上,补全过程表述为:
H(k) = αH(0) + (1-α)?H(k-1)
其中?是归一化邻接矩阵,α控制原始信息保留比例。该方法在ACM数据集上使补全属性与真实值的余弦相似度提高0.21。

协同交互模块
采用图变换器整合不同元路径子图的补全结果。关键创新是设计边感知注意力机制,计算节点i,j间注意力得分时融入元路径类型:
Attention = softmax((QKT)/√d + Φr)
这里Φr表示元路径r的可学习位置编码,使模型能区分"演员-电影"与"导演-电影"等不同语义关系。

下游任务验证
将HGCCN与SimpleHGN等异质图神经网络(HGNN)结合,在节点分类任务中实现82.3%的macro-F1,较基线最佳提高4.5%。消融实验显示,移除高阶扩散会使稀疏数据性能骤降12.6%,证明高阶语义的关键作用。

该研究的突破性在于首次将扩散模型与图变换器协同应用于属性补全任务。生物学网络中的应用表明,通过"基因-疾病-药物"元路径捕获的间接关联,能有效补全罕见病基因的特征。研究者指出未来可结合对比学习增强视图间一致性,或引入大语言模型处理文本属性。这项工作为处理真实世界不完整数据提供了通用框架,其代码已开源供社区验证拓展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号