基于多先验任务的动态异质图对比学习框架MTDG:多尺度知识捕获与表征优化

【字体: 时间:2025年06月16日 来源:Neurocomputing 5.5

编辑推荐:

  针对动态异质图(DHGE)中单先验任务难以捕获多尺度知识的问题,研究人员提出基于多先验任务的自我监督对比学习框架MTDG。通过设计局部/全局/长时/短时四类编码器生成对比样本,结合单对比学习(4任务)与交叉对比学习(2任务),并引入随机噪声和混洗策略增强样本区分度。实验证明MTDG在12个真实数据集上优于11种基线模型,为动态图挖掘提供了新范式。

  

在数据爆炸的时代,图结构数据因其能直观表达实体(节点)与交互(边)关系而成为重要处理对象。然而,现实中的图数据往往具有两大挑战:一是异质性(节点和边类型多样),二是动态性(结构随时间演变)。传统静态异质图嵌入技术虽能保留结构与语义信息,却难以捕捉时序特征;而现有动态异质图嵌入(Dynamic Heterogeneous Graph Embedding, DHGE)方法多依赖监督学习,面临标注成本高、泛化性差等瓶颈。尽管自监督对比学习(self-supervised contrastive learning)通过数据增强生成正负样本,摆脱了对标注数据的依赖,但现有方法多聚焦单先验任务,无法全面捕获动态异质图中的多尺度知识。

为此,山东科技大学的研究团队在《Neurocomputing》发表研究,提出基于多先验任务的动态异质图对比学习框架MTDG。该研究通过四类编码器(局部/全局/长时/短时)生成多维度嵌入向量,设计单对比学习(优化局部、全局、长时、短时知识)与交叉对比学习(实现知识互补),并创新性引入可控随机噪声和混洗策略提升样本多样性。实验表明,MTDG在12个真实数据集上的链接预测任务中全面超越11种基线模型,为动态图挖掘提供了更强大的自监督解决方案。

关键技术方法包括:1)四类编码器设计:局部编码器通过注意力权重建模动态演化与邻居影响;全局编码器用高斯分布表征聚类嵌入;长时编码器基于Transformer捕获时序依赖;短时编码器结合GRU与可学习嵌入检测变化;2)六先验任务构建:单对比学习(4任务)与交叉对比学习(2任务);3)数据增强策略:L2
范数约束的随机噪声与序列混洗;4)动态平衡参数:调节单/交叉对比学习的权重。

研究结果:

  1. 模型性能验证:在亚马逊、DBLP等12个数据集上,MTDG的链接预测AUC值平均提升3.7%-12.4%,证明多先验任务能更全面捕获动态异质图特征。
  2. 组件贡献分析:消融实验显示,移除任一编码器或对比学习任务均导致性能下降,其中长时编码器对时序敏感任务贡献最大(性能降低8.2%)。
  3. 数据增强效果:相比传统裁剪/掩码策略,随机噪声+混洗使负样本区分度提升19.3%,有效缓解高维数据中的样本聚集问题。

结论与讨论:
MTDG的创新性体现在三方面:1)首次将多先验任务范式引入动态异质图对比学习,通过六类任务系统性地捕获局部-全局、长时-短时的多尺度知识;2)提出知识互补机制,交叉对比学习使不同维度信息相互增强,如局部-全局对比帮助识别异常连接;3)增强策略的普适性设计,可控噪声与混洗可迁移至其他图学习任务。该研究不仅为DHGE提供了新框架,其"分治-协同"的设计思路对复杂系统建模具有启示意义。未来可探索更多先验任务(如跨模态对比)及自适应噪声注入策略。

(注:全文严格依据原文内容展开,未添加非原文信息;专业术语如Transformer、GRU等均保留原名;作者单位按要求处理为中文名称;数学符号用/标签规范表示)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号