基于多先验任务的动态异质图对比学习框架MTDG：多尺度知识捕获与表征优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月16日 来源：Neurocomputing 5.5

编辑推荐：

　　针对动态异质图(DHGE)中单先验任务难以捕获多尺度知识的问题，研究人员提出基于多先验任务的自我监督对比学习框架MTDG。通过设计局部/全局/长时/短时四类编码器生成对比样本，结合单对比学习（4任务）与交叉对比学习（2任务），并引入随机噪声和混洗策略增强样本区分度。实验证明MTDG在12个真实数据集上优于11种基线模型，为动态图挖掘提供了新范式。

在数据爆炸的时代，图结构数据因其能直观表达实体（节点）与交互（边）关系而成为重要处理对象。然而，现实中的图数据往往具有两大挑战：一是异质性（节点和边类型多样），二是动态性（结构随时间演变）。传统静态异质图嵌入技术虽能保留结构与语义信息，却难以捕捉时序特征；而现有动态异质图嵌入(Dynamic Heterogeneous Graph Embedding, DHGE)方法多依赖监督学习，面临标注成本高、泛化性差等瓶颈。尽管自监督对比学习(self-supervised contrastive learning)通过数据增强生成正负样本，摆脱了对标注数据的依赖，但现有方法多聚焦单先验任务，无法全面捕获动态异质图中的多尺度知识。

为此，山东科技大学的研究团队在《Neurocomputing》发表研究，提出基于多先验任务的动态异质图对比学习框架MTDG。该研究通过四类编码器（局部/全局/长时/短时）生成多维度嵌入向量，设计单对比学习（优化局部、全局、长时、短时知识）与交叉对比学习（实现知识互补），并创新性引入可控随机噪声和混洗策略提升样本多样性。实验表明，MTDG在12个真实数据集上的链接预测任务中全面超越11种基线模型，为动态图挖掘提供了更强大的自监督解决方案。

关键技术方法包括：1）四类编码器设计：局部编码器通过注意力权重建模动态演化与邻居影响；全局编码器用高斯分布表征聚类嵌入；长时编码器基于Transformer捕获时序依赖；短时编码器结合GRU与可学习嵌入检测变化；2）六先验任务构建：单对比学习（4任务）与交叉对比学习（2任务）；3）数据增强策略：L₂
范数约束的随机噪声与序列混洗；4）动态平衡参数：调节单/交叉对比学习的权重。

研究结果：

模型性能验证：在亚马逊、DBLP等12个数据集上，MTDG的链接预测AUC值平均提升3.7%-12.4%，证明多先验任务能更全面捕获动态异质图特征。
组件贡献分析：消融实验显示，移除任一编码器或对比学习任务均导致性能下降，其中长时编码器对时序敏感任务贡献最大（性能降低8.2%）。
数据增强效果：相比传统裁剪/掩码策略，随机噪声+混洗使负样本区分度提升19.3%，有效缓解高维数据中的样本聚集问题。

结论与讨论：
MTDG的创新性体现在三方面：1）首次将多先验任务范式引入动态异质图对比学习，通过六类任务系统性地捕获局部-全局、长时-短时的多尺度知识；2）提出知识互补机制，交叉对比学习使不同维度信息相互增强，如局部-全局对比帮助识别异常连接；3）增强策略的普适性设计，可控噪声与混洗可迁移至其他图学习任务。该研究不仅为DHGE提供了新框架，其"分治-协同"的设计思路对复杂系统建模具有启示意义。未来可探索更多先验任务（如跨模态对比）及自适应噪声注入策略。

（注：全文严格依据原文内容展开，未添加非原文信息；专业术语如Transformer、GRU等均保留原名；作者单位按要求处理为中文名称；数学符号用_{/^{标签规范表示）}}

热点排行

新闻专题

联系信箱：

粤ICP备09063491号