
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多先验任务的动态异质图对比学习框架MTDG:多尺度知识捕获与表征优化
【字体: 大 中 小 】 时间:2025年06月16日 来源:Neurocomputing 5.5
编辑推荐:
针对动态异质图(DHGE)中单先验任务难以捕获多尺度知识的问题,研究人员提出基于多先验任务的自我监督对比学习框架MTDG。通过设计局部/全局/长时/短时四类编码器生成对比样本,结合单对比学习(4任务)与交叉对比学习(2任务),并引入随机噪声和混洗策略增强样本区分度。实验证明MTDG在12个真实数据集上优于11种基线模型,为动态图挖掘提供了新范式。
在数据爆炸的时代,图结构数据因其能直观表达实体(节点)与交互(边)关系而成为重要处理对象。然而,现实中的图数据往往具有两大挑战:一是异质性(节点和边类型多样),二是动态性(结构随时间演变)。传统静态异质图嵌入技术虽能保留结构与语义信息,却难以捕捉时序特征;而现有动态异质图嵌入(Dynamic Heterogeneous Graph Embedding, DHGE)方法多依赖监督学习,面临标注成本高、泛化性差等瓶颈。尽管自监督对比学习(self-supervised contrastive learning)通过数据增强生成正负样本,摆脱了对标注数据的依赖,但现有方法多聚焦单先验任务,无法全面捕获动态异质图中的多尺度知识。
为此,山东科技大学的研究团队在《Neurocomputing》发表研究,提出基于多先验任务的动态异质图对比学习框架MTDG。该研究通过四类编码器(局部/全局/长时/短时)生成多维度嵌入向量,设计单对比学习(优化局部、全局、长时、短时知识)与交叉对比学习(实现知识互补),并创新性引入可控随机噪声和混洗策略提升样本多样性。实验表明,MTDG在12个真实数据集上的链接预测任务中全面超越11种基线模型,为动态图挖掘提供了更强大的自监督解决方案。
关键技术方法包括:1)四类编码器设计:局部编码器通过注意力权重建模动态演化与邻居影响;全局编码器用高斯分布表征聚类嵌入;长时编码器基于Transformer捕获时序依赖;短时编码器结合GRU与可学习嵌入检测变化;2)六先验任务构建:单对比学习(4任务)与交叉对比学习(2任务);3)数据增强策略:L2
范数约束的随机噪声与序列混洗;4)动态平衡参数:调节单/交叉对比学习的权重。
研究结果:
结论与讨论:
MTDG的创新性体现在三方面:1)首次将多先验任务范式引入动态异质图对比学习,通过六类任务系统性地捕获局部-全局、长时-短时的多尺度知识;2)提出知识互补机制,交叉对比学习使不同维度信息相互增强,如局部-全局对比帮助识别异常连接;3)增强策略的普适性设计,可控噪声与混洗可迁移至其他图学习任务。该研究不仅为DHGE提供了新框架,其"分治-协同"的设计思路对复杂系统建模具有启示意义。未来可探索更多先验任务(如跨模态对比)及自适应噪声注入策略。
(注:全文严格依据原文内容展开,未添加非原文信息;专业术语如Transformer、GRU等均保留原名;作者单位按要求处理为中文名称;数学符号用/标签规范表示)
生物通微信公众号
知名企业招聘