基于实体Top-K稀疏化的联邦知识图谱嵌入高效通信方法研究

【字体: 时间:2025年07月25日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  为解决联邦知识图谱嵌入(FKGE)训练中参数规模大、通信轮次多导致的通信效率低下问题,研究人员创新性地提出基于实体Top-K稀疏化的双向通信优化方法FedS。该研究首次发现全局嵌入精度压缩会显著延缓收敛速度,进而设计动态识别Top-K重要实体的传输策略,配合间歇同步机制,在四个数据集上实现通信效率显著提升且性能损失可忽略。这项工作为带宽受限场景下的联邦知识图谱训练提供了新范式。

  

在人工智能与大数据时代,知识图谱(KG)作为结构化知识表示的重要工具,已广泛应用于推荐系统、智能问答等领域。然而现实场景中,知识图谱往往分散存储在不同机构,形成数据孤岛。联邦知识图谱嵌入(FKGE)技术应运而生,它允许多方在不共享原始数据的前提下协作训练模型。但现有方法面临严峻挑战:每次通信需要传输海量实体嵌入参数,在无线边缘网络等带宽受限场景下,高昂的通信成本可能使训练过程难以实施。

传统解决方案如FedE、FedEC等主要通过增加本地训练轮次来减少通信轮次,却忽视了单次通信的参数规模问题。更令人意外的是,当研究人员尝试引入知识蒸馏(KD)和低秩近似(LRA)等主流模型压缩技术时,发现即使适度压缩也会显著延缓收敛——这是因为全局统一的精度削减破坏了关键实体的嵌入质量。这一发现揭示了FKGE领域长期被忽视的核心矛盾:如何在压缩参数规模的同时,维持关键实体的嵌入精度?

针对这一挑战,新加坡南洋理工大学联合微众银行金融科技研究中心的研究人员提出了创新性解决方案FedS。该方法的核心是双向实体Top-K稀疏化策略:在上传阶段,客户端动态筛选变化幅度最大的Top-K实体嵌入;在下传阶段,服务器根据实体上传频率个性化选择Top-K聚合结果。为应对联邦知识图谱(FKG)的异构性导致的嵌入不一致问题,还设计了间歇同步机制定期全参数同步。

关键技术路线包含:(1)基于梯度变化的动态Top-K选择算法;(2)考虑客户端异构性的个性化聚合策略;(3)固定间隔的全参数同步机制。实验选用WN18RR等四个基准数据集,结合TransE等三种嵌入方法验证,通信量减少达50%时模型性能损失不超过1%。

研究结果部分显示:

  1. 通信效率分析:相比基线FedE,FedS在相同通信量下可将训练轮次减少35-60%;
  2. 精度保持验证:Top-K策略相比全局压缩能更好保留关键实体(如高频关系头尾实体)的嵌入质量;
  3. 异构性适应:间歇同步机制有效控制客户端间嵌入差异在0.05余弦相似度阈值内。

这项发表于《Knowledge-Based Systems》的研究具有多重意义:首次将通信参数规模控制引入FKGE优化维度,提出的实体级稀疏化思想可推广至其他联邦学习场景。技术实现上,动态Top-K选择与个性化聚合的协同设计,为处理分布式异构数据提供了新思路。实际应用中,该方法使移动设备等低带宽终端参与大规模知识图谱训练成为可能,对医疗、金融等隐私敏感领域的知识融合具有重要价值。作者团队特别指出,未来可探索自适应K值调整策略以进一步优化长尾实体处理效果。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号