TuTR:双层张量分解助力时序知识图谱补全的创新突破

【字体: 时间:2025年05月13日 来源:Expert Systems with Applications 7.5

编辑推荐:

  为解决时序知识图谱(TKG)的不完整性问题,提升下游应用性能,研究人员提出 TuTR 双层张量分解模型。实验显示,该模型在六个基准数据集上表现卓越,证明其能有效应对 TKG 挑战,对推动 TKG 研究意义重大。

  在当今数字化时代,知识图谱(Knowledge Graph,KG)作为一种强大的知识表示工具,广泛应用于众多领域,如智能问答系统、社交网络分析、医学推荐等。它将现实世界中的知识和事实以图结构的形式呈现,其中的节点代表实体,边则表示实体之间的关系。然而,传统的静态知识图谱(Static Knowledge Graph,SKG)存在一个显著的缺陷 —— 固有不完整性。例如,在关于人物关系的知识图谱中,可能会缺失某些人的亲属关系信息,这无疑会影响其在下游应用中的实际价值。于是,知识图谱补全(Knowledge Graph Completion,KGC)技术应运而生,旨在预测缺失的实体,以完善知识图谱。
但随着对知识建模要求的不断提高,人们发现静态知识图谱难以对那些仅在特定时间段内有效的知识和事实进行准确建模。例如,“Barack Obama 是美国总统” 这一事实仅在特定时期成立,如果忽略时间因素,会严重影响诸如问答系统等应用的准确性。为了更真实地进行知识推理,时序知识图谱补全(Temporal Knowledge Graph Completion,TKGC)成为研究热点。时序知识图谱中的事实以四元组(subject, relation, object, timestamp)的形式存在,TKGC 的任务便是预测潜在的四元组事实。

尽管在 TKGC 领域已经开展了大量研究,但现有的基于翻译和神经网络的方法在处理各种关系时,面临着表达能力弱和复杂度高的双重困境。基于规范多元(Canonical Polyadic,CP)分解的模型,如 ComplEX 和 TNTComplEX,虽然复杂度较低,但表达能力不足,只能表示部分时间关系,导致性能不佳;而基于塔克(Tucker)分解的模型,如 TuckER 和 TuckERT,虽然被证明具有完全的表达能力,却因核心张量的参数随维度呈指数增长,面临 “维度诅咒(Curse of Dimensionality,CoD)” 问题,过于复杂的模型容易出现过拟合现象,无法在实际的时序知识图谱中有效应用。因此,设计一个兼具强大表达能力和低复杂度的模型成为亟待解决的重要任务。

在这样的背景下,来自未知研究机构的研究人员提出了 TuTR(一种受塔克和张量环分解启发的新型双层张量分解模型),旨在突破现有困境,推动时序知识图谱补全技术的发展。该研究成果发表在《Expert Systems with Applications》上,具有重要的理论和实践意义。

研究人员在开展此项研究时,主要运用了塔克分解和张量环分解这两种关键技术方法。塔克分解用于将原始的时序知识图谱张量在外层分解为核心张量和分量矩阵,通过这种方式最大程度地利用事件之间的时间交互信息;张量环分解则应用于内层,设计了全连接的 TR 单元对核心张量进行重塑,以降低模型复杂度。研究过程中使用了六个 TKGC 基准数据集,包括 ICEWS14、ICEWS05 - 15、ICEWS18、GDELT、Wikidata12k 和 YAGO11k,这些数据集涵盖了不同领域的事件和事实信息,为模型的评估提供了丰富的数据支持。

提出的方法


  1. 什么是时序张量分解和 TKGC 的任务:研究人员指出,TKGC 的任务是预测潜在的四元组事实,而张量分解因其轻量化和易于训练的特点,在预测潜在事实方面展现出一定的潜力。通过将时序知识图谱表示为张量形式,对其进行分解,有望挖掘出其中隐藏的信息,从而实现对缺失事实的预测。
  2. 为什么直接从塔克分解扩展的现有模型(如 TuckerT)不切实际:塔克分解虽然具有强大的表达能力,但随着张量维度的增加,核心张量的参数数量会呈指数级增长,导致模型复杂度急剧上升,出现 “维度诅咒” 问题。这不仅使得模型的计算成本大幅增加,还容易引发过拟合现象,使得模型在实际应用中的效果大打折扣,因此直接扩展塔克分解的现有模型难以满足实际需求。
  3. 模型如何从本质上应对上述挑战:TuTR 模型采用双层结构,外层通过塔克分解将原始 KG 张量分解为核心张量和因子矩阵,因子矩阵可视为各阶的线性变换矩阵,核心张量则用于捕捉实体和关系之间的潜在交互。内层设计了新的时间张量环(TR)分解,引入m个三阶 TR 张量作为基础空间(即 TR 张量单元),这些单元能够在任意两个核心张量之间建立潜在连接,而不仅仅局限于相邻的核心张量。通过这种方式,外层的高阶核心张量可以用较少的三阶张量参数进行分解,有效降低了模型复杂度,同时保留了塔克分解的强交互和表达能力。
  4. 如何证明模型复杂度低且具有完全表达能力:研究人员从理论上证明了 TuTR 模型具有完全表达能力,能够覆盖时序知识图谱中的所有关系类型,并通过学习区分正事实和负事实。在复杂度方面,由于 TR 分解的复杂度与核心张量的阶数呈线性关系,通过内层的 TR 分解,有效减少了外层核心张量中指数级增长的参数数量,从而确保了模型具有较低的复杂度。

数据集


研究人员利用六个 TKGC 基准数据集进行评估。ICEWS14、ICEWS05 - 15 和 ICEWS18 均为综合危机预警系统的子集,分别包含 2014 年、2005 - 2015 年和 2018 年发生的政治事件;GDELT 存储人类行为信息;Wikidata12k 和 YAGO11k 中的事实包含了丰富的各类知识信息。这些数据集为全面评估 TuTR 模型的性能提供了有力支撑。

研究结果


通过在六个基准数据集上的实验,TuTR 模型展现出了卓越的性能。在命中率(Hit@1)指标上达到了 20%,并且相比最先进的基线模型,速度提升了 9.3 倍。这表明 TuTR 模型能够更准确、更高效地预测时序知识图谱中的潜在事实。同时,在数据有限或存在噪声的场景下,TuTR 模型也未出现过拟合现象,证明了其良好的稳定性和泛化能力。此外,该模型还具有一个显著优势,即可以采用统一的超参数,无需进行刻意设计,这大大提高了模型的实用性和便捷性。

研究结论和讨论


TuTR 模型的提出是时序知识图谱补全领域的一项重要突破。它创新性地结合了塔克分解的强大表达能力和张量环分解的结构灵活性,在有效捕捉实体和关系之间潜在交互的同时,成功降低了模型复杂度,实现了强表达能力和低复杂度的完美平衡。通过理论证明和大量实验验证,TuTR 模型不仅在性能上超越了大多数现有方法,还展现出良好的稳定性和泛化能力。这一研究成果为时序知识图谱补全技术的发展开辟了新的道路,为后续相关研究提供了重要的参考和借鉴,有望在智能问答、信息检索、决策支持等众多领域得到广泛应用,推动相关领域的技术进步和发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号