高效的基于簇的键时间戳发现方法,用于时序知识图谱的补全

《Knowledge-Based Systems》:Efficient Cluster-guided Key Timestamp Discovery for Temporal Knowledge Graph Completion

【字体: 时间:2025年10月10日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  时间滞后问题求解,基于聚类指导的关键时间戳发现与对比学习提升时序知识图谱补全效果。

  近年来,知识图谱(Knowledge Graphs, KGs)在知识表示和完成领域扮演着至关重要的角色。它们通过构建实体之间的结构化关系框架,为知识组织提供了一种有效的范式,并在推荐系统、现代教育等多个实际应用场景中展现出显著的价值。然而,传统的知识图谱由于其静态的表示方式,难以适应新实体和关系的动态出现。为了解决这一问题,研究人员提出了时间知识图谱(Temporal Knowledge Graphs, TKGs),旨在捕捉事实随时间的演变,从而更深入地理解数据的时序动态特性。一个典型的TKG由与特定时间点或时间段相关联的事实组成,每个事实可以表示为一个四元组(主体,关系,客体,时间戳)。尽管当前的TKG包含大量事实,但仍然存在事实不完整的问题。许多现有的方法虽然能够处理大量信息,但在事实完整性方面仍有不足,使得提升TKG完成能力成为亟待解决的研究课题。

TKG完成的核心目标是基于已有历史信息推断缺失的事实。为了实现这一目标,准确识别实体和关系之间的历史交互尤为重要。以往的研究通常采用图神经网络(Graph Neural Networks, GNNs)来捕捉结构和演变的相关性。近年来,最先进的方法进一步扩展了GNNs框架,通过整合整个历史信息来学习更全面的TKG表示。例如,TiRGN通过捕捉全局的重复模式来限制预测范围,RPC则提出了跨不同KG快照的周期性时间信息建模方法,LogCL则构建特定子图来捕捉与查询相关的两跳历史事实,从而获取更丰富的语义信息。这些方法在一定程度上提高了TKG完成的性能,但在关键时间点的识别方面仍存在局限。

一方面,由于聚合相邻结构信息对于完成任务至关重要,大多数现有模型采用固定长度的KG序列来建模实体的演变表示。然而,这种固定策略限制了模型识别查询相关关键时间点的能力。借鉴认知科学中广为人知的双过程理论,人类在不同时间段对历史事件的关注程度会发生变化,尤其是在关键时间点上,这种变化更为明显。因此,有效的完成应同样关注这些关键时间点。另一方面,这些模型在过滤同一历史序列中无关的KG快照方面也面临挑战,这会带来负面影响。以图1所示的例子来看,现有模型(如RPC和LogCL)仅能捕捉与查询(如“日本,拒绝协议”)相关的信息,位于时间戳t-2处,而固定长度的设定则限制了它们跨越边界,获取关键时间点t_k处的相关事实。由于t_k处的事实代表了日本与朝鲜关系的重要转折点,现有方法可能会忽略大量有价值的信息,甚至错误地得出“日本男性”是答案的结论。相比之下,如果关键时间点t_k出现在固定长度之后,现有方法可能会引入冗余信息,影响预测的准确性。因此,在预测过程中,关键时间点无法被灵活识别,从而导致所谓的“时间滞后”问题。

为了解决这一问题,我们提出了一种新颖的基于聚类引导的关键时间点发现方法,结合对比学习,用于TKG完成任务,称为CutTKG。该模型旨在有效识别历史KG序列中的关键时间点,并通过对比相关历史与无关历史来提升完成性能。具体而言,为了防止时间滞后,我们首先利用一个指令微调的语言模型,高效地引导KG中关系的聚类。通过关系聚类,我们随后进行时间分析,根据查询灵活识别关键时间点。在获得关键时间点后,我们将历史KG序列自然地划分为相关历史和无关历史两个视角,如图2所示。随后,我们设计了不同的编码器,用于从这两个视角中学习实体的表示。最后,我们提出了一种历史视角的对比学习策略,将无关历史视为对比背景,从而减少其对相关表示的负面影响,进一步提升实体的表示能力,以实现更优的TKG完成效果。广泛的实验表明,我们的CutTKG模型在四个基准数据集上取得了新的最先进的结果。

综上所述,本文的主要贡献如下:首先,我们提出了一种利用指令微调语言模型引导关系聚类的方法,以灵活识别与查询相关的关键时间点。据我们所知,这是首次尝试在TKG完成任务中解决“时间滞后”问题。其次,我们引入了历史视角的对比学习策略,用于训练相关与无关视角的对比表示,从而更专注于关键信息,提升完成效果。最后,我们在四个公开的TKG数据集上进行了广泛的实验,验证了所提出CutTKG模型的有效性。实验结果表明,该模型在性能方面达到了新的水平,并在多个强基线模型上取得了显著的提升。

本文的其余部分结构如下。第二部分概述了研究目标,第三部分系统地回顾了相关文献。第四部分定义了关键符号,正式提出了TKG完成任务的问题,并详细介绍了CutTKG模型。第五部分通过全面的实验评估了我们的方法。第六部分深入讨论了模型的理论和实际意义。最后,第七部分总结了本文,并提出了未来的研究方向。

在本研究中,我们的主要目标是精准识别时间知识图谱中的关键时间点,从而区分相关与不相关的事实,进而提升知识图谱完成的效率。为了实现这一目标,我们提出了两个核心研究方向:首先,引入一种基于聚类引导的方法,该方法能够自适应地识别历史知识图谱中的关键时间点,有效缓解“时间滞后”问题。其次,设计一种对比学习策略,以减少无关信息对完成效果的干扰。通过这些方法,我们希望在知识图谱的动态演化过程中,能够更准确地捕捉到关键信息,提高预测的准确性。

在知识图谱完成任务中,已有研究主要分为静态知识图谱完成和时间知识图谱完成两个方向。静态知识图谱完成主要关注实体和关系之间的显式联系,而时间知识图谱完成则进一步考虑时间维度,以捕捉事实随时间的演变过程。近年来,时间知识图谱完成成为研究的热点,因为其能够更全面地反映数据的动态特性。然而,现有的方法在关键时间点的识别和相关历史的过滤方面仍存在不足,导致在完成过程中可能出现时间滞后问题。

为了解决这一问题,我们提出了一种新的方法——CutTKG。该方法结合了聚类引导和对比学习,旨在有效识别关键时间点,并通过对比相关历史与无关历史来提升完成效果。具体而言,我们首先利用指令微调的语言模型,对知识图谱中的关系进行高效聚类,从而识别与查询相关的关键时间点。通过这一过程,我们能够将历史事实划分为相关和无关的两个部分。接着,我们设计了两种不同的编码器,分别用于学习这两个视角下的实体表示。最后,我们提出了一种对比学习策略,将无关历史作为对比背景,从而减少其对相关表示的负面影响,进一步提升实体的表示能力,以实现更优的TKG完成效果。

CutTKG模型的核心思想在于,通过聚类引导的方式,识别与查询相关的关键时间点,从而避免因固定长度设定导致的时间滞后问题。传统方法通常采用固定长度的序列来建模实体的演变,这使得它们在识别关键时间点时存在局限。而CutTKG则通过引入指令微调的语言模型,对关系进行聚类分析,从而更灵活地识别关键时间点。这一过程能够帮助模型更好地理解事实的演变趋势,并在关键时间点处进行更精准的预测。

在具体实现上,我们首先对知识图谱中的关系进行聚类,从而提取出与查询相关的关键时间点。这一聚类过程能够帮助模型识别哪些事实对完成任务更为重要。随后,我们将历史事实划分为相关和无关的两个部分,并分别使用不同的编码器来学习实体的表示。相关部分的编码器专注于与查询相关的时间点,而无关部分的编码器则用于捕捉背景信息。通过这种方式,我们能够减少无关信息对完成效果的干扰,同时提升相关信息的识别能力。

为了进一步提升模型的性能,我们设计了一种对比学习策略。该策略通过对比相关和无关的历史视角,使得模型能够更有效地聚焦于关键信息。具体而言,我们将无关历史作为对比背景,从而减少其对相关表示的负面影响。通过这种方式,模型能够更准确地捕捉到与查询相关的时间点,并在这些时间点上进行更有效的预测。对比学习策略的引入,使得模型能够在不相关信息的干扰下,依然保持较高的预测准确性。

CutTKG模型的另一个重要特点是其在实际应用中的有效性。通过广泛的实验,我们验证了该模型在四个基准数据集上的表现。实验结果表明,CutTKG在多个强基线模型上取得了显著的提升,并在性能方面达到了新的水平。这说明,我们的方法不仅在理论上具有创新性,而且在实际应用中也展现出良好的效果。

此外,CutTKG模型还具有良好的可扩展性。通过聚类引导的方式,模型能够自适应地识别关键时间点,而无需依赖固定的长度设定。这一特性使得模型能够更好地适应不同时间序列的结构,提高在不同应用场景下的泛化能力。同时,对比学习策略的引入,使得模型能够更有效地过滤无关信息,从而提升完成效果。

在实验设置方面,我们评估了CutTKG模型在四个流行的TKG数据集上的表现。这些数据集包括ICEWS14、ICEWS18、ICEWS05-15和YAGO。ICEWS系列数据集来源于集成危机预警系统,记录了每日的社会政治事件及其精确的时间戳。例如,ICEWS14包含了365个时间戳,时间范围从2014年1月1日到2014年12月31日。这些数据集的结构和内容为我们提供了丰富的实验材料,有助于验证CutTKG模型的有效性。

在理论和实际意义方面,CutTKG模型的提出不仅为时间知识图谱完成任务提供了一种新的解决方案,还为相关领域的研究提供了新的思路。从理论角度来看,我们的方法通过引入聚类引导和对比学习,为时间知识图谱的建模提供了更灵活和高效的策略。从实际角度来看,CutTKG模型能够有效提升知识图谱完成的准确性,为推荐系统、现代教育等实际应用场景提供更可靠的支持。

总之,CutTKG模型的提出,不仅解决了时间知识图谱完成中的“时间滞后”问题,还通过对比学习策略,提升了模型的性能。通过广泛的实验,我们验证了该模型的有效性,并在多个基准数据集上取得了显著的提升。这些成果表明,CutTKG模型在时间知识图谱完成任务中具有重要的应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号