由于气候变化的全球挑战,追求与“双碳”目标相一致的绿色低碳发展路径至关重要,以便有效应对这一问题。随着碳中和技术的不断进步和发展[1]、[2]、[3],一个碳中和大数据的新时代无疑已经到来。构建碳中和知识图对于促进碳中和数据的快速检索和有效应用以及最终实现碳中和目标尤为重要。
知识图(KGs)是一种表示特定领域(如技术、经济或医学)知识的方式。通常,它们被描述为由节点和边组成的图或网络,其中节点代表实体或概念,边表示它们之间的关系。实体和关系之间会形成多个三元组,这些三元组通常带有时间约束。这些三元组会随时间演变,从而创建新的时间知识图(TKGs)。此外,KGs被广泛应用于信息检索、问答系统、推荐系统和数据集成等领域。由于资源和技术限制,大多数KGs中的知识是不完整的,无法满足下游应用的需求。为了解决这一挑战,出现了知识图完成(KGC)任务,该任务旨在识别并填补不完整KGs中的信息空白,例如缺失的实体、关系和属性。这种方法可以显著提高KGs的完整性和准确性。同时,TKGs可以不断更新,以提供时间维度的知识材料,这对研究更为有利。
我们通过结合静态知识图完成到时间知识图完成的分析来实现时间知识图(TKGC)的完成。知识图完成任务与知识嵌入技术密切相关,因为有效的嵌入策略可以显著提高KGC的性能。因此,高质量的知识嵌入是实现KGC最佳结果的关键因素。例如,TransE[4]和DistMult[5]提出了将实体和关系嵌入连续向量空间的方法,以促进知识图完成。然而,这些方法一次只考虑一个三元组,未能捕捉到实体和关系的潜在语义。为了解决这个问题,[6]提出了将预训练语言模型应用于KGC的方法,该方法涉及用文本描述替换三元组中的实体和关系。此外,常见的语言模型方法往往忽略了整个知识图的拓扑结构和软逻辑规则,只关注局部三元组。图1展示了拓扑结构和软逻辑规则中包含的潜在语义。从图中可以看出,“2025年实施‘绿色技术流程’”可以实现“增加绿色氢气比例”,而在“2025年之前引入‘绿色低碳能源’”也可以实现“增加绿色氢气比例”。这些语义应该被用来改进实体和关系的嵌入。灰色圆圈代表可能其他相关的实体。例如,[7]使用图注意力网络结合多跳邻居节点来实现实体的低维嵌入。为了在语义模型上结合拓扑结构和软逻辑规则,[8]采用基于随机行走路径的上下文学习方法,并结合变分期望最大化(EM)算法来提取软逻辑规则。
鉴于时间和其他软逻辑规则的重要性,我们提出了一种基于时间路径的拓扑方法,并结合类似的软逻辑约束方法,将拓扑结构和其他软逻辑规则整合到语言模型中。上述模型没有考虑到对比学习的重要性。为了解决这个问题,[9]提出使用三类负样本(批量内负样本[6]、批量前负样本[10]和自我负样本)进行对比学习,从而提高KGC的性能。此外,如图2所示,我们发现当某个实体(联合国)可能出现在另一个实体(施耐德电气)的文本描述中时,如果使用文本描述进行预测而不是实体本身,可能会预测出施耐德电气的智能电网和脱碳发电,而联合国的出现会扭曲对联合国的描述,导致预测得分较低或可能预测错误。为了提高整体潜在语义嵌入,设置了与该实体(联合国)相关的尾部实体,并将文本中的其他实体(联合国)也作为负样本输入。
为了防止模型在训练过程中忽略负样本和正样本之间的关系,我们结合了软标签和硬标签以实现相互学习,从而提高TKGC的有效性。因此,我们提出的方法Tc-MLS利用了软标签和硬标签的相互学习,并将软逻辑规则和拓扑结构整合到语言模型中。
本文的主要贡献可以总结如下:
•我们提出了Tc-MLS,它引入了一种新的对比学习方法,通过增加负样本的数量和类型来高效完成时间知识图。
•提出了一种基于时间路径的拓扑方法和类似的软逻辑约束方法,将拓扑结构和其他软逻辑整合到语言模型中,从而改进了实体和关系的嵌入。
•我们设计了一种机制,考虑软标签来动态捕捉正样本和负样本之间的相关性。这种机制可以防止模型在训练过程中遗漏一些潜在语义信息,并提高知识图的总体完成性能。
•我们在我们的碳中和数据集上进行了广泛的实验,并评估了Tc-MLS方法的效率和准确性。我们将我们的结果与五种最先进的方法进行了比较,验证了我们方法的有效性和优越性。
本文的其余部分组织如下。第2节回顾了Tc-MLS任务的相关工作。
第3节介绍了我们提出的模型Tc-MLS。第4节报告了实验结果。第5节提出了本文的结论和未来工作。