基于潜在语义挖掘的时序碳中和中文知识图谱补全方法

《Journal of Computational Science》:Temporal carbon neutral Chinese knowledge graph completion method based on latent semantic mining

【字体: 时间:2026年01月02日 来源:Journal of Computational Science 3.7

编辑推荐:

  为促进碳中和领域的数字化转型,本文构建了16,050样本的碳中数据集CANdata15k,并提出基于对比学习的Tc-MLS模型,通过融合时序拓扑与语义相似性约束提升知识图谱补全效果,实验表明其MRR值平均提升56.91%,显著优于现有SOTA方法。

  
Xiping Zhu|Lijuan Xiao|Ang Gao|Lu Guo|Huan Yang
中国西南石油大学电气信息学院,成都610500

摘要

为了促进碳中和领域的数字化转型,本文构建了一个名为CANdata15k的碳中和数据集,样本量为16,050个,以实现时间知识图的完整构建。当前的时间知识图完成方法并未充分考虑到数据的潜在语义。为了挖掘所有潜在语义,我们提出了一种时间碳中和知识图完成模型(Tc-MLS)。用文本描述替换预训练语言模型中的实体和关系,以获取可能的文本语义。并通过Tc-MLS中提出的知识融合模型来获取实体之间的潜在语义。然后通过嵌入相关拓扑结构和相似性软逻辑来获得实体和关系之间的潜在语义。最终,与其他最先进算法(SOTA)的结果相比,Tc-MLS在CANdata15k数据集上的平均MRR值提高了56.91%,在两个公共数据集YAGO11k和Wikidata12k上的MRR值分别提高了9.96%和7.72%,证明了Tc-MLS模型的有效性。

引言

由于气候变化的全球挑战,追求与“双碳”目标相一致的绿色低碳发展路径至关重要,以便有效应对这一问题。随着碳中和技术的不断进步和发展[1]、[2]、[3],一个碳中和大数据的新时代无疑已经到来。构建碳中和知识图对于促进碳中和数据的快速检索和有效应用以及最终实现碳中和目标尤为重要。
知识图(KGs)是一种表示特定领域(如技术、经济或医学)知识的方式。通常,它们被描述为由节点和边组成的图或网络,其中节点代表实体或概念,边表示它们之间的关系。实体和关系之间会形成多个三元组,这些三元组通常带有时间约束。这些三元组会随时间演变,从而创建新的时间知识图(TKGs)。此外,KGs被广泛应用于信息检索、问答系统、推荐系统和数据集成等领域。由于资源和技术限制,大多数KGs中的知识是不完整的,无法满足下游应用的需求。为了解决这一挑战,出现了知识图完成(KGC)任务,该任务旨在识别并填补不完整KGs中的信息空白,例如缺失的实体、关系和属性。这种方法可以显著提高KGs的完整性和准确性。同时,TKGs可以不断更新,以提供时间维度的知识材料,这对研究更为有利。
我们通过结合静态知识图完成到时间知识图完成的分析来实现时间知识图(TKGC)的完成。知识图完成任务与知识嵌入技术密切相关,因为有效的嵌入策略可以显著提高KGC的性能。因此,高质量的知识嵌入是实现KGC最佳结果的关键因素。例如,TransE[4]和DistMult[5]提出了将实体和关系嵌入连续向量空间的方法,以促进知识图完成。然而,这些方法一次只考虑一个三元组,未能捕捉到实体和关系的潜在语义。为了解决这个问题,[6]提出了将预训练语言模型应用于KGC的方法,该方法涉及用文本描述替换三元组中的实体和关系。此外,常见的语言模型方法往往忽略了整个知识图的拓扑结构和软逻辑规则,只关注局部三元组。图1展示了拓扑结构和软逻辑规则中包含的潜在语义。从图中可以看出,“2025年实施‘绿色技术流程’”可以实现“增加绿色氢气比例”,而在“2025年之前引入‘绿色低碳能源’”也可以实现“增加绿色氢气比例”。这些语义应该被用来改进实体和关系的嵌入。灰色圆圈代表可能其他相关的实体。例如,[7]使用图注意力网络结合多跳邻居节点来实现实体的低维嵌入。为了在语义模型上结合拓扑结构和软逻辑规则,[8]采用基于随机行走路径的上下文学习方法,并结合变分期望最大化(EM)算法来提取软逻辑规则。
鉴于时间和其他软逻辑规则的重要性,我们提出了一种基于时间路径的拓扑方法,并结合类似的软逻辑约束方法,将拓扑结构和其他软逻辑规则整合到语言模型中。上述模型没有考虑到对比学习的重要性。为了解决这个问题,[9]提出使用三类负样本(批量内负样本[6]、批量前负样本[10]和自我负样本)进行对比学习,从而提高KGC的性能。此外,如图2所示,我们发现当某个实体(联合国)可能出现在另一个实体(施耐德电气)的文本描述中时,如果使用文本描述进行预测而不是实体本身,可能会预测出施耐德电气的智能电网和脱碳发电,而联合国的出现会扭曲对联合国的描述,导致预测得分较低或可能预测错误。为了提高整体潜在语义嵌入,设置了与该实体(联合国)相关的尾部实体,并将文本中的其他实体(联合国)也作为负样本输入。
为了防止模型在训练过程中忽略负样本和正样本之间的关系,我们结合了软标签和硬标签以实现相互学习,从而提高TKGC的有效性。因此,我们提出的方法Tc-MLS利用了软标签和硬标签的相互学习,并将软逻辑规则和拓扑结构整合到语言模型中。
本文的主要贡献可以总结如下:
•我们提出了Tc-MLS,它引入了一种新的对比学习方法,通过增加负样本的数量和类型来高效完成时间知识图。
•提出了一种基于时间路径的拓扑方法和类似的软逻辑约束方法,将拓扑结构和其他软逻辑整合到语言模型中,从而改进了实体和关系的嵌入。
•我们设计了一种机制,考虑软标签来动态捕捉正样本和负样本之间的相关性。这种机制可以防止模型在训练过程中遗漏一些潜在语义信息,并提高知识图的总体完成性能。
•我们在我们的碳中和数据集上进行了广泛的实验,并评估了Tc-MLS方法的效率和准确性。我们将我们的结果与五种最先进的方法进行了比较,验证了我们方法的有效性和优越性。
本文的其余部分组织如下。第2节回顾了Tc-MLS任务的相关工作。
第3节介绍了我们提出的模型Tc-MLS。第4节报告了实验结果。第5节提出了本文的结论和未来工作。

部分摘录

相关工作

本文将讨论的基础知识是本章的主题。我们嵌入式语言模型训练的国内和国际研究现状、从负样本中获得的对比学习以及整体动态知识图完成是主要涵盖的内容。

Tc-MLS方法

我们更关注在整个知识图中挖掘实体关系的潜在语义,以便考虑更多的潜在语义来完成中文知识图。因此,我们提出了基于MacBERT预训练模型的Tc-MLS模型,用于推理中文知识图的碳中和和缺失部分。如图3所示,Tc-MLS模型包括三个主要模块:负样本处理、知识融合和

实验与分析

在本节中,所有模型都在PyTorch环境中运行。每个实验都使用了24 GB的RTX 3090 GPU卡作为平台。
在创建的CANdata15k数据集上,我们使用中文预训练的MacBERT模型对Tc-MLS模型进行编码,使用英文预训练的DeBERTa模型对Wikidata12k数据集进行编码,使用BERT模型对YAGO11k数据集进行编码。我们在三个数据集上进行了1,3,5,7,10,16,25,30,35个时代的实验,并选择了最佳结果。为了防止调整

结论与未来工作

我们提供了一种时间知识图完成技术,该技术考虑了所有潜在语义,包括文本中的语义、实体之间的语义以及实体关系之间的语义。在本研究中创建的碳中和数据集中,根据链接预测实验和消融研究的结果,Tc-SRN具有更强的链接预测能力。该方法在多个指标上得到了改进,获得了更好的时间知识图完成结果

CRediT作者贡献声明

Xiping Zhu:资源、写作——审稿与编辑、项目管理、监督。Lijuan Xiao:数据管理、写作——初稿、软件。Ang Gao:调查。Lu Guo:验证。Huan Yang:概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了四川省科技计划项目 (2022YFQ0102)的支持。
Xiping Zhu于2005年在中国成都的西南交通大学获得了通信与信息系统的博士学位。他目前是西南石油大学电气信息学院的通信工程教授。他的当前研究兴趣包括知识图、人工智能和区块链。在这些领域,他发表了20多篇高水平学术论文,注册了30多项计算机软件版权,并拥有30多项
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号