神经概率逻辑学习:一种用于知识图谱推理的方法

《Knowledge-Based Systems》:Neural Probabilistic Logic Learning: A Method for Knowledge Graph Reasoning

【字体: 时间:2026年02月10日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  知识图谱推理中提出混合框架NPLL,通过嵌入方法与马尔可夫逻辑网络的结合提升准确性和效率,支持大规模数据及零样本推理。

  
孙风松|张先超|王金玉|江志国
教育部通用无线通信重点实验室,北京邮电大学,北京,100876,中国

摘要

知识图谱(KG)推理旨在从已知数据中预测缺失的事实。虽然基于规则的方法能够实现高精度,但在大规模KG中存在可扩展性限制。相反,基于嵌入的方法虽然能够高效扩展,但往往会牺牲精度。为了解决这一权衡问题,我们提出了神经概率逻辑学习(NPLL),这是一种新颖的混合框架,可以同时提高准确性和效率。NPLL整合了一个评分模块,以增强嵌入网络的表达能力,而不牺牲模型的简洁性或推理性能。此外,通过将马尔可夫逻辑网络(MLN)与变分推理相结合,提高了可解释性。在十一个基准数据集上的广泛评估表明,NPLL在准确性和计算效率方面均显著优于现有方法,从而大幅提升了推理质量。

引言

知识图谱(KG)通过构建实体关系来有效表示知识。这种基于图的架构与人类的认知模式相契合,便于进行高效的计算分析并应用于各种场景。然而,实际应用中常常面临数据稀疏性和长尾关系普遍存在的问题,这些因素阻碍了有效的推理和预测。
基于嵌入的方法是KG推理的常见方法,它们将KG组件投影到低维向量空间中以捕捉实体关系关联。推理通过该潜在空间内的数值运算进行。尽管这些方法被广泛采用,但它们存在诸如互操作性有限、在长尾关系上的性能不佳、难以表示复杂语义以及需要大量数据等局限性。在实际部署中,获取足够大且全面的数据集仍然是一个关键障碍。
基于规则的推理提供了一种替代方法,该方法利用从条件谓词和目标谓词以及变量推导出一阶谓词逻辑规则。然而,这种方法在可扩展性和实现全面规则覆盖方面常常遇到困难。为了缓解这些限制,我们整合了马尔可夫逻辑网络(MLN),构建了结合了逻辑规则的表达能力和嵌入的学习能力的联合概率分布模型,从而增强了推理能力和适应性。
借鉴先前的工作[1],我们引入了神经概率逻辑学习(NPLL),这是一种具有创新评分机制和增强监督架构的新型KG推理框架。在我们的方法中,我们仅关注正样本,避免生成负假设。框架架构如图1所示。NPLL做出了四个主要贡献:
提高推理效率:在所需数据输入大幅减少的情况下,实现了与完整数据集实现相当的推理精度。
可扩展的架构:在包含数百万事实三元组的大规模KG环境中表现出有效的推理性能。
强大的稀疏样本处理能力:利用先前的逻辑规则知识,NPLL在样本数据有限的情况下仍能保持强大的性能。
零样本学习能力:NPLL能够在训练和预测关系之间没有重叠的情况下实现零样本推理。

相关工作

相关研究

知识图谱推理方法的一个主要类别是基于规则的方法,这些方法使用通常表示为B→A的逻辑规则,其中A表示目标事实,B表示条件事实,以指导推理。为了提取这样的符号模式,早期开发了包括AMIE [2]、RuleN [3] 和通过学习表示进行规则学习(RLvLR)[4] 的工具,其中AMIE专注于通过模式计数进行高效规则发现,RuleN则细化了细粒度规则。

初步研究

知识图谱是一种基于图的模型,由三元组组成,其中实体对应于节点,关系对应于边。考虑一个已知的知识图谱K=(E,L,F),其中E={e1,e2,,eM}表示一组M个实体,通常指人名、对象、地点和专有名词;L={l1,l2,,lN}表示一组N个关系;F={f1< />f2,,fS}表示一组涉及来自E的实体和来自L的关系的事实,其中fi可以描述为fi={eh,l

模型

本节介绍了一个将MLN与基于嵌入的学习通过变分期望最大化(EM)算法相结合的知识推理框架。期望最大化过程的详细内容在第4.2节和第4.3节中介绍。算法1详细描述了NPLL的流程。
我们将条件概率logP(F|ω)分解如下:log(F|ω)=lo(P(F,U|ω)Q(U))?log(P(U|F,ω)Q(U))
在方程(3)中,P(F, U|ω)表示观测值和潜在值的联合分布

实验设置

数据集。我们在十个广泛使用的基准数据集上评估了我们的模型,这些数据集经过精心挑选,以涵盖不同的规模、领域和规则复杂性。这些数据集包括大规模数据集如YAGO3-10 [26]、YAGO3[27] 和Codex-L,中等规模数据集如Fb15k-237 [28]、Codex-M、Codex-S [29] 和WN18RR [20],以及小规模数据集如Kinship [30]、UMLS [31]、Toy [28] 和Countries [32]。所选数据集涵盖多个领域:YAGO3-10是...

结论

本文介绍了神经概率逻辑学习(NPLL),这是一种将逻辑规则与基于嵌入的表示相结合的知识图谱推理新方法。NPLL使用神经网络学习节点特征,并在马尔可夫逻辑网络框架内进行推理,显著提高了表达能力和推理能力。NPLL在知识图谱补全方面取得了最先进的性能,尤其是在数据稀疏和长尾关系情况下。

未引用的参考文献

表3和表4。

CRediT作者贡献声明

孙风松:撰写——原始草案、方法论、形式分析、数据整理、概念化。张先超:撰写——审阅与编辑、监督、资源获取。王金玉:撰写——原始草案、监督。江志国:撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

资助

本工作得到了中国国家重点研发计划(项目编号2023YFC3305900)的支持
孙风松在西安电子科技大学获得了学士和硕士学位。他目前是北京邮电大学的博士生,研究兴趣包括知识图谱推理和机器学习。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号