
-
生物通官微
陪你抓住生命科技
跳动的脉搏
知识图谱补全新突破:结构知识提取器(SuKE)增强大语言模型的结构推理能力
【字体: 大 中 小 】 时间:2025年08月09日 来源:Expert Systems with Applications 7.5
编辑推荐:
本文创新性地提出结构知识提取器(SuKE),通过可训练的编码器-解码器架构(含Group-wise GAT和DRR模块)将知识图谱(KG)的结构信息转化为虚拟令牌前缀,显著提升大语言模型(LLM)在知识图谱补全(KGC)任务中的结构感知能力。实验证明该方法优于现有SOTA技术,为多模态知识融合提供了新范式。
Highlight
本研究亮点在于开发了革命性的结构知识提取器(SuKE),巧妙弥合了知识图谱的结构模态与语言模型的文本模态之间的语义鸿沟。通过将图神经网络(GNN)的拓扑处理能力与LLM的语义理解能力相结合,开创了知识图谱补全(KGC)的新范式。
知识图谱补全(KGC)
KGC任务旨在通过计算模型捕捉知识图谱中的结构模式和语义规律,预测缺失的三元组(头实体-关系-尾实体)。该任务涵盖三元组分类、实体预测和链接预测等关键子任务,其核心挑战在于建立有效的候选三元组可信度评估机制。
符号系统与问题定义
知识图谱可形式化表示为G=(E,R,T,D),其中E和R分别代表实体和关系集合。T={(h,r,t)|h,t∈E,r∈R}是所有已知三元组的集合,D则存储实体和关系的文本描述。例如在CoDeX知识库中,关系"P488"对应文本描述"chairperson"。在KGC任务中,我们通过替换实体或关系生成负样本,构建平衡的训练数据集。
数据集
为全面评估SuKE架构性能,我们精选三个权威KG基准数据集:UMLS(医学语义网络)、CoDeX-S(学术概念图谱)和FB15K-237N(通用知识库)。这些数据集在规模和测试多样性方面具有代表性,统计特征详见Table 1。所有数据集均通过负采样技术增强,确保模型能有效区分正负样本。
结论
本文系统探索了如何从知识图谱中提取结构信息并注入大语言模型,从而增强其对KGC任务的结构化推理能力。通过扩展LLM范式提出的KG-ICL和KG-IT方法,以及专门设计的SuKE编码器-解码器框架,我们成功实现了结构信息与语义理解的协同增强。实验证明该方法能显著提升LLM在复杂知识推理任务中的表现。
生物通微信公众号
知名企业招聘