MLLM引导的多模态知识图谱补全：层次语义对齐框架提升链接预测性能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月29日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　本文提出MgHiSal（MLLM-Guided Hierarchical Semantic Alignment）框架，通过多模态大语言模型（MLLM）生成上下文感知的视觉描述，结合门控注意力机制（hierarchical gated attention）和邻居感知增强策略，有效解决多模态知识图谱补全（MMKGC）中的语义碎片化问题，在DB15K和MKG-W数据集上MRR指标显著提升约13%。

Multimodal Knowledge Graph Completion

近年来，知识图谱补全（KGC）从单模态结构化表示显著演进至多模态融合。传统KGC仅依赖结构化三元组和拓扑信息，常存在不完整性且难以捕捉丰富的真实世界多模态上下文。为解决此问题，多模态知识图谱补全（MMKGC）技术[8]应运而生，利用视觉和文本信息大幅增强表示能力。

Multimodal Knowledge Graphs

知识图谱（KG）是由形式为（头实体，关系，尾实体）的三元组组成的异质图。形式化定义为

G = {E, R, T}

，其中

E

是实体集合，

R

是关系集合，

T ? E \times R \times E

是有效三元组集合。每个三元组

(h, r, t) \in T

表示头实体

h

与尾实体

t

间的语义关系

r

。

多模态知识图谱（MKG）通过整合视觉和文本信息扩展此结构，形式化定义为

G = {E, R,

Methods

多模态知识图谱通过视觉、文本等数据的跨模态整合改进知识表示。现有方法通常依赖预训练模型（如BERT、CLIP）进行特征提取，这常导致模态间语义碎片化。这些模型主要捕捉表层视觉特征，未能提取更深层语义内容。此类有限表示在融合过程中引入噪声，同时忽略判别性特征。

Experiments

以下部分展示实验结果，包括通过系统实验和深入分析对提出方法有效性的全面评估。具体而言，我们首先详细说明实验设置和实现细节，随后进行多重对比实验和消融研究，以验证方法在不同场景下的性能优势。为更深入理解模型特性，我们聚焦于

Limitations

尽管MgHiSal展现出显著有效性，我们承认其存在主要设计权衡。我们的视觉信息转文本描述方法有意优先考虑语义对齐而非直接视觉特征细节。虽然这可能抽象掉某些视觉细节，但实验结果验证此策略通过有效桥接语义碎片化带来实质性性能提升。此外，利用MLLM引入两个关键

Conclusion

本文解决了多模态知识图谱补全（MMKGC）中视觉与文本模态间语义碎片化这一重要挑战。我们提出MgHiSal，一种MLLM引导的层次语义对齐框架。MgHiSal首先通过基于现有实体文本条件化MLLM生成上下文感知的视觉描述，随后将其与原始文本融合以生成语义丰富的摘要并实现初始深度对齐。继而，层次门控注意力机制自适应选择并优化关键跨模态特征，最终通过邻居感知模块增强表示。在DB15K和MKG-W上的实验显示MRR显著提升约13.1%和12.5%，证实了框架的有效性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号