基于自适应融合与模态信息增强的多模态知识图谱链接预测方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月29日 来源：Neural Networks 6.0

编辑推荐：

　　为解决多模态知识图谱(MMKGs)中模态信息复杂多样、质量不平衡及交互不足导致的链接预测难题，研究人员提出AFME框架，通过模态信息融合模块(MoIFu)和模态信息增强模块(MoIEn)，结合关系驱动去噪机制和生成对抗网络(GAN)，在TIVA等数据集上实现MRR提升0.91%-2.73%，为复杂多模态场景下的知识推理提供了新范式。

在人工智能蓬勃发展的今天，知识图谱作为结构化知识的重要载体，已广泛应用于智能问答、推荐系统等领域。然而，传统知识图谱主要依赖文本等单一模态信息，难以全面刻画现实世界的复杂语义。多模态知识图谱(MMKGs)通过整合图像、文本、视频等多源信息，显著提升了知识表达能力，但在链接预测任务中面临严峻挑战——不同模态质量参差不齐（如图像分辨率低导致细节丢失）、模态间交互机制浅层化（如简单拼接或加权融合）、噪声干扰等问题，严重制约了知识推理性能。

针对这些瓶颈问题，国内研究人员创新性地提出了AFME（自适应融合与模态增强）框架。该研究发表在《Neural Networks》期刊，通过两个核心模块实现突破：模态信息融合模块(MoIFu)采用关系驱动去噪和动态权重分配机制，有效平衡模态差异；模态信息增强模块(MoIEn)则利用生成对抗网络(GAN)结构，通过结构模态引导特征模态生成，结合多层自注意力优化跨模态特征。实验证明，AFME在TIVA等数据集上MRR最高提升2.73%，Hits@1提升3.33%，显著优于TransE、IKRL等17种基线模型。

关键技术方法包括：1)基于BERT和CNN的多模态特征编码；2)关系驱动的门控去噪机制(gate_m=σ(W_g·(h_m⊙r)+b_g))；3)动态权重分配(ω_m(h,r)=exp(α_m·U⊙tanh(h?_m)/σ(τ_r)))；4)结构模态引导的GAN生成器(h_m⁽⁰⁾=σ(W_d(e_mod⊙h?_m)+b_d))；5)WGAN-GP优化的对抗训练。

研究结果部分，通过系统实验验证了AFME的优越性：

性能比较：在四类数据集上全面超越基线，如KVC16K数据集Hits@10达28.64%，较最优基线提升2.29%。特别是对视频、音频等复杂模态的处理优势明显。
消融实验：移除MoIFu模块使TIVA数据集MRR下降0.43%，而去除MoIEn模块导致降幅达1.67%，证实双模块协同增效。
泛化实验：将MoIEn集成到TBKGC等模型后，Hits@1平均提升2.15%，证明其架构普适性。
参数分析：发现α=0.05时噪声抑制效果最佳，自注意力层数设为4层时达到性能峰值。

讨论部分指出，AFME的创新性体现在三方面：首先，关系驱动机制首次将语义关联引入模态净化过程，通过gate_m控制特征通过率；其次，动态权重分配突破传统静态融合局限，实现上下文感知的模态平衡；最后，GAN与自注意力的协同优化，既弥补了缺失模态(h_m^'=∑_n≠mα_mnh_n⁽¹⁾)，又保障了生成特征的语义一致性。这些突破为医疗多模态诊断、跨媒体检索等应用提供了新思路，未来可通过引入对比学习进一步强化模态对齐能力。

该研究的局限在于对长尾关系覆盖不足，后续计划在医疗VQA等专业领域验证框架效能。总体而言，AFME通过"净化-融合-增强"的技术路线，为破解多模态知识图谱的"信息孤岛"难题提供了系统解决方案，其模块化设计思想对多模态人工智能研究具有普适参考价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号