基于大语言模型的双重匹配视觉实体链接框架:增强知识图谱语义深度的创新方法

【字体: 时间:2025年09月04日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  这篇综述提出了一种创新的视觉实体链接(VEL)框架DMVEL,通过大语言模型(LLM)增强实体描述,结合多实例特征对齐和双重匹配策略(宏观过滤器和微观重排序器),有效解决了多模态实体链接(MEL)中视觉对象选择、语义对齐和实体表征等核心问题,在三个基准数据集上实现了SOTA性能。

  

Highlight

本文提出DMVEL框架——首个结合大语言模型(LLM)与多模块交互的视觉实体链接(VEL)解决方案。通过创新的双重匹配机制,该框架在保持全局语义对齐的同时强化局部特征交互,显著提升多模态知识图谱(KG)的构建质量。

METHODOLOGY

如图2所示,DMVEL框架通过以下核心模块实现突破:

  1. 1.

    视觉对象选择:利用多模态大语言模型(MLLM)的语义理解能力,结合粗粒度(文本-图像)和细粒度(文本-视觉对象)特征对齐,通过共注意力机制捕获决定性局部特征;

  2. 2.

    实体描述增强:采用预设计提示模板引导LLM生成聚焦实体特征的动态描述,相比传统静态百科描述,显著提升17,391-57,007个实体的表征区分度;

  3. 3.

    双重匹配引擎

    • 过滤器:基于模糊匹配与语义匹配的混合检索,解决"黑曼巴→科比"等别称映射问题;

    • 重排序器:通过局部特征与增强实体表征的精细匹配,在排除多模态噪声的同时保留关键语义线索。

Datasets

尽管目前缺乏专用VEL数据集,我们创新性地将WikiMEL、Richpedia和Wikidiverse等MEL数据集转化为VEL评估基准,通过要求模型同步关联文本提及和视觉对象,构建更接近真实场景的挑战性任务。

CONCLUSION

DMVEL框架通过最小化模型参数微调,实现了多模态交互的效率突破。实验表明,其双重匹配策略能有效平衡全局-局部语义,为知识图谱的视觉语义增强开辟了新路径。未来工作将探索跨模态预训练技术在实体表征优化中的应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号