基于大语言模型的多模态命名实体识别与视觉 grounding 融合框架研究
【字体:
大
中
小
】
时间:2025年10月04日
来源:Information Fusion 15.5
编辑推荐:
本文提出了一种融合示例检索与多源跨层注意力(DMCAF)的双阶段框架,通过引入实体感知注意力机制(EAC/EAI)与多源多头跨层注意力融合模块(MMCAF),结合双大语言模型(LLMs)架构,显著提升了多模态命名实体识别(MNER)与视觉定位(VG)的跨模态语义对齐能力,在Twitter-GMNER和Twitter-FMNERG数据集上达到SOTA性能。
我们提出两种注意力机制:实体感知上下文(EAC)注意力和实体感知图像(EAI)注意力。EAC捕捉局部文本实体特征与全局上下文之间的相互作用,而EAI提取实体相关图像特征并将其整合到文本级语义中。EAC与EAI的结合实现了高效的示例检索。
多源多头跨层注意力融合(MMCAF)模块被创新性地提出,用于聚合多源信息,包括命名实体和视觉实体表达、输入文本和图像描述,实现更精确的命名实体与视觉实体之间的跨模态语义对齐。
所提出的双阶段框架整合了不同的大语言模型(LLMs)以弥合跨模态差距。文本语言模型生成外部知识以丰富命名实体语义,而视觉语言模型扩展视觉实体表示。这种双LLM架构实现了交互式知识迁移,增强了文本与视觉模态之间的语义对齐。
我们的DMCAF模型在GMNER任务中取得了最先进的结果,在两个不同粒度的数据集上均表现优异。具体而言,DMCAF在粗粒度Twitter-GMNER上达到68.62%的F1分数,在细粒度Twitter-FMNERG上达到57.44%的F1分数,分别比之前最佳基线提高了2.74%和1.66%。
MNER研究经历了从特征对齐到噪声抑制再到知识增强的逐步探索。早期工作侧重于优化模态表示,通过交错视觉和文本特征实现跨模态注意力网络,基于图像区域特征动态调整文本向量权重;并利用多模态Transformer架构捕捉图像与文本之间的细粒度关联。
GMNER旨在联合检测文本实体并在图像中定位其对应的视觉区域。给定一个句子或文本和一个相关图像,任务目标是从多模态输入样本中提取一组实体-类型-区域三元组。每个三元组包含一个实体(由一个或多个单词组成的文本片段)、其实体类型(如人物或地点)以及对应的视觉区域。
我们使用两个源自Twitter的GMNER数据集:Twitter-GMNER和Twitter-FMNERG。Twitter-GMNER数据集通过过滤和合并Twitter-15和Twitter-17的MNER基准数据集构建而成,包含超过12K样本,每个实体均标注了视觉定位区域(即边界框)。最终,该数据集包含10K高质量样本,边界框标注由三名标注者的平均值确定。Twitter-FMNERG则提供了更细粒度的标注。
在这项工作中,我们开发了一种新颖的双阶段GMNER框架,整合了示例检索和多源跨层注意力融合,以解决跨模态语义对齐的挑战。第一阶段采用实体感知注意力机制(EAC和EAI)检索任务相关示例,使LLMs能够生成高质量的外部知识以进行命名实体识别。第二阶段引入MMCAF模块,融合多源信息(输入文本、命名实体和视觉实体表达、图像描述),实现精确的跨模态语义对齐。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号