
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于证据子图增强推理的多模态关系抽取框架ES-MRE研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Knowledge-Based Systems 7.2
编辑推荐:
为解决短文本信息不足和跨模态对齐误差敏感性问题,研究人员提出证据子图增强推理框架ES-MRE,通过MLLM引导的证据子图生成(MESG)模块整合知识图谱(KG)事实知识,结合多图像分层融合(MHF)模块优化跨模态表征。实验表明,该模型在MNRE数据集上F1值提升2.62%,为文本密集型图像的关系抽取提供了新思路。
在社交媒体爆炸式增长的时代,图文结合的内容成为信息传递的主要载体。然而,如何从这些多模态数据中准确提取实体间的关系,却面临着两大难题:一是短文本的语义模糊性和信息匮乏,二是图像中无关物体对跨模态对齐的干扰。传统方法依赖预训练的视觉编码器和简单的特征融合,往往在文本密集型图像面前束手无策。更棘手的是,现有的多模态大语言模型(MLLM)虽然表现出色,但知识更新成本高昂,难以适应快速变化的关系抽取需求。
针对这些挑战,中国的研究团队开发了证据子图增强的多模态关系抽取框架ES-MRE。该研究创新性地将知识图谱(KG)的结构化知识引入多模态推理,通过MLLM引导的证据子图生成(MESG)模块,从图像描述和原始文本中提取实体,并在KG中检索实体间的关联路径,构建包含事实知识的证据子图。同时设计的多图像分层融合(MHF)模块,利用扩散模型生成的图像作为文本的"回译",实现文本与图像的多层次对齐。实验证明,该方法在主流MNRE数据集上精确度提升2.2%,召回率提高3.02%,相关成果发表在《Knowledge-Based Systems》上。
关键技术包括:1)MLLM引导的实体提取与KG路径检索;2)图注意力网络(GAT)编码证据子图;3)基于扩散模型的图像生成技术;4)视觉Transformer(ViT)多层次特征融合。研究使用MNRE数据集及其子集MNRE-D进行验证,包含来自社交媒体的9211个图文对。
【Multimodal learning】部分指出,现有方法难以处理文本密集型图像中的语义关联。【Method】章节详细阐述了ES-MRE的双模块设计:MESG模块通过KG路径检索构建包含e1
和e2
实体关联的证据子图;MHF模块则利用生成图像与原始图像的层级特征(环境、细节、全局)进行对齐。【Datasets】显示模型在MNRE测试集上F1达62.35%,在MNRE-D子集上性能提升更显著。
该研究的突破性在于:首次将KG结构化知识引入多模态关系抽取,通过证据子图弥补短文本的语义缺失;提出的层级融合策略有效抑制了视觉噪声干扰。Wenti Huang等人在【CRediT】中强调,这项工作为社交媒体的信息挖掘提供了新工具,其模块化设计可扩展至其他多模态任务。国家自然科学基金(62402178)和湖南省自然科学基金(2024JJ6221)的支持,体现了该研究在知识工程与人工智能交叉领域的重要价值。
生物通微信公众号
知名企业招聘