基于开放信息提取的多模态结构化表示增强方法(OIE-CLIP)研究

【字体: 时间:2025年10月29日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  本文提出OIE-CLIP创新框架,通过开放信息提取(OIE)技术构建高质量负样本,结合三元组知识编码器(TKE)增强多模态模型的结构化语义表征能力。实验表明该方法在VG-Attribution和VG-Relation数据集上分别超越现有最优模型2.2%和1.8%,有效解决视觉语言模型在主体-客体关系识别中的结构性缺陷。

  
亮点
  • OIE-CLIP采用多领域交叉融合方法,将开放信息提取(OIE)技术引入多模态模型训练,通过重构信息提取获得的三元组生成高质量负样本,提升模型性能。
  • 提出三元组知识编码器(TKE),利用结构化输入增强模型对结构化知识的表征能力。
  • 实验证实OIE-CLIP在保持通用能力的同时可实现结构化表征,达到最先进的性能水平。
方法
OIE-CLIP的整体架构如图2所示,包含数据处理模块和模型训练模块。在数据处理模块中,我们利用开放信息提取(OIE)方法生成语义不同但短语相同的负样本,以增强句子的结构化语义表征,并为后续对比学习提供高效训练数据。在模型训练模块中,我们提出一种三元组知识编码器(TKE),通过结构化知识输入进一步强化模型对主体-谓词-客体关系的理解能力。
评估
本节展示OIE-CLIP与其他最先进模型的实验结果。我们首先介绍数据集并展示评估结果,随后通过实验测量参数规模、三元组嵌入以及不同结构化知识影响下的性能表现。
预训练数据集
为确保模型在预训练阶段表现良好,我们采用广泛使用的高质量多模态图文检索数据集MSCOCO(Lin等人,2014)。
相关研究
视觉语言建模
自然语言处理与计算机视觉是人工智能的重要组成部分。视觉与语言的结合已引起广泛关注,成为研究热点。早期研究者对视觉语言任务进行了大量探索(Anderson等人,2018;Dong等人,2019;Yu等人,2019)。随着BERT(Devlin等人,2018)在自然语言处理领域的巨大成功……
结论
本研究针对视觉语言模型在表征结构化语义(特别是主谓宾角色置换区分)方面的持续缺陷,提出OIE-CLIP框架。该框架通过开放信息提取(OIE)构建语义忠实的高难度负样本,并通过三元组知识编码器(TKE)注入显式关系线索,在保持模型通用能力的同时显著提升结构化表征性能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号