利用大型语言模型提升场景知识相关表达式的理解能力

《IEEE MultiMedia》:Improving Scene Knowledge Referring Expression Comprehension with Large Language Models

【字体: 时间:2025年11月25日 来源:IEEE MultiMedia 3.3

编辑推荐:

  针对场景知识推理中的复杂性和冗余信息干扰问题,提出数据简化方案和SKRN网络,通过大语言模型过滤无关描述,结合多模态特征和注意力机制提升目标定位准确率,实验验证有效性。

  

摘要:

场景知识指称表达式理解(SK-REC)是一项新兴的多媒体推理任务。该任务要求模型对指称表达式和场景知识进行联合推理,以定位目标对象。然而,场景知识的复杂性和冗余信息可能会对模型产生干扰。为此,我们提出了一种数据简化方案。我们利用大型语言模型的理解能力来简化复杂的场景知识,从而过滤掉不相关的描述,仅保留与指称表达式所涉及的目标对象相关的内容。此外,我们还提出了一个场景知识推理网络(SKRN)。SKRN从指称表达式和场景知识中提取特征,并采用注意力机制来充分利用这些特征进行推理。这增强了模型处理场景知识的能力,最终提高了定位的准确性。在基准数据集上的实验结果证明了我们的数据简化方案和所提出的SKRN的有效性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号