基于检索的多模态提示调优(RMPT):解决多图像异质性噪声的事件检测新方法
《Pattern Recognition》:RMPT: Retrieval-based Multimodal Prompt Tuning for Event Detection
【字体:
大
中
小
】
时间:2025年10月18日
来源:Pattern Recognition 7.6
编辑推荐:
本文提出了一种创新的事件检测(ED)方法——基于检索的多模态提示调优(RMPT)。该方法针对多模态(图像-文本)事件检测中因多图像引入的异质性噪声问题,通过检索任务进行匹配过滤,将多模态特征作为提示(Prompt)来提升模型区分歧义的能力。RMPT利用视觉与文本表征的相似性作为融合权重,并设计针对可训练标签和软标记的提示策略,在M2E2、Video-M2E2和SWiG基准测试中展现了优异的视觉消歧性能。
在此部分,我们对当前的研究工作进行了广泛总结,主要聚焦于三个关键领域:事件检测(Event Detection)、检索增强的自然语言处理(Retrieval-augmented NLP)以及基于提示的学习方法(Prompt-based Learning Methods)。
图3展示了我们的基于检索的多模态提示调优模型(RMPT)。RMPT是一种创新、高效、基于软提示的多模态事件检测模型。其架构分为三部分:首先,通过预训练的CLIP网络提取文本和视觉特征;随后,多模态集成通过一个基于检索的交替双注意力机制(Retrieval-based Alternating Dual Attention, RADA),促进文本和图像模态之间深度的双向交互。
Datasets and Evaluation Metrics
我们的研究深入探索了多模态事件抽取这一复杂领域,该领域需要和谐地解读文本和视觉数据。为此,我们采用了三个成熟的基准数据集,每个数据集都经过精心策划,以促进能够从多样多媒体源中辨别事件的模型的开发和评估。我们的选择遵循了Li等人[6]和Chen等人[13]处理的精炼版本,确保了...
Conclusion and Future Work
本文提出了一种基于检索的多模态事件检测提示调优策略。我们的方法直接建模文本和视觉信息,并引入提示工程以减少额外视觉信息带来的偏差。首先,我们嵌入视觉和文本表征,并通过检索获得鲁棒的语义共指。然后,我们设计了一种基于可训练标签和软标记的多模态语言提示策略,以自适应地感知类型差异。
CRediT authorship contribution statement
Enyuan Zhao: 撰写初稿,验证,监督,软件,方法论,研究,形式分析,数据整理。 Jie Nie: 审阅编辑。 Lei Huang: 审阅编辑。 Ning Song: 资金获取。 Zhiqiang Wei: 资金获取。
Declaration of competing interest
作者声明,他们没有已知的可能影响本报告工作的竞争性财务利益或个人关系。
本研究由基于不完整时空图像序列的海洋环境演化智能预测关键技术项目资助,项目批准号为62172376。额外资金支持来自山东省中央政府通过地方科技发展基金项目,项目编号为YDZX2022028,以及中国国家自然科学基金的区域创新与发展联合基金项目。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号