基于全局与局部尺度增强的多模态知识驱动人-物交互检测方法研究

【字体: 时间:2025年07月20日 来源:Neurocomputing 5.5

编辑推荐:

  本研究针对人-物交互检测(HOI)任务中罕见类别识别性能不足的问题,提出E-HOTR+模型,通过全局尺度的语言投影掩码(LPM)和实例尺度的多模态特征融合,在无需额外预训练的条件下显著提升HICO-Det基准测试性能,为多模态知识的高效利用提供新范式。

  

在计算机视觉领域,理解人类与物体的交互关系(Human-Object Interaction, HOI)是实现场景智能认知的关键。传统方法依赖大量标注数据和复杂特征对齐,尤其对罕见交互类别(如〈Person,Hose,PottedPlant〉)识别效果欠佳。现有基于Transformer的模型如E-HOTR虽通过实例查询串联将计算复杂度从O(N2)降至O(N),但对全局上下文和跨模态知识的利用不足。

西安交通大学利物浦大学(Xi’an Jiaotong-Liverpool University, XJTLU)的研究团队提出E-HOTR+模型,创新性地引入语言投影掩码(Linguistic-Projected Mask, LPM)实现全局视觉-语言特征增强,同时通过多模态实例查询提升罕见交互识别能力。该研究发表于《Neurocomputing》,在HICO-Det基准测试中达到state-of-the-art性能,且无需额外预训练数据。

关键技术包括:1) 利用CLIP文本编码器提取语言知识;2) 构建LPM模块实现全局特征增强;3) 设计多模态实例查询融合机制;4) 基于HICO-Det训练集进行端到端优化。

【研究结果】

  1. 全局尺度增强:LPM模块使模型在目标被遮挡时仍能准确预测交互(如书本遮挡人体时识别"阅读"动作),罕见类别识别准确率提升23.6%。
  2. 实例尺度优化:融合语言与空间特征的查询机制,将〈Person,Hose,PottedPlant〉等罕见交互的召回率提高18.4%。
  3. 计算效率:相比RLIPv2模型,训练时间缩短40%,仅需单卡GPU即可完成HICO-Det训练集优化。

【结论与意义】
该研究首次实现无需特征对齐预训练的多模态HOI检测,证实:1) 语言知识通过LPM可有效补偿不完整视觉特征;2) 显式查询机制具备多模态扩展性;3) 在计算资源受限场景下仍保持优异性能。这项工作为视觉-语言协同学习提供了可解释性强、计算高效的解决方案,对智能监控、辅助医疗等需要细粒度交互理解的领域具有重要应用价值。Tianlun Luo等学者特别指出,未来可通过合成数据进一步缓解罕见样本不足的问题,这为持续优化HOI检测指明了方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号