
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于全局与局部尺度增强的多模态知识驱动人-物交互检测方法研究
【字体: 大 中 小 】 时间:2025年07月20日 来源:Neurocomputing 5.5
编辑推荐:
本研究针对人-物交互检测(HOI)任务中罕见类别识别性能不足的问题,提出E-HOTR+模型,通过全局尺度的语言投影掩码(LPM)和实例尺度的多模态特征融合,在无需额外预训练的条件下显著提升HICO-Det基准测试性能,为多模态知识的高效利用提供新范式。
在计算机视觉领域,理解人类与物体的交互关系(Human-Object Interaction, HOI)是实现场景智能认知的关键。传统方法依赖大量标注数据和复杂特征对齐,尤其对罕见交互类别(如〈Person,Hose,PottedPlant〉)识别效果欠佳。现有基于Transformer的模型如E-HOTR虽通过实例查询串联将计算复杂度从O(N2)降至O(N),但对全局上下文和跨模态知识的利用不足。
西安交通大学利物浦大学(Xi’an Jiaotong-Liverpool University, XJTLU)的研究团队提出E-HOTR+模型,创新性地引入语言投影掩码(Linguistic-Projected Mask, LPM)实现全局视觉-语言特征增强,同时通过多模态实例查询提升罕见交互识别能力。该研究发表于《Neurocomputing》,在HICO-Det基准测试中达到state-of-the-art性能,且无需额外预训练数据。
关键技术包括:1) 利用CLIP文本编码器提取语言知识;2) 构建LPM模块实现全局特征增强;3) 设计多模态实例查询融合机制;4) 基于HICO-Det训练集进行端到端优化。
【研究结果】
【结论与意义】
该研究首次实现无需特征对齐预训练的多模态HOI检测,证实:1) 语言知识通过LPM可有效补偿不完整视觉特征;2) 显式查询机制具备多模态扩展性;3) 在计算资源受限场景下仍保持优异性能。这项工作为视觉-语言协同学习提供了可解释性强、计算高效的解决方案,对智能监控、辅助医疗等需要细粒度交互理解的领域具有重要应用价值。Tianlun Luo等学者特别指出,未来可通过合成数据进一步缓解罕见样本不足的问题,这为持续优化HOI检测指明了方向。
生物通微信公众号
知名企业招聘