综述:CLIPViC:基于对比语言-图像预训练引导的高效解耦推理策略的人-物交互检测方法

【字体: 时间:2025年09月11日 来源:Optics & Laser Technology 4.6

编辑推荐:

  本文提出了一种创新的两阶段人-物交互(HOI)检测方法CLIPViC,通过结合对比语言-图像预训练(CLIP)与预测视觉上下文(PViC)模型的双分支结构,实现了高效解耦推理(独立训练与联合推断)。该方法显著提升了模型在HICO-DET(48.02% mAP)和V-COCO(69.4% mAP)数据集上的性能,并首次系统探索了两阶段方法的零样本推理能力,利用CLIP的动词文本嵌入分类器实现未见动作的识别。

  

引言

人-物交互(Human-Object Interaction, HOI)检测是细粒度动作识别的重要分支,其目标是理解图像中人类与物体的交互行为,精准定位并识别〈人类,动作,物体〉三元组。作为目标检测的下游任务,HOI检测在视频异常行为监测、人机交互、动作检测等领域具有广泛应用价值。现有方法主要分为单阶段和两阶段两类:单阶段方法并行处理目标检测与交互预测,但难以平衡局部特征与全局上下文需求;两阶段方法虽通过串联操作提升精度,却面临目标检测器特征泛化能力不足、交互信息缺失等问题。

方法创新:CLIPViC框架

CLIPViC提出一种基于对比语言-图像预训练(CLIP)引导的双分支结构,整合了预测视觉上下文(PViC)模型与CLIP图像编码器的优势。PViC分支通过卷积神经网络(CNN)提取局部细节特征,而CLIP分支采用视觉Transformer(ViT)架构捕获全局语义信息。两分支通过交叉注意力机制聚合交互特征,并采用解耦推理策略——即独立训练PViC与CLIP分支,在推断阶段联合输出预测结果。这一设计有效结合了CNN的局部建模能力与Transformer的全局感知优势,显著提升特征表达的鲁棒性。

零样本推理的突破

针对两阶段方法在零样本学习(尤其是未见动作识别)中的局限性,CLIPViC首次系统探索了零样本推理机制。该方法利用CLIP的动词文本嵌入作为分类器,将交互特征与动作文本的语义相似度作为判别依据。当相似度超过设定阈值时,即判定为同一动作类别。这一机制使模型能够泛化至训练中未出现的〈物体,动词〉组合,甚至完全未知的动作类别,极大提升了模型的迁移与泛化能力。

实验验证与性能优势

在标准数据集HICO-DET和V-COCO上的实验表明,CLIPViC的最大模型分别达到48.02% mAP和69.4% mAP的领先性能。相较于同规模单阶段方法,两阶段设计还显著降低了训练时间与内存消耗。此外,零样本推理实验证明该方法在未见动作识别中具有卓越的泛化能力,为HOI检测的实际应用提供了重要技术支持。

结论

CLIPViC通过融合多模态预训练模型与解耦推理策略,为HOI检测提供了新的解决方案。其双分支结构有效整合了视觉与语言模态的互补优势,而零样本推理机制的引入拓宽了两阶段方法的应用边界。本研究为视觉预训练模型在细粒度识别任务中的迁移应用提供了重要参考,推动了人-物交互检测在开放环境中的实用化进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号