融合视线估计与物体预测的视觉注意力分析:基于GEOP模型的多任务学习框架

【字体: 时间:2025年06月06日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  本研究针对视觉注意力分析中的关键问题,提出了一种名为GEOP的创新模型,通过融合物体检测与视线追踪任务,实现了Gaze Object Prediction(GOP)这一新兴任务。研究采用双回归策略和注意力机制,在GOO数据集上验证了模型在平均距离误差(L2)、平均角度误差(Ang)和APBL 等指标上的优越性能,为零售场景分析、人机交互等应用提供了新的技术方案。

  

在人工智能与计算机视觉领域,理解人类的视觉注意力机制一直是个充满挑战的研究方向。想象一下,当我们在超市货架前挑选商品时,眼睛会不自觉地停留在某些商品上——这种看似简单的行为背后,其实蕴含着复杂的认知过程。然而,现有的技术要么只能预测我们看哪里(视线追踪),要么只能识别货架上的物品(物体检测),却很难准确判断我们到底在看哪个具体物品。这个被称为Gaze Object Prediction(GOP)的问题,正是本文要解决的核心挑战。

来自某研究机构的研究团队在《Engineering Applications of Artificial Intelligence》上发表了一项突破性研究。他们发现,现有的解决方案要么计算成本过高,要么准确度不足,特别是在物品密集的零售场景中表现欠佳。为此,他们开发了一个名为GEOP(Gaze Estimation and Object Prediction)的创新模型,通过巧妙融合两个看似独立的任务,实现了更精准的视觉注意力分析。

研究人员采用了几个关键技术方法:首先构建了包含场景分支和视线分支的双路径架构,其中场景分支采用YOLOv8进行物体检测,视线分支使用EfficientNet-B1处理头部图像;其次创新性地提出了双回归头设计,包含热图解码器HHM
和简化像素回归头HPX
;最后开发了新的评估指标APBL
(Average Precision Bounding Box Looked at),专门用于评估GOP任务性能。实验在包含真实和合成图像的GOO数据集上进行,该数据集模拟了零售环境中的密集物品摆放场景。

研究结果部分,论文通过多个维度展示了GEOP模型的优越性能:

在"3. Model architecture"部分,详细介绍了GEOP的创新架构。模型通过共享特征提取减少了计算开销,其中场景分支采用YOLOv8 m处理640×640分辨率图像,视线分支处理224×224的头像裁剪。特别值得注意的是预测分支中的双回归设计,HPX
的快速收敛引导HHM
生成更精确的热图输出YHM

"4. Experimental setup"部分阐述了实验设计。研究采用了两阶段训练策略:先单独训练物体检测模块并冻结权重,再训练视线相关模块。这种策略既利用了强大的物体检测数据增强技术,又避免了多任务学习中的数据增强冲突。评估指标方面,除了传统的AUC、L2和Ang外,新提出的APBL
指标能更准确地评估GOP任务。

"5. Quantitative results"部分展示了令人信服的数据。在GOO-Synth数据集上,GEOP在L2和Ang指标上分别达到0.214和6.2°,优于所有对比方法。特别在GOP任务上,使用能量方法EBB
的APBL
达到31.24%,显著优于基线方法。热图方法在"Inside any GT BB"测试中准确率达69.46%,证明其捕捉视觉注意力的有效性。

"6. Qualitative results"通过可视化案例展示了模型的实际表现。在物品密集的场景中,GEOP能准确识别被注视的特定商品,即使在人脸部分遮挡的挑战性情况下仍保持稳健性能。不过研究也指出,当货架上存在大量相似物品时,模型仍会出现预测偏差。

"7. Ablation studies"部分验证了各模块的贡献。移除注意力机制导致AUC下降4.2%,证明跨模态特征融合的重要性;去掉HPX
使L2误差增加0.032,证实双回归设计的价值;而缺少头部位置掩码IB
输入则全面降低模型性能,凸显空间参考信息的关键作用。

这项研究的重要意义在于:首先,GEOP模型首次实现了视线追踪与物体检测的真正融合,而非简单串联,计算效率提升显著;其次,提出的APBL
指标为GOP任务建立了标准化评估体系;最后,在零售场景中的成功应用验证了技术的实用价值。正如作者在讨论部分指出的,这项技术不仅可用于消费者行为分析,未来在辅助医疗诊断、智能安防等领域也有广阔前景。特别是模型对极端头部姿态和遮挡的鲁棒性,使其在复杂现实场景中具有独特优势。

研究也坦诚指出了当前局限:在物品极度密集的场景中性能仍有提升空间;对深度信息的缺失限制了三维空间中的精确判断。这些都为未来研究指明了方向——或许结合Transformer架构和深度感知模块,能够进一步突破现有技术的天花板。无论如何,这项研究已经为视觉注意力分析领域树立了新的标杆,其创新思路和方法论将启发更多后续探索。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号