基于深度变换的学生注视目标估计方法:以双视角教室图像为例

《Computer Vision and Image Understanding》:Student gaze target estimation based on depth transformation on dual-view classroom images

【字体: 时间:2025年10月15日 来源:Computer Vision and Image Understanding 3.5

编辑推荐:

  现有方法因忽视深度信息导致教室场景中视线目标估计失效,我们提出深度感知双视角框架:1)基于几何一致性的单目深度估计模块解决特征退化;2)双视角深度变换框架实现跨摄像头空间对齐;3)上下文感知金字塔特征提取模块增强多主体场景的全局建模。构建MPMOCS和DVSEG数据集验证,单视角和双视角估计精度分别提升19.7%和24.3%。

  在教育研究领域,学生在教学过程中的注视目标估计是一项至关重要的任务。这项技术不仅能够帮助研究人员更深入地理解学生在课堂中的注意力分布、认知参与度以及学习行为,还能为教师提供科学依据,以便优化教学策略,提高课堂效率和知识获取效果。然而,当前的注视目标估计方法在处理深度信息方面存在明显不足,主要集中在二维图像特征的分析上,忽视了三维空间上下文对全局上下文建模的重要性。这种局限性在复杂的教室环境中尤为突出,导致模型在预测注视目标时出现偏差,影响了整体的准确性。

为了解决这一问题,我们提出了一种深度感知的注视目标估计框架,专门针对教室场景进行设计。该框架由三个关键组成部分构成:首先,我们开发了一个深度估计模块,用于处理由于缺乏深度信息而导致的特征信息退化问题;其次,我们设计了一种双视角深度变换方法,能够将学生的注视锥投影到目标视角的图像中;最后,我们引入了一个上下文感知的金字塔特征提取(CPFE)模块,生成多尺度的高层特征表示,从而增强全局上下文建模的能力。此外,我们还构建了两个专门用于本任务的数据集(MPMOCS 和 DVSEG)。在这些数据集上的实验结果表明,我们的方法在单视角和双视角的注视目标估计任务中均取得了显著的性能提升。

现有的注视目标估计方法通常依赖于对视觉注意力目标的预测,通过分析注视方向来实现。这些方法在受限的场景中表现良好,例如,当观察者和目标物体处于同一视野范围内、观察者数量较少、空间层次较浅的情况下。然而,在复杂环境中,如高密度的人与物互动、跨视角的观察者与目标之间的空间关系、以及多层深度配置等情况下,这些方法的性能显著下降。特别是在教室环境中,由于教室布局通常较为密集,且存在明显的深度分层(如多排座位),缺乏深度信息会导致空间推理能力的不足,从而引发误差的累积。图 2 展示了一个典型的失败案例:尽管红色标记的学生实际注视的是她的笔记本,但由于缺乏深度信息,深度感知不足的模型错误地将注意力关联到了前排的一名同学。这一错误的根源在于,模型无法正确处理物体之间的前后关系,导致了注视目标的误判。在双视角设置中,教师和学生的图像分别由不同的摄像头(前视和后视)捕捉,这两个视角处于不同的空间坐标系统中。这种差异使得图像对齐变得更加复杂,进而影响了学生注视锥在目标视角图像中的准确投影。此外,摄像头对场景空间的覆盖范围不同,也加剧了这一问题,因为目标视角中的注视线索可能会被遗漏。

为了应对这些挑战,我们对教室环境中的学生注视目标估计进行了深入研究。首先,为了解决由于缺乏深度信息导致的特征信息退化问题,我们引入了一个基于几何一致性约束的单目深度估计模块。该模块能够为教室场景生成可靠的深度信息,从而有效缓解传统注视估计技术在教育场景中常见的“偏离”误差。我们的工作首次将单目深度估计与双视角注视三角化相结合,以解决传统二维方法中存在的空间错位问题。

接下来,我们开发了一种双视角深度变换框架,该框架通过应用几何变换原理,实现了空间(x-y)和深度(z)维度的统一映射。这一方法确保了跨模态对齐的一致性,同时保留了深度信息的准确性,从而解决了传统方法中普遍存在的三维空间错位问题。通过这一框架,我们能够在不同的视角之间建立一致的深度感知,使得学生在不同视角下的注视行为能够被准确地关联和分析。

此外,传统注视线索检测算法在处理教室环境中多个互动主体的场景时,其全局上下文建模能力和结构保持能力存在明显不足。与通常包含单个或少量人物的公共数据集(如电影片段和日常场景)相比,教室数据集中的每帧图像通常包含约10至20名学生,这使得场景的复杂性显著增加。传统算法在面对这种高密度的场景时,往往难以准确捕捉小目标的注意力线索,导致对与学生注意力模式相关的注视区域的预测不够精确。为了解决这一问题,我们设计并实现了一个上下文感知的金字塔特征提取(CPFE)模块,用于提升教室场景中注视线索检测的准确性。该模块能够逐层聚合多尺度的上下文特征,从而在密集的教室环境中实现对注意力相关区域的精确定位。这一改进对于通过可靠的注意力监测来优化教学成果具有关键意义。

本研究的主要贡献包括以下三个方面:第一,我们提出了一种单目深度估计模块,通过应用几何一致性约束,生成适用于教室场景的几何有效的深度图,有效缓解了传统注视估计技术在教育场景中常见的“偏离”误差;第二,我们开发了一种双视角深度变换框架,通过将几何变换原理应用于空间和深度维度,实现了跨模态对齐的一致性,同时保留了深度信息的准确性,从而解决了传统方法中普遍存在的三维空间错位问题;第三,我们设计了一个上下文感知的金字塔特征提取(CPFE)模块,用于提升教室场景中注视线索检测的准确性。该模块能够逐层聚合多尺度的上下文特征,从而在密集的教室环境中实现对注意力相关区域的精确定位。这一改进对于通过可靠的注意力监测来优化教学成果具有关键意义。

在方法部分,我们的框架包括两个主要的计算分支:SOI(学生面向图像)估计分支和TOI(教师面向图像)估计分支。前者处理的是学生和他们的注视目标共存于同一图像帧的场景,而后者则用于处理注视目标位于不同视角下TOI中的跨帧情况。接下来的子部分将详细描述这两个分支的架构实现。

在实验部分,我们首先介绍了关键的实验细节,包括数据集的描述、数据集的划分方式以及图像颜色增强的处理流程。然后,我们描述了所提出的模型中各个模块的实现方法,并介绍了用于评估的指标。随后,我们对几种典型的对比基线方法进行了说明,并展示了实验结果,包括详细的消融研究分析。

通过上述方法的创新,我们的研究不仅解决了传统注视目标估计方法在深度信息处理和全局上下文建模方面的不足,还为教室环境中的注意力监测提供了更精确和可靠的解决方案。这些成果有望在教育技术领域产生深远影响,为教师提供更科学的教学支持,同时推动人工智能在教育场景中的应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号