编辑推荐:
在视觉搜索研究中,混合搜索(HS)任务的眼动模拟存在空白。研究人员开展 “Integrating Bayesian and neural networks models for eye movement prediction in hybrid search” 主题研究,构建 nnELM 模型与 HSEM 数据集,结果表明新模型能有效处理混合搜索并模拟人类行为,推动了相关领域发展。
在日常生活里,我们常常要进行各种视觉搜索活动,比如早上找杯子、勺子准备早餐。这看似简单的行为,背后却涉及复杂的认知过程,其中眼睛的注视(fixation)和扫视(saccade)起着关键作用 。近年来,虽然针对自然场景中视觉搜索的计算模型有所发展,但在混合搜索领域,相关模型却极为匮乏。已有的混合搜索研究大多基于人工图像,与现实场景差异较大,限制了研究成果的生态效度。而且,目前对于视觉搜索中最合适的评估指标也尚未达成共识。在这样的背景下,为了深入理解混合搜索过程并提高模型对人类行为的模拟能力,来自阿根廷布宜诺斯艾利斯大学(Universidad de Buenos Aires)、英国诺丁汉大学(The University of Nottingham)等机构的研究人员开展了相关研究。
研究人员提出了一种增强的神经网络熵限最小化(nnELM)模型,该模型基于贝叶斯框架和信号检测理论。同时,他们还创建了混合搜索眼动(Hybrid Search Eye Movements,HSEM)数据集,其中包含了数千个人类在混合搜索任务中的眼动数据 。通过一系列实验,研究人员发现调整模型的周边可见性(peripheral visibility)可提高早期搜索效率,使其更符合人类行为;限制模型的视觉工作记忆(Visual Working Memory,VWM)会降低长时间搜索的成功率,这与人类的表现相似。在与其他模型的对比中,新的 nnELM 模型在处理自然场景中的混合搜索任务时表现更优,能够更紧密地复制人类行为,这一成果发表在《Scientific Reports》上,对推动视觉搜索领域的发展具有重要意义。
研究人员采用了多种关键技术方法。在数据采集方面,招募了来自阿根廷布宜诺斯艾利斯大学和英国诺丁汉大学的 44 名参与者,使用 EyeLink 1000 Plus 远程系统以 500Hz 的采样率记录眼动数据。在模型构建与评估中,基于贝叶斯框架和已有研究构建 nnELM 模型,并使用如效率(efficiency)、扫描路径相似性(scanpath similarity)等多种指标,与多种控制条件下的模型进行对比验证 。
人类行为:研究发现参与者在混合搜索任务中的反应时间与记忆集大小(Memory Set Size,MSS)呈对数依赖关系,目标检测准确率随 MSS = 4 而下降。不同 MSS 下,参与者的注视次数和重新注视次数不同,扫视方向分布偏向水平,且主要序列与以往研究相似。
提高视觉搜索模型性能:可见性和工作记忆容量的影响:通过改进可见性地图,使模型能够捕捉周边视觉信息,在多个指标上优于之前的 nnELM 模型,且使扫视幅度更接近人类。在限制视觉工作记忆容量时,采用固定数量注视或指数衰减的方式,发现指数衰减(衰减指数为 0.125)的模型性能更佳,且遗忘先验(prior)的模型表现更优。
使模型适应混合搜索:目标选择标准:对于多目标情况,研究人员提出并行估计每个目标的后验概率图,并选择信息最多(即熵最小)的图来引导下一次注视的 MinEntropy 方法。对比其他选择策略,该方法在 MSS 为 2 和 4 时表现更优。
模型验证:在验证集和外部的 ViSioNS 基准测试中,改进后的模型在所有指标上均优于之前的模型,如 nnIBS 等,降低了过拟合的可能性。
研究人员成功开发了首个用于自然场景中混合搜索眼动的计算模型,并通过实验验证了其有效性。该模型考虑了周边可见性和视觉工作记忆等因素,更准确地模拟了人类在混合搜索中的行为。然而,模型仍存在一些局限性,如先验未明确纳入上下文信息、可见性地图不够精确等 。尽管如此,这项研究为后续更深入的视觉搜索研究提供了重要的基础,推动了该领域向更真实、更精确的方向发展,有助于进一步理解人类在复杂视觉搜索任务中的认知机制。