图像显著性预测他人注视行为的认知机制及其社会意义

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月29日 来源：Cognition 2.8

编辑推荐：

　　研究人员通过构建3D虚拟场景，采用人类眼动数据驱动锥形代理的注视行为，探究图像显著性（saliency）如何影响观察者对他人视觉注意的预期。实验发现参与者能有效区分代理注视行为与场景的匹配性，且判别敏感性受注视路径与显著性特征重叠度调节（d'=1.06 vs. 0.11）。该研究首次证实计算视觉显著性模型（OSIE数据集）不仅可预测个体注意力分配，还能解释社会认知中对他人的注视预期，为理解社交互动机制提供新视角。

在社交互动中，人类能够敏锐捕捉他人的视线方向，这种能力对理解意图、建立共情至关重要。然而，当面对动态复杂的注视行为时，人们如何判断对方的视线是否符合环境特征？传统研究多聚焦静态视线感知，而对动态注视行为与场景显著性的关联机制知之甚少。这一认知盲区限制了我们对社会注意力共享机制的理解，也阻碍了人工智能在拟人化交互中的发展。

为解决这一问题，新南威尔士大学的研究团队创新性地将计算视觉模型与社会认知研究相结合。他们利用Blender 3.6构建虚拟场景，其中锥形代理的旋转运动由OSIE数据库的人类眼动数据驱动。通过操纵代理注视路径与场景图像的匹配性（匹配/错配），研究者发现参与者能显著区分两种条件（d'=1.06），且错配试次中当注视路径偶然对齐图像显著性特征时，判断准确率下降43%。研究进一步采用Xu等开发的多层次显著性模型（含像素/对象/语义特征）分析发现，对象级特征（如复杂度、凸度）与判断错误率相关性最强（r=0.42），而语义特征中"人脸""文本"等元素也显著影响预期。该成果发表于《Cognition》，首次证实计算显著性模型可双向解释个体注意分配与社会注视预期。

关键技术包括：1）基于OSIE数据库的700幅图像及15名观察者眼动数据构建刺激；2）Blender 3.6开发立体动画，通过50像素分箱和熵值计算量化扫描路径相似性；3）采用Xu等显著性模型进行地图-注视重叠分析（map-gaze overlap）；4）信号检测论计算d'和C值。

【3.1 参与者表现】
24名参与者对错配试次的辨别敏感性存在显著差异（d'范围-0.34~2.23）。扫描路径相似性显著影响表现：差异较大试次中位d'达1.06，而相似试次仅0.11（p<0.001）。反应偏差分析显示参与者普遍倾向判断为"匹配"（C=-0.80）。

【3.2 显著性模型预测】
地图-注视重叠度与误报率呈正相关（r=0.43），证实显著性特征对齐会干扰判断。AUC分析显示对象级模型预测力（d'=2.01）接近人类上限，优于纯像素级模型（d'=0.81）。

【3.3 时间动态分析】
扫描路径首注视点与显著性特征的重叠度对误判影响更大（r=0.22 vs. 末注视点r=0.11），暗示早期显著性捕获对预期形成的关键作用。

该研究突破性地揭示：1）社会注视预期受多层次图像特征调控，其中对象级属性起主导作用；2）动态注视行为的时间序列影响判断，首注视点效应凸显认知加工的时序特性；3）为ASD等社交障碍的注视异常提供新解释框架——其可能源于显著性权重分配的异常。研究创新地将计算模型与社交认知结合，不仅为人工智能的拟人化交互设计提供量化标准，更为临床诊断开发了基于显著性偏差的新型生物标记物潜力。未来可拓展至跨文化比较、特殊人群认知重组等领域，推动"计算社会神经科学"的学科融合。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号