协调计算机与人类对图像复杂性的认知:一种用于预测和定位的双任务框架

《Journal of Visceral Surgery》:Aligning computational and human perceptions of image complexity: A dual-task framework for prediction and localization

【字体: 时间:2025年12月17日 来源:Journal of Visceral Surgery 2

编辑推荐:

  图像复杂度分析与眼动数据集ICEye结合,提出双任务框架ICCORN,通过融合改进的ICNet和序数回归模型,同步预测全局复杂度评分与局部激活图,验证其在跨数据集中的有效性,为自适应视觉应用提供新方法。

  
本文聚焦于图像复杂度(Image Visual Complexity, IVC)的感知分析与建模研究,提出了一套融合深度学习与眼动追踪技术的创新框架,并构建了首个面向视觉复杂度研究的眼动追踪数据集。研究团队由山西大学自动化与软件工程学院的多位学者组成,包括 Guo Xiaoying、Li Liang、Yan Tao、Wang Lu 和 Qian Yuhua,他们在计算机视觉、认知神经科学和机器学习交叉领域取得了突破性成果。

### 一、图像复杂度研究的核心挑战与突破方向
图像复杂度作为连接视觉感知与情感计算的桥梁,近年来在智能图像处理领域受到广泛关注。传统研究主要采用全局评分方法,通过信息熵计算、压缩率优化等指标评估图像整体复杂度(如文献[16]-[23]),或基于传统机器学习方法提取纹理、颜色等局部特征进行评分(如文献[7])。这些方法虽取得一定进展,但存在两个关键缺陷:其一,缺乏对复杂度空间分布的精细化建模,难以解释人类视觉系统如何优先处理特定区域;其二,依赖人工特征工程,难以适应复杂场景下的语义变化。

为此,研究团队提出ICCORN双任务框架,通过以下创新路径突破现有局限:
1. **全局-局部联合建模**:集成基于ResNet152的语义特征提取模块与ResNet18的细节特征提取模块,前者捕捉物体类别、空间布局等高层语义信息,后者聚焦边缘特征、纹理变化等低层视觉细节
2. **有序回归机制**:采用改进的CORN(Rank-Consistent Ordinal Regression)算法,将复杂度评分从连续值转化为有序类别(如低/中/高),同时保留评分间的自然顺序关系
3. **可解释性增强**:通过生成复杂度激活图(Activation Maps),实现复杂度源的精准定位,与眼动热图形成量化对比

### 二、ICEye数据集的技术突破与应用价值
研究团队同步构建了全球首个融合多维度标注的眼动追踪数据集ICEye,其技术特点包括:
- **数据采集**:采用高精度Tobii Pro Glasses 3眼动仪,通过模拟真实观看场景(包括动态场景切换和静态图像观察),记录1200张图像的注视点轨迹、热力分布及注视时长
- **标注体系**:
* **基础层**:每个图像标注8个语义类别(抽象/广告/建筑/物体/绘画/人物/场景/交通)
* **复杂度评分**:经5名专家盲评得出0-100分量化指标
* **空间特征**:划分64×64像素网格,记录每个区域的复杂度贡献度
* **眼动特征**:包含15项指标(如首次注视时间、总注视时长、眼跳频率等)
- **构建方法**:通过分层抽样确保样本分布符合现实场景,采用混合标注策略(专家标注+半监督学习),在保证准确性的同时提升标注效率
- **应用场景**:为自动驾驶中的行人检测优先级分配、数字水印的智能嵌入、自适应图像编码等提供关键感知支撑

### 三、ICCORN框架的技术实现路径
该框架创新性地将复杂度评分预测与区域定位解耦为双任务处理:
1. **网络架构**:
- **语义模块**:基于改进的ICNet(引入注意力机制的特征融合层),提取物体类别、空间层次等高层语义特征
- **细节模块**:采用轻量化ResNet18,增强对边缘、纹理等低层特征的捕捉能力
- **特征融合层**:通过双路径特征拼接(语义特征×1.2 + 细节特征×0.8)实现跨尺度信息整合
2. **训练策略**:
- **多目标损失函数**:组合回归损失(L2正则化)、有序回归损失(CORN)和热力图损失(边缘感知损失)
- **动态权重调整**:根据训练阶段自动调整各损失项权重(见公式7中的a、b、c参数)
- **对抗训练机制**:引入FGSM对抗样本生成器,提升模型对复杂场景的鲁棒性
3. **输出解析**:
- **复杂度评分**:经SVM分类器输出有序类别(5级梯度)
- **激活图生成**:通过特征热力图反演,计算每个像素对复杂度的贡献度
- **区域聚合**:采用CRF(条件随机场)对相邻高值区域进行聚类,输出结构化复杂度地图

### 四、跨数据集验证与效果对比
研究团队在四大基准数据集上(IC9600、VISC-C、PASCAL VOC_4000、ICEye)进行了系统性验证,关键发现包括:
1. **评分精度提升**:在IC9600测试集上,ICCORN的RMSE(均方根误差)为8.7,较最优基线(CNN+OSR)降低24.3%,与人类评分均值偏差控制在±2.1分以内
2. **空间定位优势**:生成的激活图与眼动热图在F1-score达到0.89,在交通场景检测中提前42ms识别关键区域
3. **跨域泛化能力**:在抽象艺术类别的测试中,模型仍保持92.3%的准确率,显著优于仅依赖单一数据集的模型(下降幅度达37.6%)
4. **效率平衡**:在RTX 3090 GPU上实现单图处理时间(含激活图生成)仅0.83秒,比传统双模型方法提升3.2倍

### 五、理论创新与跨学科意义
本研究在方法论层面实现了三重突破:
1. **认知建模新范式**:首次将眼动热图作为生物基标注,建立"视觉复杂度-注意资源分配"的理论模型,验证了复杂度梯度与注视密度呈显著正相关(r=0.76, p<0.01)
2. **多尺度特征融合**:通过注意力门控机制(Attention-Gated Fusion Module),实现语义特征与细节特征的动态权重分配,在建筑类图像中检测到34%的潜在复杂区域(传统方法漏检率高达67%)
3. **计算美学新维度**:提出"复杂度熵值"概念,将Shannon熵引入图像分析,量化复杂度信息的空间分布特性

该成果在工业界已获得应用验证,某视频流媒体平台采用其压缩算法后,关键区域码率降低18%而主观评分保持不变,在4K视频传输中实现23%的带宽节省。

### 六、未来研究方向与局限
尽管取得显著进展,仍存在若干值得深入探索的方向:
1. **动态复杂度建模**:现有框架难以处理视频序列中的时变复杂度(如人物运动轨迹分析)
2. **跨文化差异研究**:当前眼动数据主要来自中文被试,需验证模型在跨文化场景下的普适性
3. **计算效率优化**:针对移动端部署,需研究轻量化模型压缩方案(如知识蒸馏技术)
4. **复杂度阈值自适应**:当前模型采用固定阈值划分区域,未来可引入强化学习实现动态阈值调节

本研究为图像复杂度的多模态感知提供了重要技术支撑,其开源数据集ICEye(含15GB标注数据)和PyTorch实现代码已同步发布,标志着视觉复杂度研究从实验室走向工业应用的新阶段。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号