基于解耦扩散模型的视线与头部姿态协同重定向方法(GHR-2D)及其在跨域注视估计中的应用

【字体: 时间:2025年08月08日 来源:Engineering Microbiology CS3.9

编辑推荐:

  本文创新性地提出GHR-2D框架,通过潜在扩散模型(LDM)实现面部图像中视线(gaze)与头部姿态(head pose)的协同编辑。采用特征解耦编码器将二维角度向量映射至潜在空间,结合相对视线补偿生理结构偏差,构建了包含身份(Fi)、视线(Fg)和头部姿态(Fh)的三元嵌入空间。实验表明该方法显著提升ETH-XGaze等数据集的跨域评估精度,为驾驶安全监测等应用提供新范式。

  

Highlight

我们提出基于扩散模型的创新框架GHR-2D,通过潜在空间解耦实现视线与头部姿态的精准重定向。该方法突破传统生成对抗网络(GAN)在生理结构模拟上的局限,首次将相对视线补偿机制融入生成过程,有效解决视觉-光学轴偏差问题。

Cross-domain gaze estimation

跨域注视估计的核心挑战源于实验室数据与真实场景的域间差异。相较于无监督学习(Liu et al., 2021)和域适应方法,我们的生成式解决方案通过扩充源域数据分布,显著提升模型在MPIIFaceGaze(DM)到ETH-XGaze(DE)等跨数据集场景下的鲁棒性。

Preliminaries

扩散模型通过T步去噪过程将随机噪声εt~N(0,I)转化为目标图像X0。我们创新性地将该范式应用于面部特征编辑,其概率转移公式q(Xt|Xt-1)通过马尔可夫链实现角度条件的精准控制。

Proposed method

如图1所示,我们的框架包含三大核心模块:

  1. 角度编码器将俯仰角(pitch)和偏航角(yaw)映射为潜在空间条件

  2. 特征融合网络通过自注意力机制关联Fg与Fh嵌入

  3. 相对视线模块采用眼球-相机坐标系转换补偿科尔尼偏差(Kc

Datasets

在MPIIFaceGaze(DM)和EyeDiap(DD)上的实验表明,生成图像能保持98.7%的身份特征一致性,同时实现±15°的视线调整精度。

Conclusion

本方法首次实现生理结构感知的头部-视线协同编辑,为医疗诊断(如眼球震颤监测)和智能驾驶等场景提供新的数据增强方案。扩散模型的条件引导机制较传统GAN提升23.5%的跨域评估准确率。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号