基于解耦扩散模型的视线与头部姿态协同重定向方法（GHR-2D）及其在跨域注视估计中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月08日 来源：Engineering Microbiology CS3.9

编辑推荐：

　　本文创新性地提出GHR-2D框架，通过潜在扩散模型（LDM）实现面部图像中视线（gaze）与头部姿态（head pose）的协同编辑。采用特征解耦编码器将二维角度向量映射至潜在空间，结合相对视线补偿生理结构偏差，构建了包含身份（Fi）、视线（Fg）和头部姿态（Fh）的三元嵌入空间。实验表明该方法显著提升ETH-XGaze等数据集的跨域评估精度，为驾驶安全监测等应用提供新范式。

Highlight

我们提出基于扩散模型的创新框架GHR-2D，通过潜在空间解耦实现视线与头部姿态的精准重定向。该方法突破传统生成对抗网络（GAN）在生理结构模拟上的局限，首次将相对视线补偿机制融入生成过程，有效解决视觉-光学轴偏差问题。

Cross-domain gaze estimation

跨域注视估计的核心挑战源于实验室数据与真实场景的域间差异。相较于无监督学习（Liu et al., 2021）和域适应方法，我们的生成式解决方案通过扩充源域数据分布，显著提升模型在MPIIFaceGaze（D_M）到ETH-XGaze（D_E）等跨数据集场景下的鲁棒性。

Preliminaries

扩散模型通过T步去噪过程将随机噪声ε_t～N(0,I)转化为目标图像X₀。我们创新性地将该范式应用于面部特征编辑，其概率转移公式q(X_t|X_t-1)通过马尔可夫链实现角度条件的精准控制。

Proposed method

如图1所示，我们的框架包含三大核心模块：

角度编码器将俯仰角（pitch）和偏航角（yaw）映射为潜在空间条件
特征融合网络通过自注意力机制关联F_g与F_h嵌入
相对视线模块采用眼球-相机坐标系转换补偿科尔尼偏差（K_c）

Datasets

在MPIIFaceGaze（D_M）和EyeDiap（D_D）上的实验表明，生成图像能保持98.7%的身份特征一致性，同时实现±15°的视线调整精度。

Conclusion

本方法首次实现生理结构感知的头部-视线协同编辑，为医疗诊断（如眼球震颤监测）和智能驾驶等场景提供新的数据增强方案。扩散模型的条件引导机制较传统GAN提升23.5%的跨域评估准确率。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号