
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于解耦扩散模型的视线与头部姿态协同重定向方法(GHR-2D)及其在跨域注视估计中的应用
【字体: 大 中 小 】 时间:2025年08月08日 来源:Engineering Microbiology CS3.9
编辑推荐:
本文创新性地提出GHR-2D框架,通过潜在扩散模型(LDM)实现面部图像中视线(gaze)与头部姿态(head pose)的协同编辑。采用特征解耦编码器将二维角度向量映射至潜在空间,结合相对视线补偿生理结构偏差,构建了包含身份(Fi)、视线(Fg)和头部姿态(Fh)的三元嵌入空间。实验表明该方法显著提升ETH-XGaze等数据集的跨域评估精度,为驾驶安全监测等应用提供新范式。
Highlight
我们提出基于扩散模型的创新框架GHR-2D,通过潜在空间解耦实现视线与头部姿态的精准重定向。该方法突破传统生成对抗网络(GAN)在生理结构模拟上的局限,首次将相对视线补偿机制融入生成过程,有效解决视觉-光学轴偏差问题。
Cross-domain gaze estimation
跨域注视估计的核心挑战源于实验室数据与真实场景的域间差异。相较于无监督学习(Liu et al., 2021)和域适应方法,我们的生成式解决方案通过扩充源域数据分布,显著提升模型在MPIIFaceGaze(DM)到ETH-XGaze(DE)等跨数据集场景下的鲁棒性。
Preliminaries
扩散模型通过T步去噪过程将随机噪声εt~N(0,I)转化为目标图像X0。我们创新性地将该范式应用于面部特征编辑,其概率转移公式q(Xt|Xt-1)通过马尔可夫链实现角度条件的精准控制。
Proposed method
如图1所示,我们的框架包含三大核心模块:
角度编码器将俯仰角(pitch)和偏航角(yaw)映射为潜在空间条件
特征融合网络通过自注意力机制关联Fg与Fh嵌入
相对视线模块采用眼球-相机坐标系转换补偿科尔尼偏差(Kc)
Datasets
在MPIIFaceGaze(DM)和EyeDiap(DD)上的实验表明,生成图像能保持98.7%的身份特征一致性,同时实现±15°的视线调整精度。
Conclusion
本方法首次实现生理结构感知的头部-视线协同编辑,为医疗诊断(如眼球震颤监测)和智能驾驶等场景提供新的数据增强方案。扩散模型的条件引导机制较传统GAN提升23.5%的跨域评估准确率。
生物通微信公众号
知名企业招聘