
-
生物通官微
陪你抓住生命科技
跳动的脉搏
数字人生成系统的安全隐忧:基于对抗攻击的EHPS模型脆弱性揭示与防御启示
【字体: 大 中 小 】 时间:2025年07月08日 来源:Pattern Recognition 7.5
编辑推荐:
针对数字人生成系统中表达性人体姿态与形状估计(EHPS)模型的安全漏洞问题,研究人员提出首个针对性对抗攻击框架TBA,创新性地融合变分自编码器(VAE)和ControlNet构建双异质噪声生成器(DHNG),通过多梯度优化使SMPL-X等模型的估计误差提升41.0%,揭示了当前EHPS系统在虚拟现实等场景中的重大安全隐患。
在虚拟主播、元宇宙社交等应用爆发的今天,数字人的逼真程度直接影响用户体验。然而鲜为人知的是,这些看似智能的系统正面临"数字化妆术"的威胁——攻击者只需对输入图像添加特殊设计的噪声,就能让数字人做出扭曲表情或危险动作。北京某高校团队在《Pattern Recognition》发表的研究首次系统揭示了这一安全隐患:当前主流的表达性人体姿态与形状估计(Expressive Human Pose and Shape Estimation, EHPS)模型虽能精确重建包含面部微表情和手指动作的3D人体,但其防御机制几乎为零。
研究团队创新性地提出"实体攻击"(Tangible Attack, TBA)框架,核心技术包括:1)双异质噪声生成器(Dual Heterogeneous Noise Generator, DHNG)融合VAE的潜空间扰动与ControlNet的条件控制;2)针对SMPL-X模型参数设计的对抗损失函数;3)基于投影梯度下降(PGD)的多梯度优化策略。实验采用3DPW和UBody数据集,在NVIDIA A100 GPU环境下验证攻击效果。
【Expressive human pose and shape estimation】
研究发现当前SMPLer-X等先进模型将人体姿态参数δ∈Ω53×3分解为身体(δbody∈Ω22×3)、左右手(δlhand/δrhand∈Ω15×3)和下颌(δjaw∈Ω1×3)等子模块,但各模块间缺乏安全协同机制。
【Approach】
TBA框架通过DHNG同时生成结构噪声和纹理噪声,其中VAE分支操纵SMPL-X的shape参数ρ∈Ω10潜空间,ControlNet分支则针对面部关键点进行定向干扰。对抗损失函数首次引入手部关节角约束,使攻击更符合生物力学特征。
【Experiments】
在直播场景测试中,经TBA处理的输入图像使数字人出现"手指反关节"等异常姿态,SMPLer-X模型的平均误差提升17.0%,最大单帧误差达41.0%。值得注意的是,攻击噪声在PSNR>30dB时仍保持视觉不可察觉性。
该研究不仅暴露了EHPS模型在VR社交等场景可能引发的虚拟恐怖主义风险,更开创性地将对抗攻击研究从传统图像分类延伸至3D人体生成领域。作者团队在讨论部分强调,当前数字人系统亟需建立类似"免疫系统"的多层次防御机制,特别是在涉及金融支付、医疗问诊等高风险场景时,必须将对抗鲁棒性纳入模型评估标准。这项工作获得国家自然科学基金(62441617)和北京市自然科学基金(4254100)支持,相关防御技术已申请专利保护。
生物通微信公众号
知名企业招聘