FAME：用于鲁棒多模态面部动作单元检测的频率与运动外推算法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：FAME: Frequency and Motion Extrapolation for Robust Multimodal Facial Action Unit Detection

【字体：大中小】 时间：2026年03月27日 来源：Pattern Recognition 7.6

编辑推荐：

　　面部动作单元（AU）检测是动态表情理解的关键技术，现有自监督方法存在 shortcut learning 和 temporal ambiguity 问题。本文提出FAME框架，通过异步跨模态预训练（2D图像与3D点云）和频率域掩码策略，抑制全局外观特征，强化高频率AU相关细节的建模，同时利用时空方向性约束提升动态表征能力。实验表明FAME在BP4D、DISFA和Aff-Wild2数据集上显著优于基线方法，尤其在捕捉非对称、低幅度表情变形方面表现突出。

施梦鑫|卢成|胡张峰|常宏丽|张京华|宗远

东南大学信息科学与工程学院，南京，210096，中国

摘要

面部动作单元（AU）检测是理解动态面部表情的关键组成部分，但同时也充满挑战。现有的自监督方法往往难以捕捉AU运动的细节、时间和方向特性，导致诸如捷径学习和时间模糊性等限制。为克服这些挑战，我们提出了频率与运动外推（FAME）这一新颖的自监督多模态学习框架，专为动态AU表示学习而设计。FAME通过高通滤波的面部图像和过去的 incomplete 点云进行异步掩码预训练。具体而言，我们结合频率域掩码和模态不匹配，通过掩码当前面部图像的低频成分，并使用从 RGB 估计的几何上不同的 3D 点云进行重建。这种跨模态交互明确地模拟了面部运动的时间进展，增强了模型捕捉视觉和几何表示之间语义相关性的能力。在包括 BP4D、DISFA 和 Aff-Wild2 在内的广泛使用的 AU 数据集上进行的全面实验，证明了我们的跨模态和动态感知重建方法的有效性。

引言

动作单元（AUs）是面部动作编码系统（FACS）[1] 中定义的基本组成部分，用于表示与人类表情相关的特定面部肌肉运动。每个 AU 对应一个或多个面部肌肉的收缩或放松，为描述面部行为提供了全面的分类体系。准确检测 AUs 在各种应用中至关重要，包括表情识别 [2]、[3]、虚拟现实 [4]、面部重演 [5] 和医学诊断 [6]，因为它有助于更深入地理解潜在的情感状态和非语言交流线索。

尽管在监督式 AU 检测 [7]、[8] 方面取得了近期进展，但该领域仍受到高注释成本、有限标记数据集和跨受试者泛化能力差的限制。自监督学习（SSL）通过利用未标记视频中的固有结构提供了一种有前景的替代方案。然而，现有的自监督 AU 检测方法在模拟面部表情的细粒度、时间结构和方向特性方面存在不足。早期的自监督方法（如 Lu 等人 [9]）引入了基于视频帧三元组的时间排序损失来编码时间一致性。虽然这种方法在粗粒度上有效，但存在以下问题：（1）捷径学习，模型利用静态视觉相似性（例如颜色或光照）而非学习动态表情模式；（2）时间模糊性，由于 AU 运动的抛物线和对称性质（例如增强和消退阶段看起来相似）；（3）缺乏方向建模，因为排序目标将时间序列视为对称的，未能捕捉到表情的真实世界方向演变。最近的工作（如 Contrastively Learn the Person-independent (CLP) [10]）试图通过引入基于记忆的跨身份重建和加权三元组对比学习来解决这些问题。尽管 CLP 改进了跨身份的表示一致性并考虑了运动对称性，但它依赖于从记忆库中通过线性组合重建查询嵌入，这有可能重新引入基于外观的捷径。这是因为重建权重来自嵌入相似性，记忆库可能会优先检索并线性组合外观最相似的样本（例如相似的肤色或光照），这些样本占据较大的面部区域，可能会掩盖与 AU 相关的微妙变形。CLP 的学习目标可能通过表面的匹配得到满足，从而产生满足重建目标的表示，但不足以区分不同的 AU。这激发了我们设计的方法，这些方法明确抑制了全局外观线索，并强制进行方向感知的面部运动学习。

除了使用时间对比损失的方法外，还有一系列工作将掩码自编码器（MAEs [11]）适应于视频理解。[12] 应用视频掩码自编码器（VideoMAE）[13] 通过沿时间维度掩码图像块来进行自监督 AU 检测。值得注意的是，[12] 将时间轴视为与空间维度各向同性的，对时空立方体进行均匀掩码处理。这种设计忽略了视频的非各向同性、方向特性，[14] 明确指出了这一问题，并引入了不对称性和时间对应关系建模。虽然这是理解 AU 方向演变的一个步骤，但连体掩码自编码器（SiamMAE）[14]（以及原始的 VideoMAE）仍然是一般用途和以对象为中心的，缺乏模拟 AU 检测所需的复杂、低幅度变形所需的粒度。

为了解决这些限制，我们提出了 FAME（频率与运动外推），这是一个专为细粒度、时间方向性和多模态 AU 表示学习而设计的新颖自监督学习框架。与以往的方法不同，FAME 利用 2D 视觉和 3D 几何模态之间的异步帧对来防止基于视觉相似性的捷径学习。它从过去的点云重建当前图像，从而编码了具有方向感知的 AU 进化表示。为了进一步增强面部动态学习，我们采用了图 1 中所示的掩码频率建模方法。现有的方法（如 VideoMAE 和 SiamMAE）选择保留图像块的简单随机掩码，而我们则过滤掉输入帧的低频成分，只保留高频成分，这是因为高频信号保留了空间细节，而低频成分更好地表征了帧内运动 [15]。此外，低频视觉成分通常编码外观信息（例如颜色、形状），并且更容易受到域变换的影响 [16]，低频掩码有意阻断这些简单的捷径，以提高跨身份和环境的泛化能力。因此，应用这种掩码策略迫使模型依赖于面部细节（如皱纹和沟纹）来重建被掩码的面部动态。

为了评估所提出的预训练方案的有效性，我们使用不同的微调架构在 BP4D、DISFA 和 Aff-Wild2 数据集上系统地评估了模型。我们的方法表现出强大的性能，与现有方法相比取得了有竞争力的结果。进一步的消融研究也表明了我们的自监督多模态学习框架在捕捉准确 AU 检测所需的静态和动态特征方面的有效性。

总结来说，本文做出了以下贡献：

•
时间方向性跨模态监督：FAME 从过去的模态（3D 点云）重建当前的模态（2D 图像），明确模拟了时间上的方向运动，并强制网络预测 AU 的演变，而不是回归静态帧的相似性。
•
频率域掩码与模态不匹配：为了抑制捷径学习，FAME 掩盖面部图像的低频域，去除了全局外观线索，同时保留了与 AU 相关的高频纹理。关键的是，模型必须使用 3D 点云来重建这些低频成分，而这种模态与 2D 纹理之间没有简单的映射关系。这种频率-空间不匹配作为一种结构约束，防止模型依赖于简单的像素级相关性，并鼓励其学习形状和外观之间的语义对应关系。
•
多模态、多层次重建：FAME 通过分支编码器和专门的解码器处理像素、频率和几何输出，强制跨模态的对齐学习，捕捉对面部表情至关重要的外观变化和结构变形。

部分摘录

多模态自监督学习

自监督学习在使模型无需依赖标记数据即可学习通用特征方面显示出显著潜力。特别是 MAE [11]，通过重建掩码图像来学习特征表示，在各种下游任务中取得了优异的性能。在单模态设置中取得成功的基础上，最近的研究将重点转向多模态 MAE，通过结合来自多个模态的信息来获得更通用的表示

方法

理解动态面部表情需要捕捉细粒度的外观变化以及随时间演变的底层 3D 肌肉运动。然而，现有的基于视频的表示学习方法通常假设视频在时空上是各向同性的，将帧间的外观和运动特征视为同质且可互换的。这种假设在现实世界场景中不成立，特别是在面部视频中，表情的展开具有高度

数据集和设置

数据集根据现有工作 [26]、[27]、[28] 中建立的评估协议，我们在三个基准数据集上评估了我们的方法：BP4D [29]、DISFA [30] 和 Aff-Wild2 [31]，这些数据集涵盖了受控和自然场景。

BP4D 是一个旨在捕捉自发面部表情的受限数据集。它包括来自 41 名受试者（23 名女性和 18 名男性）的视频，每个人参与了八项引发情绪的任务。视频以每秒 25 帧的速度录制

结论

本文提出了频率与运动外推（FAME），这是一个用于 AU 检测的自监督多模态框架，它从面部动态中学习。FAME 通过整合 2D 面部图像和 3D 面部点云之间的异步交互来捕捉时间方向性运动，同时使用频率域掩码来强调与 AU 相关的面部细节并抑制粗糙的外观线索。在 BP4D、DISFA 和 Aff-Wild2 上进行的广泛实验证明了其强大且一致的性能

CRediT 作者贡献声明

施梦鑫：概念化、方法论、撰写——原始草稿。卢成：监督、撰写——审阅和编辑、资金获取。胡张峰：调查、方法论、软件、可视化。常宏丽：验证、可视化、撰写——审阅和编辑。张京华：形式分析、数据管理。宗远：项目管理、资源、资金获取。

CRediT 作者贡献声明

施梦鑫：撰写——原始草稿、方法论、概念化。卢成：撰写——审阅与编辑、监督、资金获取。胡张峰：可视化、软件、方法论、调查。常宏丽：撰写——审阅与编辑、可视化、验证。张京华：形式分析、数据管理。宗远：资源、项目管理、资金获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

多模态自监督学习

方法

数据集和设置

结论

CRediT 作者贡献声明

CRediT 作者贡献声明

利益冲突声明

热点排行