一种面向密集多标签动作检测的高效方法：结合时序共现关系建模与位置感知Transformer

《INTERNATIONAL JOURNAL OF COMPUTER VISION》：An Effective-Efficient Approach for Dense Multi-Label Action Detection

【字体：大中小】 时间：2026年02月22日 来源：INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐：

　　本文针对密集多标签动作检测这一挑战性任务，提出了一个新颖高效的框架和学习范式。该研究解决了现有方法在建模动作共现关系和保持时序位置信息方面的不足，通过在训练阶段显式学习动作类别关系而不增加推理开销，并设计了一种非分层、嵌入相对位置编码的Transformer网络来保留位置信息。在Charades和MultiTHUMOS基准上的实验表明，该方法将每帧mAP分别提升了1.1%和0.6%，达到了新的最先进水平。

在视频理解领域，我们期望计算机能够像人一样，准确识别出视频中每个时刻发生的所有动作，比如在一个家务场景中，“拿起杯子”、“走向水池”、“拧开水龙头”这几个动作可能在时间上紧密重叠。这种场景被称为密集多标签动作检测，它比传统的稀疏标签动作检测（假设每个时刻只有一个动作）要复杂得多。要解决这个难题，模型必须同时学会两件事：一是理解不同动作类别之间的共现关系（例如“拿起杯子”常常伴随着“喝水”），二是捕捉长距离的时序依赖关系（例如判断“拧开水龙头”是否发生在“拿起杯子”之后）。然而，现有的方法在应对这两方面挑战时各有不足：要么为了建模动作关系而引入巨大的计算开销，要么在捕捉多尺度时序信息时丢失了至关重要的位置信息，导致模型可能将“从坐到站”错误地识别为“从站到坐”。为了解决这些核心问题，Faegheh Sardari等人开展了一项研究，旨在构建一个既有效又高效的密集多标签动作检测框架。这项研究最终取得显著成果，将Charades和MultiTHUMOS两个权威基准上的性能分别提升了1.1%和0.6%，达到了新的最高水平，相关论文发表在《INTERNATIONAL JOURNAL OF COMPUTER VISION》上。

本研究主要采用了三个关键技术方法：1. 双分支框架与知识蒸馏式学习范式：设计了一个包含核心分支和辅助分支的框架。核心分支处理视频数据进行检测，而辅助分支则使用真实标签通过自编码器结构显式学习动作间的共现关系。通过将辅助分支解码器的参数复制并冻结到核心分支的分类头，在训练阶段将学到的关系知识“蒸馏”给核心分支，从而在推理时无需额外计算就能利用这些关系。2. 非分层多尺度Transformer网络：与以往使用分层、渐进下采样的多尺度特征提取方法不同，本研究提出了一种非分层结构。核心分支中的精细检测模块和粗糙检测模块并行地从同一细粒度特征中提取不同尺度的时序特征，避免了多次下采样导致的位置信息丢失。3. 相对位置编码的Transformer模块：针对Transformer自注意力机制对顺序不敏感的问题，设计了一个相对位置Transformer模块，将相对位置编码嵌入到每一层中，而非像绝对位置编码那样仅加在输入上。这有助于模型在保持平移不变性的同时，更好地保留对动作检测至关重要的时序位置信息。

方法论

本研究提出了一种新颖的框架和学习范式，旨在高效且有效地学习密集多标签动作检测任务中复杂的时序共现动作关系。

3.1 问题定义

任务目标是对未修剪视频的每个时间戳检测所有发生的动作。给定长度为L的视频，将其划分为T个不重叠的片段，每个片段经过预训练的视频编码器转换为特征向量。每个时间戳t有一个长度为C（数据集最大动作类别数）的真实动作标签向量G_t，网络需要预测对应的动作类别概率向量Y_t。

3.2 提出的框架与学习范式

提出的框架包含两个分支：核心分支和辅助分支（图2）。核心分支处理输入视频，通过视频编码器和三个主要模块（精细检测、粗糙检测和视频分类）执行密集多标签动作检测。辅助分支接收输入视频对应的真实标签，通过一个自编码器结构（多标签关系模块和多标签分类模块）显式捕捉动作间的相互关系。学习范式的关键在于，将辅助分支解码器（ML-CLAS模块）的参数复制到核心分支的分类头（Vid-CLAS模块）并冻结，从而迫使核心分支的编码器生成与辅助分支瓶颈层捕获的、富含动作关系的表示对齐。这使得核心分支能在训练中受益于对动作关系的显式建模，却不在推理时引入额外计算开销。

3.2.3 框架细节

相对位置Transformer模块：为解决Transformer自注意力机制固有的顺序不变性问题，研究者没有采用会破坏平移不变性的绝对位置编码，而是在每个Transformer层中嵌入了相对位置编码（图3）。该模块由带相对位置编码的多头自注意力层和一个局部关系组件构成。

核心分支模块：视频编码器使用预训练的I3D模型。精细检测模块是一个包含RPT块的Transformer模块，用于从原始分辨率学习细粒度动作表示。粗糙检测模块则采用一种非分层结构（图4b），通过多个并行分支（图5）从同一细粒度特征中以不同步长下采样，再经RPT块处理，最后上采样并融合，以获得多尺度粗粒度时序依赖表示，避免了分层结构多次下采样导致的位置信息丢失。视频分类模块则对精细和粗糙特征分别应用与辅助分支解码器参数共享（并冻结）的分类器，预测动作类别概率，最终预测为两者的加权和。

辅助分支模块：多标签关系模块通过一个卷积层和RPT块编码真实标签中的动作共现关系。多标签分类模块则是一个简单的卷积层，用于解码关系表示，重建动作概率。

3.2.4 网络优化

针对多标签场景中正负样本不平衡的问题，研究采用了非对称损失函数来替代传统的二元交叉熵损失，以更好地控制正负样本的贡献。

实验结果

研究在两个具有挑战性的密集多标签基准数据集Charades和MultiTHUMOS上评估了所提方法。

4.1 消融研究

一系列消融实验验证了各个组件的有效性：

•
粗糙检测模块的粒度分支数量：实验表明，设置3个分支时性能最佳（表2）。
•
精细与粗糙检测模块的影响：移除任一模组都会导致性能显著下降，证明了二者对最终结果的重要贡献（表3）。
•
粗糙检测模块的输入：实验证实，将精细检测模块的输出作为粗糙检测模块的输入，比直接使用原始视频编码特征效果更好（表4）。
•
辅助分支与学习范式的影响：使用辅助分支和提出的学习范式，能在推理时不增加计算负担的情况下，为方法带来性能提升（表5）。
•
非分层结构的影响：将粗糙检测模块替换为分层结构（Net-v₂）会导致性能下降，定性分析（图6）也显示分层变体会产生错误的正例检测，突显了保留位置信息对区分相似但时序相反动作（如“站起”与“坐下”）的重要性。
•
相对位置编码的影响：使用相对位置编码能提升性能，而使用绝对位置编码则会显著损害性能（表7）。

4.2 与先进方法的比较

在Charades和MultiTHUMOS数据集上，该方法在仅使用RGB模态的情况下，取得了每帧mAP分别为26.5%和44.6%的最新最先进结果，相较之前的先进方法分别提升了1.1%和0.6%。

结论与讨论

本研究针对密集多标签动作检测任务中同时建模动作共现关系和长时序依赖的挑战，提出了一种高效且有效的解决方案。核心贡献在于一个新颖的双分支框架及其伴随的学习范式，使得网络能够在训练阶段显式地利用动作类别关系知识，而不将这些关系的计算开销强加于推理阶段。同时，研究设计了一种新型的非分层多尺度Transformer网络，通过嵌入相对位置编码，有效地保留了对动作检测至关重要的时序位置信息。广泛的实验和消融研究在Charades和MultiTHUMOS数据集上验证了所提出各组件的有效性及其组合带来的性能增益，最终实现了新的最先进性能。

这项工作的重要意义在于：第一，它提供了一种将复杂的动作关系知识“蒸馏”到轻量推理模型的新思路，兼顾了效果与效率；第二，它首次系统性地探讨了位置信息在密集动作检测Transformer网络中的重要性，并提出了一种有效的保留方法；第三，所提出的非分层多尺度特征提取架构为解决层级下采样导致的信息损失问题提供了新方向。这些创新不仅提升了密集动作检测的性能，其设计思想也可能对其它需要建模复杂时空关系的视频理解任务产生启发。

方法论

实验结果

结论与讨论

热点排行

新闻专题