《Journal of Imaging》:2s-DAS: Two-Stream Diffusion with Multi-Modal Fusion for Temporal Action Segmentation
编辑推荐:
人类时序动作分割(Temporal Action Segmentation, TAS)旨在将未修剪视频划分为语义连贯的动作段并逐帧标注。现有基于时序卷积网络(Temporal Convolutional Network, TCN)与Transformer的方法
人类时序动作分割(Temporal Action Segmentation, TAS)旨在将未修剪视频划分为语义连贯的动作段并逐帧标注。现有基于时序卷积网络(Temporal Convolutional Network, TCN)与Transformer的方法虽提升了帧表征与时序建模能力,但仍受限于两点:依赖单模态(RGB)输入,以及逐帧迭代顺序建模效率低下。为此,研究人员提出2s-DAS——一种新颖的基于扩散模型(Diffusion Model)的双流(Two-Stream)TAS框架,核心贡献有三:第一,引入多模态帧表征,融合光流(Optical Flow)与Br-Prompt RGB特征,以捕获更丰富的时空上下文并增强特征表示;第二,利用扩散模型执行序列分割,采用重要性采样(Importance Sampling)策略优先选取关键帧进行段级时序建模,同时引入基于迭代解码去噪(Denoising)的细化机制以保证细粒度动作预测;第三,设计双流融合机制分別处理RGB+文本特征流与光流特征流,并通过后期融合(Late Fusion)整合多模态信息以显式抑制过分割(Over-Segmentation)。在GTEA、50Salads和Breakfast数据集上的实验表明,2s-DAS显著优于现有先进方法,在刷新基准的同时有效缓解了过分割问题。
论文解读:2s-DAS——基于双流扩散与多模态融合的时序动作分割方法
研究背景与开展的研究及意义
时序动作分割(Temporal Action Segmentation, TAS)是面向以人为中心的视频理解中的基础任务,目标是将连续未修剪视频分解为不同动作段并为每帧分配精确类别标签,广泛应用于人体行为分析与人机交互系统等场景。现有TAS方法通常使用预训练模型提取特征,再在分割框架内通过多级迭代策略细化预测,代表性工作包括基于时序卷积网络(Temporal Convolutional Network, TCN,如MS-TCN)与Transformer(如ASFormer、UVAST)的架构。然而已有方法普遍存在三个局限:过度依赖单模态RGB输入;长程依赖建模计算开销大;帧级迭代细化引发过分割伪影。近期扩散模型(Diffusion Model)被尝试用于时序建模,但仍为单模态且缺乏明确的段边界细化机制。受音视频语音识别中多模态学习启发,研究人员认为互补的多模态融合(RGB+光流/文本/音频)可弥补上述缺陷,但尚无工作将在TAS中结合扩散模型与多模态融合。为此,研究人员提出了名为2s-DAS(Two-Stream Diffusion with Multi-Modal Fusion for Temporal Action Segmentation)的新型框架,并在《Journal of Imaging》发表。该工作首次将扩散范式与RGB–光流双流多模态晚期融合引入TAS,通过扩散迭代去噪抑制过分割、通过运动与静态语义互补提升精度,在三个标准基准上超越已有最优方法,证明了"扩散模型+多模态学习"范式在该任务中的有效性,且框架对不同骨干网络和多种模态具通用性与即插即用便利性。
关键技术方法概述
研究人员采用双流编码器–解码器扩散架构:一路以冻结的Br?Prompt视觉编码器(源自Br?Prompt预训练于Kinetics?400)提取768维帧级RGB特征(GTEA、50Salads),Breakfast数据集改用标准I3D RGB特征;另一路以预训练I3D网络提取1024维光流(Optical Flow / I3D FLOW)特征,均离线提取且不参与训练更新。每路特征分别送入改进自ASFormer的编码器中(含扩张卷积、扩张注意力与前馈层)获取高层时序表征并输出初始分段预测用于编码损失;编码器输出作为条件信息与加噪动作标签序列共同输入解码器,解码器同样基于ASFormer结构但加入扩散时间步嵌入与跨注意力。训练时采用随机选择的采样策略(全采样/边界采样/随机动作采样,排除零采样)对编码器输出做重要性采样掩码,迫使解码器学习动作序列先验分布;推理时关闭采样以全量特征输入,采用DDIM加速去噪(总步1000,推理步长25)。两流解码器输出逐帧类别对数分别经Softmax后按网格搜索确定的权重加权求和完成晚期融合(Late Fusion),再施以中值滤波等后处理。损失函数由交叉熵分类损失、帧级平滑损失(相邻帧MSE)及边界对齐二值交叉熵损失加权组成,双流损失直接相加联合优化。实验在GTEA(28段第一视角厨房视频,11类,4折交叉验证)、50Salads(50段俯视制沙拉视频,17类,5折交叉验证)、Breakfast(1712段第三人称早餐视频,48类,4折交叉验证)上按标准协议评估,指标含帧准确率(Frame Accuracy, Acc)、段编辑得分(Segmental Edit Score)及重叠F1@{0.1,0.25,0.5}。实现基于PyTorch 1.10,Adam优化器,batch size=4,NVIDIA Tesla V100训练。
研究结果
4.1. Datasets
研究人员严格遵循标准K折交叉验证且与训练集主体无关,排除数据泄露,确保泛化性验证可靠。
4.2. Comparison with SOTA
通过与DiffAct(单流扩散基线)及MS?TCN、ASFormer等对比发现:在50Salads上Edit提升3.0,Acc提升0.6,F1@{0.1,0.25,0.5}分别提升2.2、2.5、2.5;在GTEA上Edit提升3.8,F1@{0.1,0.25,0.5}分别提升2.3、2.5、1.4;在Breakfast(因换用I3D RGB且域差异大Br?Prompt效果差,多模态协同受限)上Edit仍提升1.1,Acc提升0.4,F1@{}各阈值微幅提升0.5–0.6,整体优于或持平SOTA。定性可视化显示2s?DAS段边界更清晰、碎片段减少。计算效率方面,2s?DAS参数量约2.2 M、FLOPs 63.4 G(DiffAct为1.2 M、32.5 G),推理速度717 FPS(DiffAct 1456 FPS),峰值显存仅0.03 GB,在离线高精度分析场景中速度仍充裕,表明其在分割质量与计算效率间取得良好平衡。
4.3. Ablation Study
单模态(仅Br?Prompt RGB或仅I3D FLOW)性能均低于双流融合,证实多模态互补价值;其中RGB流贡献大于光流流,故晚期融合赋予RGB流更大权重(如α=0.7, β=0.3时在50Salads达最优)。特征相似度余弦矩阵显示RGB捕获语义块但非对角区存静态背景噪声,光流反映连续运动但段边界模糊,融合后呈清晰分块对角结构——证明光流动态信息抑制RGB静态语义噪声、RGB维持语义判别力,从机理上解释过分割缓解原因。重要性采样中随机选择(full/boundary/random action)显著优于固定单一策略及零采样。融合策略对比表明晚期融合优于早期拼接融合与中间共享解码器融合,原因是扩散去噪过程中早期融合致异质模态流形空间相互污染噪声,隔离双流至预测分布级再融合可保模态特有结构。将双流框架嫁接ASFormer骨干(记作2s?TAS)同样带来性能提升,验证框架通用性。
4.4. Failure Case Analysis
典型错误含三类:流体动作过渡区边界偏移(预测起始帧滞后真值);高度模糊过渡致局部短暂过分割产生碎片短段;严重遮挡下RGB丢失物体语义且光流运动雷同时发生动作误分类(如把add_dressing判为mix_ingredients),指出未来可结合物体追踪改进。
讨论与结论翻译
研究人员指出当前评测局限于烹饪类活动数据集,框架虽具通用时序建模设计,但是在手术相位识别或工业装配等迥异动态域中尚未验证,是后续工作重点;未来拟将2s?DAS扩展至Epic?Kitchens?100、Ego?Exo4D、EgoSchema及Ego4D等大规模细粒度数据集以检验鲁棒性。最终结论如下:
本文提出一种名为2s?DAS的双流扩散框架用于时序多模态动作分割任务。为解决多模态输入特征融合与段级时序预测建模问题,研究人员提出融合I3D光流与Br?Prompt RGB特征的多模态帧表征以丰富特征表示;在扩散模块中设计重要性采样块以强化关键帧在序列分割中的作用;并设计双流融合机制通过晚期融合策略整合光流流与RGB流的多模态信息,以细化预测输出并降低过分割。尽管双流方式增加一定计算资源与时间开销,2s?DAS优于现有基线模型,在GTEA、50Salads与Breakfast三个公开基准数据集上取得优异结果。