基于语义分割的动作识别上下文感知3D卷积神经网络(CARS)
《Computer Vision and Image Understanding》:Context-aware 3D CNN for action recognition based on semantic segmentation (CARS)
【字体:
大
中
小
】
时间:2025年11月21日
来源:Computer Vision and Image Understanding 3.5
编辑推荐:
本文提出Context-aware 3D CNN for Action Recognition based on Semantic segmentation(CARS)方法,通过语义分割提取环境上下文信息并编码为二进制向量,与3D CNN特征结合,再引入Convolutional Block Attention Module(CBAM)优化特征表达,最后采用焦点损失解决类别不平衡问题。实验表明,CARS在HMDB51和UCF101数据集上显著优于现有3D CNN模型,尤其在复杂场景中区分相似动作(如踢 vs 跑)效果突出。
人类动作识别是计算机视觉领域的重要研究方向,其应用广泛,包括监控、人机交互和自主系统等。虽然近年来3D卷积神经网络(3D CNN)在捕捉空间和时间信息方面取得了显著进展,但它们在整合动作发生环境中的上下文信息方面仍存在不足,这限制了其对相似动作进行区分和对复杂场景进行准确识别的能力。为了解决这些问题,本文提出了一种新颖且有效的基于语义分割的上下文感知3D CNN动作识别方法(CARS)。CARS方法包含一个中间场景识别模块,该模块利用语义分割模型从视频序列中提取上下文线索,并将这些信息编码并与3D CNN提取的特征结合,从而形成全面的全局特征图。此外,CARS整合了卷积块注意力模块(CBAM),该模块通过通道和空间注意力机制,使模型能够聚焦于3D CNN特征图中最具相关性的部分。我们还采用焦点损失(focal loss)替代传统的交叉熵损失,以更好地应对类别不平衡问题,提高对低频和难以分类的人类动作的识别能力。实验结果显示,CARS方法在HMDB51和UCF101等知名基准数据集上表现优于当前3D CNN方法,并且其上下文提取模块是一种通用的插件式网络,可以提升任何3D CNN架构的分类性能。
本文提出的方法在设计上具有显著的创新性。首先,它强调了语义信息在动作识别中的重要性。语义分割是计算机视觉中的关键任务,能够对图像中的每个像素进行分类,从而提供对图像空间分布的深入理解。通过语义分割,模型可以识别物体类型以及物体内部的语义关系,这对于理解动作上下文至关重要。本文采用Oneformer模型进行语义分割,该模型在统一框架和高精度方面表现优异,其像素级语义信息提取能力显著优于Mask R-CNN、DeepLabv3+和Detectors等模型。Oneformer能够可靠地捕捉小物体或模糊物体的语义线索,如高尔夫球或室内楼梯,而其他轻量级模型如SegFormer、MobileViT和UPerNet则容易遗漏这些细节,从而影响上下文信息的准确性。
其次,CARS方法在模型设计上引入了CBAM模块,该模块通过通道和空间注意力机制增强模型的特征提取能力。通道注意力机制能够突出显示特征图中最重要的通道,而空间注意力机制则能强化每一帧中的关键区域。CBAM模块的结合使得模型能够更有效地聚焦于输入数据中的信息部分,从而提升其对视觉相似动作的区分能力。此外,本文还引入了焦点损失作为损失函数,以解决类别不平衡问题。焦点损失通过减少容易分类样本的损失贡献,迫使模型更加关注难以分类的类别,从而降低整体分类错误率。这种方法在实验中表现出色,特别是在类别不平衡较为严重的情况下。
CARS方法的实验部分在两个基准数据集HMDB51和UCF101上进行了验证。HMDB51数据集包含约7000个视频片段,分为51个动作类别,每个类别平均有137个视频。UCF101数据集则包含约13000个视频片段,分为101个动作类别,每个类别平均有128个视频。实验中采用的训练和测试策略包括官方的三分割协议和随机的70/30训练测试分割策略,以确保模型的稳定性和鲁棒性。此外,为了更全面地评估模型的性能,还分析了不同帧数对语义信息提取的影响,发现使用20帧即可达到较高的识别精度,同时保持计算效率。这也说明了在实际应用中,选择适当的帧数对于平衡识别性能和计算成本至关重要。
在实验结果中,CARS方法在多个配置下均表现出色。例如,在HMDB51数据集上,CARS方法在添加3位语义信息后,识别精度提升了0.59%;在添加6位语义信息后,精度提升了0.79%;在添加9位语义信息后,精度提升了0.26%。这些结果表明,随着语义信息的增加,模型的性能也随之提升。此外,CBAM模块的引入使识别精度进一步提高,表明通道和空间注意力机制的结合能够显著增强模型的表示能力。而焦点损失的引入则使模型在识别低频和难以分类动作时表现出更高的准确率。
实验还展示了CARS方法在不同3D CNN架构上的泛化能力。例如,当将CARS模块集成到R(2+1)D、ResNeXt-101和I3D等模型中时,CARS方法均能显著提升识别精度。其中,R(2+1)D模型在集成CARS后,HMDB51数据集上的识别精度从74.5%提升至81.3%,UCF101数据集上的精度从96.8%提升至97.65%。这说明CARS方法不仅适用于特定模型,而且具有广泛的适用性。此外,CARS方法在训练和验证阶段均表现出优越的性能,模型收敛更快,学习效率更高,且在面对未见过的数据时具有更好的泛化能力。
本文还分析了CARS方法在不同数据集上的表现。例如,在HMDB51数据集上,CARS方法的识别精度达到81.3%,而在UCF101数据集上,识别精度达到97.65%。这些结果表明,CARS方法在不同复杂度和多样性较高的数据集上均能保持较高的识别性能。此外,通过对比实验,CARS方法在HMDB51和UCF101数据集上均优于当前最先进的方法,如Grad-CAM + GRU、SegNet + BiGRU和AI-HAR等。这说明CARS方法在提升识别性能方面具有显著优势。
CARS方法的另一个重要贡献是其对计算资源的高效利用。尽管模型引入了语义信息和注意力机制,但其计算开销并未显著增加。实验结果显示,使用Oneformer模型进行语义分割的帧数在20帧时即可达到最佳平衡,从而在保持高精度的同时降低计算成本。此外,CBAM模块的引入虽然增加了模型的复杂性,但其对模型性能的提升使得计算开销保持在可接受范围内。这表明CARS方法在保持高精度的同时,具有良好的计算效率,适用于实际应用中的资源受限场景。
在实际应用中,CARS方法能够有效提升动作识别的准确性和鲁棒性。例如,在处理视觉相似动作时,如喝和吃、踢和走,CARS方法通过引入语义信息和注意力机制,能够更准确地区分这些动作。此外,在处理复杂场景时,CARS方法能够捕捉到更多的上下文信息,从而提升模型对环境和动作之间关系的理解。这使得模型在面对多样化的动作和环境时能够保持较高的识别性能。
本文还讨论了CARS方法的未来研究方向。例如,如何进一步提取更丰富的上下文信息,并探索新的方法将这些信息整合到3D CNN模型中。当前,CARS方法通过将二进制向量与3D CNN特征图拼接,以捕捉语义线索。然而,未来的模型可以采用更复杂的编码方式,如捕捉物体大小、位置和细粒度语义信息,以进一步提升识别精度。此外,通过整合目标检测和利用稳定扩散等技术,可以生成基于图像的文本信息,作为额外的输入流,从而实现多模态动作识别。这种多模态方法能够使模型利用视觉和语义线索,形成更全面的特征表示,提升对需要精细动作识别或上下文理解任务的性能。
总之,本文提出的CARS方法通过引入语义分割和CBAM注意力机制,有效提升了3D CNN模型在人类动作识别中的性能。实验结果表明,CARS方法在HMDB51和UCF101数据集上均优于当前最先进的方法,同时保持了较高的计算效率。未来的研究可以进一步探索如何提取更丰富的上下文信息,并将其有效整合到3D CNN模型中,以提升模型的性能和泛化能力。此外,CARS方法为多模态动作识别提供了新的思路,值得进一步研究和应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号