基于深度学习的实时精细动作识别框架NovAc-DL及其在机器人交互中的应用

《Big Data and Cognitive Computing》：NovAc-DL: Novel Activity Recognition Based on Deep Learning in the Real-Time Environment

【字体：大中小】 时间：2026年01月04日 来源：Big Data and Cognitive Computing 4.4

编辑推荐：

　　本文提出NovAc-DL深度学习框架，针对实时细粒度人类活动识别（HAR）中存在的时空快速变化、细微动作差异及动态环境条件等挑战，通过整合自适应时间分布卷积编码与时间推理模块，在真实机器人交互条件下实现了对“倾倒”和“搅拌”两类短时类人动作的高精度分类。研究系统评估了LRCN、CNN-TD和ConvLSTM三种架构，其中CNN-TD以98.68%的准确率、最低测试损失（0.0236）及最优收敛速度、泛化能力和计算效率脱颖而出。Grad-CAM可视化进一步证实模型可可靠关注与动作相关的运动显著区域，为在医疗监护、工业自动化和协作机器人等领域的实时高精度部署提供了可行方案。

引言

深度学习已在图像分类、语音识别、自然语言处理和网络流量分析等多个领域取得显著进展。尽管计算机视觉研究多聚焦于静态图像，但早期关于三维卷积和双流网络的研究已强调视频中时间动态的重要性。视频数据以其高容量和复杂性为人工智能研究带来独特挑战与机遇。数字视频处理涉及对视频内容的自动分析，通过检查每一帧来评估其时间和空间特性。与静态图像不同，视频通过捕捉随时间变化的动态过程，为动作和事件提供更丰富的上下文信息。

NovAc-DL框架引入了一个统一的时空深度学习流程，集成了帧级卷积编码和序列级时间推理。与针对以人为中心数据集开发的标准HAR模型不同，NovAc-DL专门针对机器人手部运动和短时细粒度动作（“倾倒”和“搅拌”）进行优化。其创新点在于：（i）一个平衡的机器人条件视频数据集；（ii）用于低延迟空间特征提取的自适应CNN-TD层；（iii）基于LSTM的时间融合以保持序列一致性；（iv）通过Grad-CAM可解释性将网络注意力映射到有意义的运动区域。

相关数据集

数据集描述

本研究使用的数据包含经过精心策划的视频集合，主要用于评估人类活动识别。数据集主要包含两种活动：‘倾倒’和‘搅拌’。所有视频均以30 fps的帧率和640 × 480的分辨率从三个固定视角（正面、左斜视、俯视）在混合室内光照条件下拍摄。动作边界由三位专家根据可见运动起始和工具-目标完成情况手动标注，标注者间一致性（Cohen‘s k）为0.94。

‘倾倒’活动由1000个视频代表。这些视频涵盖了不同的主体、倾倒技术、容器类型和倾倒材料，以捕捉倾倒行为的多样性和复杂性。‘搅拌’活动则由2000个视频代表，其更大的样本量是为了充分捕捉搅拌活动更高的复杂性和变化性。这些视频同样包含不同的场景、主体、搅拌技术、器具和搅拌材料。从每个视频中按时间顺序提取帧，以保持任务的时间特性。通过保留适当的时间戳，确保了时间连贯性和动作序列，使研究能够考虑‘倾倒’和‘搅拌’活动的时间动态。

数据预处理

使用OpenCV例程以均匀间隔提取帧，将帧大小调整为224 × 224像素，并归一化到[0, 1]范围，遵循近期HAR文献的预处理标准。为避免引入偏差，背景裁剪被省略以保留空间上下文。预处理函数包含异常处理以跳过不可读的帧，并动态重采样序列至统一的每视频30帧长度。

在预处理阶段，研究面临数据不平衡的挑战。原始数据集中‘倾倒’类有1000个视频，‘搅拌’类有2000个视频。为解决此问题并确保模型在平衡数据集上训练，通过随机采样策略将‘搅拌’视频数量减少至1000个，使其与‘倾倒’类匹配。这确保了所选子集准确代表了原始类的整体多样性。

预处理步骤封装在create_dataset函数中：初始化空列表用于存储特征、标签和视频文件路径；遍历类别列表中的每个类；对当前类目录下的每个文件，使用frame_extractor函数从视频中提取帧；将提取的帧、类别索引和视频文件路径分别添加到相应列表中；处理完所有视频后，将特征和标签列表转换为NumPy数组；最后返回特征、标签和视频文件路径。该函数有效地将原始视频文件转换为可用于模型训练和测试的结构化格式，同时通过平衡每个活动的视频数量解决了初始数据不平衡问题。

所采用的均匀帧提取和预处理算法确保了视频预处理方法的系统性。

提出的方法与描述

长短期循环卷积网络（LRCN）

采用的LRCN架构结合了CNN特征提取和基于LSTM的时间建模。LRCN模型在Keras中构建，使用TensorFlow作为后端。预训练于ImageNet数据集的VGG16模型作为单个帧的特征提取器。VGG16的全连接层被移除，剩余的卷积层用作视频中每个帧的特征提取器。VGG16模型通过时间分布层应用于视频序列中的每个帧。模型设计还包括一个展平层和两个卷积层，每个卷积层后接ReLU激活函数。这些层从单个帧中提取更抽象的特征。展平层的输出馈入LSTM层，该层保留帧间的时间相关性。

LSTM单元中使用的S型（Sigmoid）和双曲正切（tanh）函数是核心组件。LSTM单元包含输入门、遗忘门、输出门和细胞记忆。输入门负责将过滤后的当前输入信息添加到已学习的知识中。遗忘门决定从细胞记忆中丢弃哪些先前状态的信息。输出门计算当前输出和隐藏状态。细胞记忆存储来自先前状态的关键信息，以防止由于梯度消失导致的数据丢失。每个LSTM单元根据输入门、遗忘门、候选层输出和先前记忆状态不断更新细胞记忆。

为提升泛化性能，训练了五个具有不同初始化和超参数的LRCN模型。使用Adam优化器和分类交叉熵损失函数进行训练。采用早停法防止过拟合，监控验证集准确率，若连续十个周期无提升则停止训练，并保存具有最高验证准确率的权重。最后，使用多数投票集成技术结合多个LRCN模型的预测结果。

时间分布卷积神经网络（CNN-TD）

CNN-TD模型架构利用了Keras层模块中的多个关键层，包括Conv2D、MaxPooling2D、Dense、Flatten、Dropout和TimeDistributed。每个层在特征提取、降维和分类过程中发挥独特作用，形成一个用于时空数据分析的集成深度学习流程。

Conv2D层是网络特征提取的核心。它通过滤波器（或称为核）进行操作，这些核是小矩阵，在输入数据上滑动以检测有意义的模式（如边缘、纹理或复杂形状）。每个滤波器学习识别特定特征，使该层能够构建对输入图像的分层理解。核大小决定了每个神经元的感受野；较大的核捕获更全局的特征，而较小的核关注更精细的局部细节。填充和步长参数的适当配置确保空间维度得到适当维持或缩减。激活函数ReLU为模型引入了非线性，其数学定义为f(x) = max(0, x)。该函数将负值置零并保留正激活，导致稀疏表示并加速训练收敛。

MaxPooling2D层在卷积操作后执行空间下采样，以减少计算负载和参数数量。该层将特征图划分为由池大小定义的非重叠区域（通常为2×2或3×3），并从每个区域中选择最大值。通过保留最显著的特征并丢弃信息量较少的细节，MaxPooling2D帮助模型关注最重要的空间线索，提高鲁棒性和平移不变性。

Dropout层用于进一步正则化网络。在训练期间，Dropout随机将一部分输入神经元设置为零，有效地将它们从前向和后向传播中省略。这种随机排除迫使模型开发冗余的学习路径，从而在未见数据上测试时实现更好的泛化。

TimeDistributed封装器的包含对于处理视频数据至关重要。由于传统CNN设计用于2D图像处理，TimeDistributed将相同的卷积操作独立地应用于序列中的每一帧，从而在帧级别保留空间特征。这些特征随后被传递到循环层或序列层以捕获帧间的时间相关性。

总之，该架构使卷积模型能够处理空间和时间特征，特别适合需要区分细粒度运动模式的基于视频的HAR任务。

卷积长短期记忆网络（ConvLSTM）

ConvLSTM层的构建遵循相关研究提出的方法，通过卷积门控保留空间依赖性。全连接LSTM的主要弱点是在输入状态和状态到状态转换期间使用全连接，导致大量信息丢失。为解决此问题，本研究采用ConvLSTM方法。

在ConvLSTM中，输入x₁, …, x_t产生输出C₁, …, C_t、隐藏状态H₁, …, H_t以及门控i_t, f_t, o_t都是具有空间维度的3D张量。由于这种结构，ConvLSTM可以通过考虑输入和配置中邻近细胞的先前状态来预测给定细胞的未来状态。通过使用卷积算子进行从状态到输入的转换，保留了空间关系，简化了过程。

ConvLSTM的方程如下，其中“*”表示卷积算子，“⊙”表示哈达玛积。

i_t= σ(W_xi* x_t+ W_hi* H_t-1+ W_ci⊙ C_t-1+ b_i)

f_t= σ(W_xf* x_t+ W_hf* H_t-1+ W_cf⊙ C_t-1+ b_f)

C_t= f_t⊙ C_t-1+ i_t⊙ tanh(W_xc* x_t+ W_hc* H_t-1+ b_c)

o_t= σ(W_xo* x_t+ W_ho* H_t-1+ W_co⊙ C_t+ b_o)

H_t= o_t⊙ tanh(C_t)

较大的核可以更快地捕捉运动物体的隐藏表示，而较小的核则可以记录较慢的运动。在基于LSTM的序列建模中，在t=0时的初始化代表一种时间不确定性状态，不存在先验上下文。为此，对初始隐藏状态和细胞状态应用零填充，作为一种中性边界条件，将模型与任何外部或未观察到的影响隔离开来。这确保了网络的时间依赖性纯粹从观察到的输入序列中学习。从概念上讲，零填充就像一个动态系统周围的边界，类似于在墙内移动的球，防止可观察域之外的未定义状态传播，同时在其中保持稳定和一致的状态转换。

模型架构与超参数

LRCN架构使用在ImageNet上预训练的VGG16网络作为空间特征提取器，移除了分类头，仅保留卷积层。为平衡效率和适应性，冻结前十个卷积层，微调最后五个，使模型能够细化与“倾倒”和“搅拌”活动相关的更高级空间表示。VGG16生成的帧级特征随后传递到具有256个单元的LSTM模块，使系统能够捕获活动识别必需的时间动态。

使用随机种子训练了五个独立的LRCN模型，它们共享相同的超参数配置。多数投票融合将这些模型的平均测试准确率从98.50% ± 0.12提升至98.68%，证明了泛化性能的适度但一致的增强。

对于CNN-TD模型，完整架构包括三个Conv2D层，分别具有64、128和256个滤波器，每个滤波器大小为3×3，后接2×2最大池化层和丢弃率为0.2的Dropout层。ConvLSTM模型由单个ConvLSTM层组成，具有64个滤波器、3×3核、ReLU激活函数和0.1的丢弃率，平衡了时空表示和计算成本。

帧最初根据LRCN中使用的VGG16特征提取器的标准预处理描述调整为224×224。然而，在最终统一的NovAc-DL流程中，所有视频被统一下采样至15帧，每帧调整为64×64×3，作为LRCN、CNN-TD和ConvLSTM所有三个模型的实际输入尺寸。这确保了架构的可比性和一致的计算成本。所有模型的训练超参数为：批量大小16，学习率1×10^-4，Adam优化器，训练周期40。数据集按64%训练、16%验证和20%测试进行划分。

结果

训练性能

在训练数据集上运行模型后，时间分布卷积神经网络（CNN-TD）获得了最佳的验证准确率，其次是长短期循环卷积网络（LRCN）和ConvLSTM模型。类似地，CNN-TD在所有使用的模型中具有最小的验证损失，其次是LRCN，而ConvLSTM（CNN-3D）的验证损失明显较高，尤其是在第20和40周期。CNN-TD在32个周期内达到收敛，而LRCN和ConvLSTM模型则需要完整的训练周期。CNN-TD在每个周期都持续提高准确率，有效捕获了视频数据中复杂的时空动态。ConvLSTM的准确率最差，且其曲线存在重叠。总体而言，CNN-TD模型表现出最优性能，有效捕获了空间和时间信息，提供了对视频中人类行为的更全面理解。

CNN-TD的训练动态显示，其训练和验证准确率稳定增长，在32个周期附近收敛至0.99左右，损失值迅速下降并趋于稳定。最佳权重对应于具有最高验证准确率的周期，确认模型保存是基于最大验证准确率而非最小验证损失。准确率和损失曲线的平滑且平行轨迹表明了优异的泛化能力和最小的过拟合。CNN-TD架构有效建模了帧间的时空依赖性，相比其他模型具有更优的收敛速度和预测可靠性。

LRCN模型表现出渐进的收敛性，在40个周期后达到0.98–0.99的准确率。训练和验证曲线之间的微小差距表明存在轻微的过拟合，这归因于循环复杂性和较长的序列依赖性。虽然LSTM层实现了鲁棒的时间特征学习，但该模型需要更长的训练时间和参数调优。尽管如此，它保持了高分类准确率和稳定的学习，证实了循环-卷积混合模型对于序列建模的适用性。

ConvLSTM模型的性能显示，训练和验证指标均存在振荡，反映了学习不稳定性和由于繁重的3D卷积操作导致的较慢收敛。最终约97%的验证准确率和相对较高的损失值表明，在可用计算资源下，其时间泛化能力有限。这一观察结果凸显了3D时空网络中表示丰富性与计算开销之间的权衡。

测试性能

在测试数据集上的评估显示，LRCN和CNN-TD模型均达到了最高准确率，两者差异极小。CNN-TD模型取得了最高的精确度、召回率和F1分数，优于LRCN和ConvLSTM。相比之下，ConvLSTM模型表现滞后，性能明显下降。所有性能指标均使用scikit-learn的宏平均计算。这些结果证实了LRCN和CNN-TD模型能有效泛化到未见数据，保持鲁棒的活动识别能力，而ConvLSTM模型在捕获时空动态方面相对较差。

尽管CNN-TD和LRCN模型在测试集上达到了相同的准确率，但它们的损失值差异显著。这种差异是因为准确率只衡量最终类别预测是否正确，而交叉熵损失捕捉了这些预测的置信度。在LRCN架构中，LSTM层平滑了时间概率，产生了更保守的softmax输出。这些置信度较低的预测仍然产生正确的标签，保持了准确率但由于置信度降低而增加了损失。相比之下，CNN-TD执行直接的帧级卷积编码，无需循环平滑，产生更清晰、置信度更高的类别概率，从而降低了损失。因此，测试损失的差异并不与相同的准确率相矛盾，而是突出了架构之间置信度校准和时间平滑的差异，表明CNN-TD在此任务上提供了更好的置信度泛化。

实验分析

通过改变CNN-TD中Conv2D滤波器的数量，观察到准确率在滤波器数量达到256时提升，但超过此点后由于计算开销增加而饱和。参数偏差确认了CNN-TD的稳定收敛，而LRCN和ConvLSTM由于循环和3D卷积的复杂性表现出更高的方差。

训练曲线对比分析直接对比了所有三种模型的收敛模式，突显了它们学习行为的明显差异。CNN-TD表现出最快的收敛速度，在32周期附近稳定；LRCN在40周期附近收敛；而ConvLSTM在所有40个周期内都保持不稳定。在训练稳定性方面，CNN-TD表现出平滑且单调的改进，振荡最小；LRCN显示渐进收敛，训练与验证差距小但一致；ConvLSTM则表现出明显的振荡和训练与验证曲线之间不断扩大的分歧，表明学习不稳定。在泛化方面，CNN-TD表现出最小的训练-验证准确率差距，反映了强大的泛化能力；LRCN实现了中等泛化，得益于Dropout；ConvLSTM在20周期后显示出增加的验证损失和性能下降，证实了过拟合趋势。在最终性能上，CNN-TD和LRCN都达到了99%的验证准确率，而ConvLSTM在约97%处趋于稳定并在后期周期下降。总体而言，这些观察结果证实，针对高效时空特征分离和减少计算负载进行优化的架构（如CNN-TD）在此任务上表现出更优的收敛行为和泛化性能。

增加了关于优化器选择的对比实验。由于Adam在CNN-LSTM模型中的稳定性，将其保留为基线，并额外评估了AdaBoB，以检验优化器选择是否影响收敛和准确率。结果显示，AdaBoB取得了略高的最佳验证准确率、更低的最终损失和更快的收敛速度，同时测试准确率有边际提升，并保持了相似的实时吞吐量。这些结果证实，虽然Adam仍然是强基线，但AdaBoB提供了一致的性能增益，从而加强了NovAc-DL框架的方法鲁棒性。

使用参数数量偏移-拟合性能理论框架对模型复杂度与性能之间的关系进行了深入分析。该框架以理想参数数量O为基准，Y轴代表模型的拟合状态，X轴代表参数变化的方向。框架将系统分为四个象限：第一象限（过拟合加剧伴随性能下降）、第二象限（过拟合缓解伴随性能改善）、第三象限（欠拟合加剧伴随性能下降）、第四象限（欠拟合缓解伴随性能改善）。

LRCN位于第二象限。虽然VGG16主干引入了大量参数，但策略性地应用0.5的Dropout和冻结前10个卷积层有效缓解了过拟合趋势。该模型保持了高准确率，但由于LSTM时间平滑产生保守的softmax输出，表现出较高的损失，表明存在轻微但受控的残余过拟合。

CNN-TD位于第四象限。该架构相对于任务复杂度实现了近乎最优的参数化，通过逐帧卷积有效捕获空间层次结构，而未引入过多的时序耦合。模型在32周期稳定

热点排行

新闻专题