
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双主干网络的学生行为识别模型DB-SBR:面向智慧课堂的复杂场景优化方案
【字体: 大 中 小 】 时间:2025年06月16日 来源:Pattern Recognition 7.5
编辑推荐:
【编辑推荐】针对智慧课堂中学生行为多样性、环境复杂性及实时性要求高的挑战,研究团队创新性提出双主干学生行为识别模型DB-SBR。通过CSPC-ConvNet(局部特征)与简化Swin Transformer(全局特征)双主干协同,结合自适应加权注意力特征融合模块(AAFusion),在SCB-Dataset3上实现F1-score 0.687、mAP@0.5 0.729等指标显著提升,为静态图像行为识别提供高效精准新范式。
在智慧教育快速发展的今天,教室里的学生行为识别技术正成为实现个性化教学的关键。然而,这个看似简单的任务却面临着三重"拦路虎":学生们千姿百态的课堂动作、教室环境中复杂的背景干扰,以及教学系统对实时反馈的严苛要求。传统方法就像戴着有色眼镜看世界——基于视频的方法虽能捕捉动作时序,却因处理时空信息效率低下而"卡顿";基于静态图像的技术虽然反应敏捷,又容易错过动作的细微变化。更令人头疼的是,现有模型就像独臂侠客,要么擅长捕捉局部细节却忽视全局关联,要么长于整体把握却漏掉关键细微特征。
针对这些棘手难题,获得国家自然科学基金支持(U23A20307)的研究团队展开了攻关。他们创造性地提出了双主干学生行为识别模型DB-SBR,这项发表在《Pattern Recognition》的研究犹如为计算机装上了"复眼"——通过两条并行的特征提取通路,同时捕捉行为的局部细节和全局模式。
研究团队采用了三项核心技术:首先是创新设计的双主干架构,包含专注局部特征的CSPC-ConvNet(采用新型CSP Bottleneck with Partial Convolution模块)和优化后的简化Swin Transformer(SST)主干;其次是提出的自适应加权注意力特征融合模块(AAFusion),实现多源特征的智能整合;最后在SCB-Dataset3数据集上进行了系统验证,该数据集包含丰富的课堂行为样本。
方法
DB-SBR模型架构突破性地采用双路并行设计。CSPC-ConvNet主干通过创新的CSPC模块强化局部特征提取,其部分卷积(Partial Convolution)策略有效提升计算效率;另一侧的SST主干则对标准Swin Transformer进行剪枝优化,保留全局建模优势的同时降低计算复杂度。两个主干提取的特征通过AAFusion模块实现动态加权融合,该模块通过通道注意力机制自动调节特征贡献度。
实验结果
在SCB-Dataset3测试中,DB-SBR的F1-score达0.687,较基线提升2.5%;mAP@0.5达到0.729(提升3.7%),mAP@0.5:0.95提升4.2%至0.544。消融实验显示:双主干结构贡献了1.8%的mAP提升,AAFusion模块带来1.4%增益。实时性测试中,模型在1080P分辨率下达到32FPS,满足课堂场景需求。
结论
这项研究开创性地将双主干架构引入行为识别领域,通过CSPC-ConvNet与SST的协同工作,解决了静态图像行为识别中局部-全局特征难以兼顾的痛点。AAFusion模块的创新设计实现了"1+1>2"的特征融合效果。相比传统单主干模型,DB-SBR在复杂课堂环境中展现出显著优势,其技术路线为教育智能化提供了重要工具,也为其他场景的精细行为识别提供了新思路。正如研究者所言,这种"双管齐下"的策略为突破静态图像行为识别的性能瓶颈打开了新局面。
生物通微信公众号
知名企业招聘