
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多时序尺度聚合网络:利用层次化编码特征提升时序动作分割性能
【字体: 大 中 小 】 时间:2025年07月25日 来源:Pattern Recognition 7.5
编辑推荐:
为解决时序动作分割(TAS)任务中因复杂时序动态性导致的精度瓶颈问题,研究人员提出多时序尺度聚合网络(MTSAN)。该研究创新性地利用编码器(Encoder)中间层特征蕴含的多尺度时序信息,通过跨时序融合网络(CTFN)自适应整合不同粒度的时序特征,在GTEA等三个基准数据集上实现性能突破,为视频理解领域提供了新的层次化特征利用范式。
在智能视频分析领域,准确分割长视频中的动作片段(Temporal Action Segmentation, TAS)是理解人类行为的关键。尽管现有方法通过多阶段优化策略取得进展,但普遍存在"特征利用不充分"的痛点——模型往往只关注编码器最终输出层的全局特征,却忽视了层次化编码过程中天然形成的多尺度时序信息。这种"信息浪费"现象导致模型难以兼顾短时动作细节与长程时序关联,特别是在处理厨房活动(GTEA数据集)、沙拉制作(50Salads)等复杂连续动作时,容易出现过度分割(over-segmentation)问题。
南京师范大学智能教育支持实验室的研究团队在《Pattern Recognition》发表的研究中,提出了突破性的解决方案。受特征金字塔(Feature Pyramid)技术启发,研究人员设计出多时序尺度聚合网络(Multiple Temporal Scale Aggregate Network, MTSAN),其核心创新在于将U-Net架构的层次化思想引入视频时序分析。与ASFormer等传统模型不同,MTSAN通过串联多个编码器并插入时序下采样操作,系统性地捕获从帧级别到动作级别的多粒度特征。特别设计的跨时序融合网络(Cross Temporal Fusion Network, CTFN)采用双分支门控机制,能动态融合不同尺度的互补信息。实验显示,这种"分层利用-自适应融合"策略使模型在GTEA数据集上准确识别出"拿取(take)"等瞬时动作的边界,同时保持对长程动作序列的连贯理解。
关键技术方法包括:1) 构建多编码器架构生成不同时序融合尺度(temporal fusion scale)的特征;2) 开发CTFN实现跨尺度特征自适应加权融合;3) 采用局部交叉注意力机制(local cross-attention)进行分层细化;4) 引入辅助监督分支抑制噪声干扰。研究使用三个标准数据集(GTEA、50Salads、Breakfast)验证性能,视频特征采用I3D网络预提取。
研究结果方面:
• 层次化特征分析:通过可视化ASFormer的中间层特征相似度,证实浅层特征保留精细动作细节(如"take"动作的帧级特征),而深层特征侧重长程关联,但单一使用最终层会导致细节丢失。
• 架构有效性验证:MTSAN在Breakfast数据集达到67.2%的帧准确率,较ASFormer提升3.5%,证明多尺度特征融合能显著改善分割质量。
• 消融实验:移除CTFN使50Salads数据集上的重叠度指标下降2.1%,证实跨尺度融合机制的关键作用。
该研究开创性地揭示了编码器中间层特征对时序动作分割的价值,提出的MTSAN模型为多阶段优化策略提供了新思路。其技术路线不仅适用于视频分析领域,对语音分割、医疗信号处理等时序数据理解任务也有借鉴意义。研究获得国家自然科学基金(项目号62407021等)支持,相关代码已开源。
生物通微信公众号
知名企业招聘