基于时空建模的自视角装配视频步骤识别方法STORM-PSR研究
《Computer Vision and Image Understanding》:Learning to recognize correctly completed procedure steps in egocentric assembly videos through spatio-temporal modeling
【字体:
大
中
小
】
时间:2025年10月19日
来源:Computer Vision and Image Understanding 3.5
编辑推荐:
本文针对自视角装配视频中因物体遮挡导致的步骤识别延迟问题,提出了STORM-PSR双流框架,通过结合空间状态检测和时空特征学习,在IndustReal和MECCANO数据集上分别将步骤识别平均延迟降低了26.1%和11.2%,为工业辅助视觉技术提供了更高效的解决方案。
在工业自动化和辅助技术领域,准确识别装配过程中的正确完成步骤至关重要。然而,现有的程序步骤识别方法主要依赖于检测单个视频帧中的装配物体状态,这种方法在物体被部分遮挡时表现不佳。特别是在自视角视频中,手部和工具的频繁遮挡使得关键物体或动作难以被清晰捕捉,导致识别准确率受限。
为了解决这一挑战,荷兰埃因霍温理工大学的研究团队在《Computer Vision and Image Understanding》上发表了一项创新研究,提出了STORM-PSR框架。该研究通过时空建模的方法,显著提升了在遮挡条件下的步骤识别性能。
研究人员采用了双流框架设计,包括装配状态检测流和时空流。关键技术方法包括:基于关键帧采样的弱监督空间编码器预训练、基于Transformer的时序编码器设计、关键片段感知采样策略,以及在IndustReal和MECCANO数据集上的综合评估。
研究结果显示,STORM-PSR框架在多个关键指标上实现了显著提升。在IndustReal数据集上,该方法的步骤顺序相似度达到0.812,F1分数为0.901,平均识别延迟降低至15.5秒。在MECCANO数据集上,虽然F1分数略有下降,但步骤顺序相似度提升至0.377,平均延迟减少至88.6秒。
通过系统的消融研究,团队验证了各技术组件的有效性。关键片段感知采样相比均匀采样和单峰高斯采样,在性能上提升了14%至79%。Transformer骨干网络在时序建模中表现最优,相比LSTM和TCN具有更好的长程依赖捕捉能力。
该研究的创新之处在于首次将时空特征直接用于程序步骤识别,而非通过装配状态间接推断。STORM-PSR框架通过结合空间状态检测的可靠性和时空建模的遮挡鲁棒性,为工业环境中的实时程序监控提供了实用解决方案。未来工作可进一步探索基于学习的流融合机制和更大时序窗口的应用,以持续提升识别性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号