
-
生物通官微
陪你抓住生命科技
跳动的脉搏
时序跨度提议网络(TSPN):视频视觉关系检测中的动态交互建模与高效时序定位
【字体: 大 中 小 】 时间:2025年08月31日 来源:Expert Systems with Applications 7.5
编辑推荐:
【编辑推荐】本文提出时序跨度提议网络(TSPN),通过关系性评分(relationness scoring)和时序跨度预测模块,解决视频视觉关系检测(VidVRD)中长时交互建模与计算效率的难题。相比片段式(segment-based)和滑动窗口式(window-based)方法,TSPN结合全局视频上下文,训练速度提升2×,在ImageNet-VidVRD和VidOR数据集上表现优异。
亮点
本文提出时序跨度提议网络(TSPN),通过两阶段设计解决视频关系检测的核心挑战:
关系性评分:筛选可能存在交互的对象轨迹对,降低搜索空间复杂度至O(n+m);
时序跨度预测:联合预测所有关系的类别及其起止时间,利用全局视频上下文建模长短时交互。
TSPN的效率优势
与片段式(需重复处理重叠片段)和滑动窗口式(立方复杂度)相比,TSPN仅需单次处理对象对,理论计算效率提升2×至4个数量级。实验显示,TSPN在保持精度的同时,大幅减少冗余计算。
结论
TSPN为视频关系检测提供了一种高效且全面的解决方案,其创新性在于:
通过关系性评分实现搜索空间稀疏化;
利用全局上下文建模动态交互的时序边界;
在ImageNet-VidVRD和VidOR上达到SOTA性能,同时显著提升训练速度。
作者贡献声明
Sangmin Woo:概念设计、方法论、实验验证、论文撰写;
Junhyug Noh:理论分析、监督指导;
Kangil Kim:项目统筹、资金支持。
利益冲突声明
作者声明获得韩国国家研究基金会(NRF)等机构的经费支持,其余无潜在利益冲突。
生物通微信公众号
知名企业招聘