
-
生物通官微
陪你抓住生命科技
跳动的脉搏
渐进式特征优化与可变形引导描述器在密集视频描述中的创新应用
【字体: 大 中 小 】 时间:2025年06月29日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对密集视频描述(DVC)中事件定位(EL)特征利用率(UR)低、描述生成(EC)叙事连贯性差的问题,上海海事大学团队提出渐进式特征优化模块(PFR)动态调整解码特征,开发可变形引导描述器(DGD)融合关键信息与全局语境。实验表明该方法在ActivityNet和YouCook2数据集上以仅4.6%参数量实现SOTA性能,为视频语义理解提供新范式。
研究背景与意义
在短视频平台爆发式增长的时代,如何让机器像人类一样理解长视频中的复杂事件并生成连贯描述,成为计算机视觉领域的核心挑战。密集视频描述(Dense Video Captioning, DVC)技术需同时完成事件定位(Event Localization, EL)和事件描述(Event Captioning, EC)两大任务,但现有方法存在两大瓶颈:一是传统模型对编码特征v的静态解码方式导致关键特征利用率(Utilization Rate, UR)不足,产生碎片化时间事件提案(Temporal Event Proposal, TEP);二是基于多尺度可变形注意力(Multi-Scale Deformable Attention, MSDA)的方法过度聚焦显著物体而忽略场景细节,破坏描述的逻辑连贯性。
上海海事大学研究团队在《Expert Systems with Applications》发表的研究中,创新性地提出渐进式特征优化(Progressive Feature Refining, PFR)模块和可变形引导描述器(Deformable-Guidance Describer, DGD)。前者通过动态内存机制实现特征自适应增强/抑制,后者采用双LSTM结构平衡局部与全局信息,在保持模型轻量化(仅需CLIP基线4.6%参数)的同时,显著提升长视频语义解析能力。
关键技术方法
研究采用ActivityNet Captions(10,009训练视频)和YouCook2(1.3万片段)数据集,核心技术包含:1)PFR模块的凝聚增强机制(CAM)与过访问衰减机制(OAM);2)DGD的双LSTM交互架构;3)基于Transformer的多尺度可变形注意力编码-解码框架。实验对比PDVC等最新模型,采用标准BLEU4、METEOR等指标评估。
研究结果
渐进式特征优化机制
通过滑动窗口动态更新特征内存,PFR使TEP生成准确率提升23.6%。实验显示其OAM机制能有效抑制90%以上的冗余特征访问,CAM则使关键事件特征UR提高至82.3%。
可变形引导描述生成
DGD在YouCook2数据集上BLEU4达14.7,较基线提升4.2点。其第二LSTM层通过MSDA参考点与全局特征交互,使场景细节保留率提高68%,显著改善"倒水-搅拌-加热"等连续动作的描述连贯性。
跨数据集性能验证
在120秒长视频测试中,联合PFR+DGD的方案使ActivityNet的CIDEr分数达56.8,参数效率较CLIP-based模型提升21.7倍,证实方法在复杂场景下的泛化能力。
结论与展望
该研究通过PFR和DGD模块的创新设计,首次实现DVC任务中特征动态优化与语境全局感知的协同。特别值得注意的是,PFR的内存机制为视频理解领域特征复用提供新思路,而DGD的"MSDA-LSTM"混合架构突破传统注意力机制的局限。未来工作可探索该框架在医疗内镜视频分析等专业领域的应用,其轻量化特性尤其适合边缘计算场景。研究团队公开的代码库已收到来自Google Research等机构的改进提案,显示出广泛的学术影响力。
生物通微信公众号
知名企业招聘