渐进式特征优化与可变形引导描述器在密集视频描述中的创新应用

【字体: 时间:2025年06月29日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对密集视频描述(DVC)中事件定位(EL)特征利用率(UR)低、描述生成(EC)叙事连贯性差的问题,上海海事大学团队提出渐进式特征优化模块(PFR)动态调整解码特征,开发可变形引导描述器(DGD)融合关键信息与全局语境。实验表明该方法在ActivityNet和YouCook2数据集上以仅4.6%参数量实现SOTA性能,为视频语义理解提供新范式。

  

研究背景与意义
在短视频平台爆发式增长的时代,如何让机器像人类一样理解长视频中的复杂事件并生成连贯描述,成为计算机视觉领域的核心挑战。密集视频描述(Dense Video Captioning, DVC)技术需同时完成事件定位(Event Localization, EL)和事件描述(Event Captioning, EC)两大任务,但现有方法存在两大瓶颈:一是传统模型对编码特征v的静态解码方式导致关键特征利用率(Utilization Rate, UR)不足,产生碎片化时间事件提案(Temporal Event Proposal, TEP);二是基于多尺度可变形注意力(Multi-Scale Deformable Attention, MSDA)的方法过度聚焦显著物体而忽略场景细节,破坏描述的逻辑连贯性。

上海海事大学研究团队在《Expert Systems with Applications》发表的研究中,创新性地提出渐进式特征优化(Progressive Feature Refining, PFR)模块和可变形引导描述器(Deformable-Guidance Describer, DGD)。前者通过动态内存机制实现特征自适应增强/抑制,后者采用双LSTM结构平衡局部与全局信息,在保持模型轻量化(仅需CLIP基线4.6%参数)的同时,显著提升长视频语义解析能力。

关键技术方法
研究采用ActivityNet Captions(10,009训练视频)和YouCook2(1.3万片段)数据集,核心技术包含:1)PFR模块的凝聚增强机制(CAM)与过访问衰减机制(OAM);2)DGD的双LSTM交互架构;3)基于Transformer的多尺度可变形注意力编码-解码框架。实验对比PDVC等最新模型,采用标准BLEU4、METEOR等指标评估。

研究结果

  1. 渐进式特征优化机制
    通过滑动窗口动态更新特征内存,PFR使TEP生成准确率提升23.6%。实验显示其OAM机制能有效抑制90%以上的冗余特征访问,CAM则使关键事件特征UR提高至82.3%。

  2. 可变形引导描述生成
    DGD在YouCook2数据集上BLEU4达14.7,较基线提升4.2点。其第二LSTM层通过MSDA参考点与全局特征交互,使场景细节保留率提高68%,显著改善"倒水-搅拌-加热"等连续动作的描述连贯性。

  3. 跨数据集性能验证
    在120秒长视频测试中,联合PFR+DGD的方案使ActivityNet的CIDEr分数达56.8,参数效率较CLIP-based模型提升21.7倍,证实方法在复杂场景下的泛化能力。

结论与展望
该研究通过PFR和DGD模块的创新设计,首次实现DVC任务中特征动态优化与语境全局感知的协同。特别值得注意的是,PFR的内存机制为视频理解领域特征复用提供新思路,而DGD的"MSDA-LSTM"混合架构突破传统注意力机制的局限。未来工作可探索该框架在医疗内镜视频分析等专业领域的应用,其轻量化特性尤其适合边缘计算场景。研究团队公开的代码库已收到来自Google Research等机构的改进提案,显示出广泛的学术影响力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号