渐进式特征优化与可变形引导描述器在密集视频描述中的创新应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月29日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对密集视频描述(DVC)中事件定位(EL)特征利用率(UR)低、描述生成(EC)叙事连贯性差的问题，上海海事大学团队提出渐进式特征优化模块(PFR)动态调整解码特征，开发可变形引导描述器(DGD)融合关键信息与全局语境。实验表明该方法在ActivityNet和YouCook2数据集上以仅4.6%参数量实现SOTA性能，为视频语义理解提供新范式。

研究背景与意义
在短视频平台爆发式增长的时代，如何让机器像人类一样理解长视频中的复杂事件并生成连贯描述，成为计算机视觉领域的核心挑战。密集视频描述(Dense Video Captioning, DVC)技术需同时完成事件定位(Event Localization, EL)和事件描述(Event Captioning, EC)两大任务，但现有方法存在两大瓶颈：一是传统模型对编码特征_v的静态解码方式导致关键特征利用率(Utilization Rate, UR)不足，产生碎片化时间事件提案(Temporal Event Proposal, TEP)；二是基于多尺度可变形注意力(Multi-Scale Deformable Attention, MSDA)的方法过度聚焦显著物体而忽略场景细节，破坏描述的逻辑连贯性。

上海海事大学研究团队在《Expert Systems with Applications》发表的研究中，创新性地提出渐进式特征优化(Progressive Feature Refining, PFR)模块和可变形引导描述器(Deformable-Guidance Describer, DGD)。前者通过动态内存机制实现特征自适应增强/抑制，后者采用双LSTM结构平衡局部与全局信息，在保持模型轻量化（仅需CLIP基线4.6%参数）的同时，显著提升长视频语义解析能力。

关键技术方法
研究采用ActivityNet Captions（10,009训练视频）和YouCook2（1.3万片段）数据集，核心技术包含：1）PFR模块的凝聚增强机制(CAM)与过访问衰减机制(OAM)；2）DGD的双LSTM交互架构；3）基于Transformer的多尺度可变形注意力编码-解码框架。实验对比PDVC等最新模型，采用标准BLEU₄、METEOR等指标评估。

研究结果

渐进式特征优化机制
通过滑动窗口动态更新特征内存，PFR使TEP生成准确率提升23.6%。实验显示其OAM机制能有效抑制90%以上的冗余特征访问，CAM则使关键事件特征UR提高至82.3%。
可变形引导描述生成
DGD在YouCook2数据集上BLEU₄达14.7，较基线提升4.2点。其第二LSTM层通过MSDA参考点与全局特征交互，使场景细节保留率提高68%，显著改善"倒水-搅拌-加热"等连续动作的描述连贯性。
跨数据集性能验证
在120秒长视频测试中，联合PFR+DGD的方案使ActivityNet的CIDEr分数达56.8，参数效率较CLIP-based模型提升21.7倍，证实方法在复杂场景下的泛化能力。

结论与展望
该研究通过PFR和DGD模块的创新设计，首次实现DVC任务中特征动态优化与语境全局感知的协同。特别值得注意的是，PFR的内存机制为视频理解领域特征复用提供新思路，而DGD的"MSDA-LSTM"混合架构突破传统注意力机制的局限。未来工作可探索该框架在医疗内镜视频分析等专业领域的应用，其轻量化特性尤其适合边缘计算场景。研究团队公开的代码库已收到来自Google Research等机构的改进提案，显示出广泛的学术影响力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号