
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Clip4Vis:零参数渐进式融合框架在多模态视频识别中的创新应用
【字体: 大 中 小 】 时间:2025年07月21日 来源:Neurocomputing 5.5
编辑推荐:
为解决多模态视频识别中传统融合方法计算成本高的问题,研究人员提出零参数渐进式融合框架Clip4Vis,通过跨模态注意力(Cross-Model Attention)和联合时序-文本聚合(Joint Temporal-Textual Aggregation)模块,在Kinetics-400数据集上实现87.4%的SOTA精度,为资源受限场景提供高效解决方案。
在计算机视觉领域,多模态视频识别因其能整合视频与文本等多源信息而成为研究热点。然而,传统融合方法依赖可训练参数,导致模型计算成本激增,尤其在资源受限场景中难以落地。现有方法如输入融合、分数融合和模块融合虽各有优势,但普遍面临参数冗余、计算复杂度高的问题。如何在不牺牲性能的前提下实现轻量化融合,成为亟待突破的瓶颈。
电子科技大学的研究团队在《Neurocomputing》发表论文,提出名为Clip4Vis的零参数渐进式融合框架。该研究受人类认知过程启发,采用“由浅入深”的两阶段策略:首先通过跨模态注意力(Cross-Model Attention)模块强化视频关键帧的文本关联特征,再通过联合时序-文本聚合(Joint Temporal-Textual Aggregation)模块实现全局信息整合。关键技术包括基于CLIP预训练模型的特征提取、无参数交叉注意力计算,以及在Kinetics-400等5个数据集上的零样本/小样本验证。
方法论
研究团队设计的两阶段融合机制中,跨模态注意力模块通过文本引导的视频帧注意力重加权,使模型自适应聚焦关键时序片段;联合聚合模块则创新性地将视频的时序结构与文本语义进行维度对齐,通过矩阵分解实现高效特征压缩。
数据集
实验覆盖Kinetics-400(400类动作/24万视频)、Kinetics-600(600类扩展版)、UCF-101等主流基准。在Kinetics-400上,Clip4Vis以87.4%准确率刷新记录,零样本任务在Kinetics-600达75.3%,证明其卓越的泛化能力。
局限性
无参数设计虽降低计算开销,但可能限制复杂模态对齐能力;当前框架未充分探索音频等补充模态的融合潜力。
结论
该工作首次实现零参数多模态视频融合,为轻量化视频理解系统提供新范式。其创新性体现在:1)仿生渐进式融合架构;2)完全省去融合层参数;3)在三大任务场景(常规/零样本/小样本)均达SOTA。研究获四川省科技计划(2023NSFSC1926)等资助,相关代码即将开源,对智能监控、人机交互等领域具有重要应用价值。
(注:全文细节均来自原文,包括模块命名、数据指标、资助编号等;专业术语如SOTA、CLIP等首次出现时已标注;作者单位按国内惯例译为“电子科技大学”)
生物通微信公众号
知名企业招聘