
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多模态注意力机制驱动的深度关联学习模型DCLMA在视听跨模态检索中的突破性研究
【字体: 大 中 小 】 时间:2025年07月07日 来源:Machine Learning with Applications
编辑推荐:
为解决视听模态特征不一致导致的跨模态检索性能瓶颈,研究人员提出深度关联学习与多模态注意力模型DCLMA,通过多粒度关联表征和跨模态注意力机制,实现视听特征的全局与局部关联建模。实验表明该方法在VEGAS和AVE数据集上mAP分别达0.932和0.508,显著优于现有技术,为多媒体语义理解提供新范式。
在多媒体数据爆炸式增长的时代,视频、音频等多模态数据如何实现高效跨模态检索成为计算机视觉领域的核心挑战。传统方法面临视听特征"异构鸿沟"(heterogeneous gap)的困境——视觉的1024维Inception V3特征与音频的128维Vggish特征如同两种语言,难以直接比较。更棘手的是,现实场景中的噪声干扰和冗余信息(如嘈杂环境下的视频)使得全局特征匹配策略效果受限,现有方法最高mAP仅0.866(VEGAS)和0.333(AVE)。
针对这一难题,研究人员创新性地提出DCLMA(Deep Correlation Learning with Multi-modal Attention)框架。该模型通过三级注意力架构实现视听模态的深度交互:首先利用3×1/5×1/7×1多尺度卷积捕获细粒度特征(FGR),再通过模态多粒度关联表征(MMgCR)模块建立跨模态局部关联,最后通过全局级表征(MGlCR)模块整合全局语义。特别设计的双阶段融合策略(公式7-9)通过自适应权重调整,将全局特征Gv/Ga与局部特征Fkv/Fka动态融合,形成1792维的模态集成表征(MIR)。
关键技术包括:1)基于VGGish和Inception V3的视听特征编码;2)多尺度卷积与双向线性注意力机制(公式4-6);3)跨模态相关损失Lcmc与判别损失Ldis联合优化(公式20);4)t-SNE可视化与混淆矩阵评估。
研究结果方面:
讨论部分指出,DCLMA的创新性体现在三个方面:首次将多尺度卷积引入视听特征对齐,通过公式8的跨模态注意力实现模态间特征调制,并设计公式16的联合损失函数保持模态不变性。局限性在于模型参数量达184.8MB(表6),未来可通过知识蒸馏压缩。这项工作不仅为视频检索、智能监控等应用提供新工具,其多模态融合范式对脑机接口、医疗影像分析等领域亦有启发。论文成果已发表在《Machine Learning with Applications》,代码已在GitHub开源。
生物通微信公众号
知名企业招聘