多模态注意力机制驱动的深度关联学习模型DCLMA在视听跨模态检索中的突破性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月07日 来源：Machine Learning with Applications

编辑推荐：

　　为解决视听模态特征不一致导致的跨模态检索性能瓶颈，研究人员提出深度关联学习与多模态注意力模型DCLMA，通过多粒度关联表征和跨模态注意力机制，实现视听特征的全局与局部关联建模。实验表明该方法在VEGAS和AVE数据集上mAP分别达0.932和0.508，显著优于现有技术，为多媒体语义理解提供新范式。

在多媒体数据爆炸式增长的时代，视频、音频等多模态数据如何实现高效跨模态检索成为计算机视觉领域的核心挑战。传统方法面临视听特征"异构鸿沟"（heterogeneous gap）的困境——视觉的1024维Inception V3特征与音频的128维Vggish特征如同两种语言，难以直接比较。更棘手的是，现实场景中的噪声干扰和冗余信息（如嘈杂环境下的视频）使得全局特征匹配策略效果受限，现有方法最高mAP仅0.866（VEGAS）和0.333（AVE）。

针对这一难题，研究人员创新性地提出DCLMA（Deep Correlation Learning with Multi-modal Attention）框架。该模型通过三级注意力架构实现视听模态的深度交互：首先利用3×1/5×1/7×1多尺度卷积捕获细粒度特征（FGR），再通过模态多粒度关联表征（MMgCR）模块建立跨模态局部关联，最后通过全局级表征（MGlCR）模块整合全局语义。特别设计的双阶段融合策略（公式7-9）通过自适应权重调整，将全局特征G^v/G^a与局部特征F_k^v/F_k^a动态融合，形成1792维的模态集成表征（MIR）。

关键技术包括：1）基于VGGish和Inception V3的视听特征编码；2）多尺度卷积与双向线性注意力机制（公式4-6）；3）跨模态相关损失L_cmc与判别损失L_dis联合优化（公式20）；4）t-SNE可视化与混淆矩阵评估。

研究结果方面：

多粒度关联表征：通过3×1/5×1/7×1卷积核提取的FGR特征，使细粒度检索准确率提升19.3%（图2）；
跨模态注意力：公式5所示的软选择策略在AVE数据集上将正负样本区分度提高至0.92（图5）；
模态融合性能：双阶段融合策略（公式13-14）在VEGAS上实现0.932 mAP，较最优基线提升7.6%（表2）；
泛化能力：在样本量较小的AVE数据集仍保持0.508 mAP（表3），证明模型对数据稀缺场景的适应性。

讨论部分指出，DCLMA的创新性体现在三个方面：首次将多尺度卷积引入视听特征对齐，通过公式8的跨模态注意力实现模态间特征调制，并设计公式16的联合损失函数保持模态不变性。局限性在于模型参数量达184.8MB（表6），未来可通过知识蒸馏压缩。这项工作不仅为视频检索、智能监控等应用提供新工具，其多模态融合范式对脑机接口、医疗影像分析等领域亦有启发。论文成果已发表在《Machine Learning with Applications》，代码已在GitHub开源。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号