
-
生物通官微
陪你抓住生命科技
跳动的脉搏
跨模态检索中统一语义空间学习的创新方法:基于图卷积网络的语义关联建模与异构间隙桥接
【字体: 大 中 小 】 时间:2025年06月23日 来源:Neural Networks 6.0
编辑推荐:
为解决跨模态检索中语义内容关联性不足及样本-语义异构间隙问题,研究人员提出统一语义空间学习(USSL)方法。通过构建标签-多标签(L-ML)图和组语义共享图卷积网络(GSSGCN),实现图像、文本、标签和多标签的统一映射,结合异构InfoNCE损失函数,在NUS-WIDE等数据集上验证了方法的优越性。该研究为多模态数据语义对齐提供了新范式。
随着互联网多媒体数据的爆炸式增长,如何让计算机像人类一样理解不同模态数据之间的语义关联,成为人工智能领域的核心挑战。跨模态检索技术试图解决这个难题,它允许用户用图像搜索文本,或用文本检索图像,就像我们在电商平台用图片找同款,或在学术数据库用关键词查图谱。然而,现有方法面临两大瓶颈:一是传统方法如典型相关分析(CCA)依赖线性投影,难以捕捉复杂非线性关系;二是当前深度学习方法虽采用图卷积网络(GCN)挖掘样本间关联,却忽视了语义内容(如标签与多标签)之间的深层联系,导致语义表达能力受限。
针对这些挑战,河北大学的研究团队在《Neural Networks》发表了一项创新研究,提出统一语义空间学习(USSL)框架。该工作首次将图像、文本、单标签和多标签全部映射到统一语义空间,通过独创的组语义共享图卷积网络(GSSGCN),实现了语义关联的数据驱动式学习。实验表明,该方法在NUS-WIDE等三大基准数据集上显著超越现有技术,为解决跨模态检索中的"语义鸿沟"问题提供了新思路。
关键技术方法包括:1) 构建标签-多标签(L-ML)图建模语义关联;2) 开发GSSGCN网络通过对抗学习生成统一语义表征;3) 设计异构InfoNCE损失函数,包含同构、模态内和模态间三个对比学习组件;4) 采用端到端训练策略优化特征一致性损失(Lfcon)和分类损失(Lcla)。实验数据来自公开数据集NUS-WIDE、MIRFlickr-25K和MS-COCO。
【跨模态检索】
研究系统梳理了从传统CCA到深度学习方法的技术演进,指出当前GCN-based方法虽能捕捉样本关联,但存在语义内容建模不足的缺陷。通过对比MVMLCCA、GCDH等代表性工作,明确了语义关联学习的重要性。
【问题定义】
形式化定义了跨模态检索任务:给定n个实例O={oi}ni=1,每个实例包含图像特征xvi和文本特征xti,以及对应的多标签向量yi∈{0,1}c。关键创新在于将单标签L和多标签yi同时纳入学习框架。
【总体框架】
网络架构包含实例表示学习和语义特征学习双分支。图像/文本子网络通过非线性投影生成公共表示vi/ti;语义分支则通过GSSGCN学习标签嵌入zl和多标签嵌入zml。创新性地采用共享机制确保不同组图之间的语义一致性。
【结构对比学习】
提出三种对比损失:1) 异构InfoNCE损失桥接样本与语义内容;2) 模态内InfoNCE保持单模态结构;3) 模态间InfoNCE对齐跨模态关系。通过计算多标签顶点关联向量hi的相似度,实现语义结构对齐。
【目标函数】
最终优化目标Lobj整合了多标签结构对比损失(Lmsc)、分类损失(Lcla)、语义差异损失(Lsd)和特征一致性损失(Lfcon),通过超参数μ1-3平衡各项。
【实验】
在NUS-WIDE等数据集上的实验表明,USSL在mAP指标上显著优于DCHSCR、RDPH等方法。消融实验验证了GSSGCN和对比学习组件的有效性,特别是多标签关联建模带来5.2%的性能提升。
【结论】
该研究开创性地构建了包含四种要素的统一语义空间,通过L-ML图的数据驱动学习,解决了语义关联建模难题。GSSGCN的创新设计实现了语义结构的自适应捕捉,而多角度对比学习机制有效缩小了样本-语义异构间隙。这项工作不仅提升了跨模态检索性能,更为多模态语义理解提供了新范式,在智能医疗影像检索、跨模态知识图谱构建等领域具有广阔应用前景。未来可探索动态语义图构建和在线学习机制,以应对开放环境下的语义演化挑战。
生物通微信公众号
知名企业招聘