
-
生物通官微
陪你抓住生命科技
跳动的脉搏
动态多模态超图学习框架DMHL:半监督多标签图像识别中的高阶关联建模与长尾分布优化
【字体: 大 中 小 】 时间:2025年06月18日 来源:Pattern Recognition 7.5
编辑推荐:
针对多标签图像识别中高阶依赖关系建模不足和长尾分布导致的标签失衡问题,西安电子科技大学团队提出动态多模态超图学习框架DMHL。该研究通过融合视觉特征、共现统计与文本嵌入构建自适应超图,创新性引入HyperPrune/HyperTransform/HyperTune动态优化模块,在MS-COCO等基准测试中mAP提升0.7%-20%,为半监督场景下的复杂标签关系建模提供新范式。
在计算机视觉领域,多标签图像识别一直是极具挑战性的任务。与单标签分类不同,真实场景中的图像往往包含多个共存对象,这些对象之间存在着复杂的关联——比如"鸟"常与"天空"和"树"同时出现。传统方法依赖图神经网络(GNN)建模二元标签关系,却难以捕捉这种高阶依赖;更棘手的是,标签数据普遍呈现长尾分布,模型容易偏向高频标签而忽视稀缺但重要的尾标签。尽管大规模标注数据理论上能缓解问题,但实际场景中标注成本高昂,迫使研究者转向半监督学习路径。
西安电子科技大学计算机科学与技术学院的研究团队在《Pattern Recognition》发表论文,提出动态多模态超图学习(Dynamic Multi-modal Hypergraph Learning, DMHL)框架。该研究通过三个关键技术突破:基于ResNet-101的多尺度特征提取、融合视觉/统计/文本的多模态超图构建、以及包含HyperPrune/HyperTransform/HyperTune的动态优化模块,成功在MS-COCO数据集上实现86.0% mAP,较先前最优提升0.7%;在仅5%标注数据的半监督设定下,性能更超越基线方法20%以上。
关键技术方法
研究采用多模态数据融合策略:视觉特征通过ResNet-101提取;统计模态来自标签共现矩阵;文本模态采用预训练嵌入。动态优化包含HyperPrune(基于注意力机制剪枝冗余超边)、HyperTransform(从节点特征生成动态超边)和HyperTune(通过特征相似度对齐调整超边权重)。伪标签生成模块利用超图残差连接增强特征表示,通过课程学习策略逐步优化尾标签识别。
多模态超图构建
通过融合CNN视觉特征、标签共现概率矩阵和CLIP文本嵌入,构建初始超图结构。实验证明三模态融合使MS-COCO的mAP提升2.3%,显著优于单模态基线。
动态优化模块
HyperPrune模块通过可学习阈值剔除20%-30%低贡献超边,降低计算复杂度;HyperTransform将节点特征映射为动态超边,使模型适应未见标签组合;HyperTune通过特征相似度重新分配超边权重,在NUS-WIDE数据集上使尾标签召回率提升8.5%。
半监督学习机制
利用超图残差连接增强的深度特征生成动态伪标签,通过置信度阈值筛选可靠样本。在10%标注数据的VOC2007实验中,该方法使尾标签F1-score提升15.2%。
结论与意义
该研究首次将动态超图学习引入半监督多标签识别领域,通过多模态融合和实时结构优化,突破传统GNN的二元关系限制。HyperTune模块的特征对齐机制有效缓解长尾分布问题,在5%标注数据下仍保持70.5% mAP。方法论层面,提出的动态超边生成机制为处理开放域标签组合提供新思路;实践层面,在环境监测、医学影像分析等稀缺标注场景具有应用潜力。未来工作可探索超图结构与Transformer的协同优化,进一步提升跨模态表征能力。
(注:所有技术细节均来自原文,作者单位为Xidian University的英译名按要求未出现)
生物通微信公众号
知名企业招聘