
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于层次多尺度编码与跨模态交互解码的HI-Captioner模型:提升复杂场景图像描述的精准性与语义连贯性
【字体: 大 中 小 】 时间:2025年06月16日 来源:Neurocomputing 5.5
编辑推荐:
针对现有端到端图像描述方法在特征提取单一性和跨模态交互简单化方面的局限,研究人员提出基于Swin Transformer的HI-Captioner模型。通过层次多尺度注意力模块(HSAM)和级联跨模态交互解码器(CCMID),显著提升多级特征捕获与模态信息融合能力。实验表明该模型在MSCOCO数据集上BLEU4和CIDEr指标表现优异,为视觉辅助与智能交互提供新方案。
在计算机视觉与自然语言处理的交叉领域,图像描述生成(Image Captioning)技术正成为人机交互和视觉辅助的重要工具。然而,现有端到端方法普遍面临两大瓶颈:一是依赖单尺度卷积神经网络(CNN)特征提取,难以捕捉图像中从微观纹理到宏观结构的层次化信息;二是传统解码器采用单向信息流,导致生成的文本描述缺乏上下文连贯性。这些问题在复杂场景(如包含多对象交互或抽象概念的图像)中尤为突出,造成描述内容细节缺失或语义断裂。
针对这些挑战,新疆大学计算机科学与技术学院的研究人员Wenjing Li等提出创新性解决方案——HI-Captioner模型。该工作通过整合层次多尺度注意力机制(Hierarchical Multi-Scale Attention, HMSA)与自适应位置编码(Hierarchical Positional Encoder, HPE),构建了具有层级感知能力的编码器模块HSAM。解码阶段则引入级联跨模态交互解码器(Cascading Cross-Modal Interaction Decoder, CCMID),实现视觉-语言模态的双向深度融合。实验证明,该模型在MSCOCO基准数据集上BLEU4指标提升12.7%,CIDEr得分达到128.5,相关成果发表于《Neurocomputing》。
关键技术方法包括:1) 基于Swin Transformer的层次化特征金字塔架构,通过4×4至32×32的多尺度窗口注意力提取图像特征;2) HSAM模块中的分层调制因子(HMF),动态调整不同网络层对位置信息的依赖程度;3) CCMID采用自注意力(Self-Attention)与交叉注意力(Cross-Attention)的级联结构,实现跨模态特征对齐。实验数据来自MSCOCO的113,287张图像及对应标注,按Karpathy划分方案分为训练/验证/测试集。
层次多尺度编码机制
HMSA通过可变形卷积(Deformable Convolution)在多个尺度空间提取特征,配合注意力调整因子动态分配各层次权重。可视化分析显示,4×4尺度主要捕获局部纹理(如动物毛发),而32×32尺度聚焦整体构图(如风景层次)。HPE则通过正弦函数与线性变换的复合运算,将传统位置编码扩展为具有层级适应性的空间表征。
跨模态交互解码性能
CCMID在解码每个单词时,不仅考虑已生成文本的语义上下文(通过Self-Attention),还同步融合未来单词的潜在影响(通过双向Cross-Attention)。在"足球运动员射门"场景中,模型能准确关联"足球"与"球门"的空间关系,而基线模型LSTM-Attention仅能生成"人在踢球"的模糊描述。
多数据集验证
除MSCOCO外,在Flickr8k和Flickr30k上的迁移实验显示,模型在少样本场景下CIDEr指标仍保持85.2以上,证明其强泛化能力。消融实验证实HSAM和CCMID的协同作用——单独使用HSAM时BLEU4下降9.3%,单独使用CCMID则导致细节描述错误率上升17%。
研究结论指出,HI-Captioner通过层次化特征融合与双向跨模态交互,有效解决了复杂场景描述中的语义断层问题。讨论部分强调,该方法在医疗影像描述(如X光报告生成)中具有潜在应用价值,但当前版本对超长序列(>50单词)的处理效率仍有优化空间。未来工作将探索三维医学图像的体素级(Voxel-level)特征提取,进一步拓展多模态理解的边界。
生物通微信公众号
知名企业招聘