基于双重相似性增强的混合正交融合多模态命名实体识别方法研究

【字体: 时间:2025年06月17日 来源:Pattern Recognition 7.5

编辑推荐:

  为解决多模态命名实体识别(MNER)中跨模态学习语义退化与特征冗余问题,研究人员提出双重相似性增强混合正交融合网络(DSE-HOF),通过词级/模态级相似性约束与正交融合机制,在Twitter-2015/2017数据集上F1值平均提升1.398%-1.681%,为社交媒体多模态语义理解提供新范式。

  

社交媒体的爆炸式增长使得包含图文混合内容的多模态数据成为信息传播的主要载体。在这类场景中,准确识别文本中的命名实体(如人名、地名、机构名)对网络攻击预警、舆情分析等应用至关重要。传统基于文本的命名实体识别(NER)面临语义模糊和上下文不足的困境,而引入视觉信息的多模态命名实体识别(MNER)虽能部分缓解该问题,却常因跨模态交互过程中的语义偏差和特征冗余导致性能受限。例如,当识别推文中的实体"mudurbanflowers"时,单独分析文本可能误判其类别,而结合花卉图片可显著提升准确性;但若过度依赖与文本无关的视觉特征(如将"Wabash"的横幅错误关联为地点而非机构),反而会引入干扰。这种"语义渗透失衡"现象成为制约MNER发展的关键瓶颈。

福建理工大学的研究团队在《Pattern Recognition》发表的研究中,创新性地提出双重相似性增强混合正交融合网络(DSE-HOF)。该模型通过语义约束策略平衡模态内/间语义关系,采用词级相似性筛选相关图像区域,模态级相似性调控视觉特征融合,最后通过正交化处理减少冗余。实验表明该方法在Twitter-2015和Twitter-2017数据集上F1值分别超越基线1.398%和1.681%,并通过消融实验验证了各模块的有效性。

关键技术包括:1)基于BERT和ResNet-152的文本/图像特征提取;2)结合自注意力与跨模态注意力的语义约束模块;3)词级相似性计算的视觉区域过滤;4)模态级相似性动态加权机制;5)基于Gram-Schmidt正交化的特征融合。

【研究结果】

  1. 单模态特征提取
    采用预训练模型分别获取文本词向量和图像区域特征,通过位置编码保留空间信息。

  2. 语义约束混合特征生成
    通过自注意力强化模态内语义连贯性,跨模态注意力建立文本词与图像区域的映射,实验显示该模块使实体边界识别准确率提升2.3%。

  3. 双重相似性增强融合
    词级相似性计算显示对"Chiangmai"等隐含语义实体,相关图像区域权重提高1.8倍;模态级相似性分析发现视觉特征贡献度与文本模糊度呈正相关(r=0.72)。

  4. 正交融合与分类
    正交化处理使特征维度间相关性降低41%,在跨领域测试中模型鲁棒性提升15.6%。

【结论与意义】
该研究创新性地将双重相似性度量与正交融合相结合,解决了MNER领域三个核心问题:1)通过语义约束策略避免跨模态交互中的语义偏移;2)利用词级相似性实现细粒度图文对齐;3)借助正交融合抑制特征冗余。相比传统方法,DSE-HOF在保持各模态语义完整性的同时,显著提升了实体分类准确性,特别是在处理"Wabash"等易混淆实体时错误率降低34%。研究者特别指出,模态级相似性机制能自适应调整视觉特征权重,这对社交媒体中质量参差不齐的图文配对数据具有重要应用价值。未来工作可探索该框架在视频实体识别、跨语言多模态理解等场景的扩展应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号