
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于基因编辑启发的多阶段交互网络MINIGE-MNER:提升多模态命名实体识别性能
【字体: 大 中 小 】 时间:2025年09月19日 来源:Neural Networks 6.3
编辑推荐:
本文提出了一种受基因编辑启发的多阶段交互网络MINIGE-MNER,通过变分信息瓶颈(VIB)实现模态噪声平衡过滤,最大化跨模态互信息以精准对齐语义,并构建文本主导的基因重组模块,有效解决多模态命名实体识别(MNER)中的噪声失衡、语义失配和信息丢失问题,在Twitter-2015和Twitter-2017数据集上达到SOTA性能。
Highlight
本研究创新性地提出了一种基于基因编辑启发的多阶段交互网络方法(MINIGE-MNER)。据我们所知,这是基因编辑理论首次应用于MNER任务,为多模态可解释性研究开辟了新视角。
基因敲除模块
基于变分信息瓶颈(Variational Information Bottleneck)技术构建,有效实现了模态噪声的平衡过滤。
基因重组位点确定模块
通过最大化去噪后跨模态表征间的互信息(Mutual Information),避免噪声干扰导致的语义失配,实现细粒度精准语义对齐。
文本引导的基因重组模块
在保留文本独特上下文信息作为语义核心的同时,避免无关视觉噪声,从而实现有效的跨模态融合。
实验结果
MINIGE-MNER在Twitter-2015和Twitter-2017数据集上分别达到76.45%和88.67%的F1分数,超越现有SOTA方法0.83%和0.42%。大量实验分析验证了各模块的有效性。
结论
本文提出MINIGE-MNER,一种受遗传学中基因编辑启发的多阶段交互网络方法,旨在推动MNER任务中的多模态学习。为解决模态噪声处理不平衡、语义失配的级联效应以及文本主导缺失导致的信息丢失这三个关键挑战,我们引入了三个模块:基因敲除、基因重组位点确定和文本引导的基因重组模块。基因敲除模块基于变分信息瓶颈(VIB)原则,从文本、原始图像和生成图像特征中去除劣质基因(模态噪声),保留优质基因,实现噪声的平衡过滤。基因重组位点确定模块则最大化配对跨模态优质基因间的互信息,同时最小化非配对基因间的互信息,从而减小跨模态优质基因的空间距离,增强跨模态关联,实现精准语义对齐。最后,文本引导的基因重组模块以主导的文本优质基因为锚点,通过提出的双重注意力机制进一步过滤视觉噪声,获得高度文本相关且语义一致的视觉基因(称为最优视觉基因),并通过门控机制重组产生最终重组基因,从而避免信息丢失。
生物通微信公众号
知名企业招聘