
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多模态语义特征对齐的医学跨模态哈希检索技术研究
【字体: 大 中 小 】 时间:2025年06月05日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对医学跨模态检索中存在的语义差异大、视觉差异小及模态间信息交互不足等问题,研究人员提出多模态语义特征对齐哈希框架(MSACH)。该研究通过分阶段训练策略结合Transformer编码器,利用预训练任务提取多模态语义特征,并引入流形相似性约束与平衡约束优化哈希码判别力。实验证实MSACH在三个真实医学数据集上检索精度显著优于现有方法,为临床高效精准检索多模态医疗数据提供了新范式。
医学影像数据的爆炸式增长为临床诊断带来机遇的同时,也暴露出跨模态检索的严峻挑战。CT、MRI和超声等不同成像技术产生的医学图像,与文本形式的诊断报告之间存在着巨大的语义鸿沟。医生在紧急情况下需要快速匹配影像与报告时,传统方法常因模态间异构性导致检索效率低下,甚至可能引发误诊风险。更棘手的是,同类医学图像往往呈现细微的视觉差异,而不同类别却可能共享相似特征,这种"貌合神离"的特性使得现有深度哈希方法难以捕捉本质的语义关联。
针对这一临床痛点,来自中国的研究团队在《Engineering Applications of Artificial Intelligence》发表创新成果,提出多模态语义特征对齐医学跨模态哈希框架(MSACH)。该研究突破性地采用分阶段训练策略,先通过Transformer架构构建图像-文本编码器,利用掩码图像建模、跨模态匹配等三项预训练任务强化模态间信息交互;随后引入流形相似性矩阵精确建模模态间异构关系,结合哈希码平衡约束和线性分类网络约束,最终在保持算法轻量化的同时实现检索精度显著提升。
关键技术方法包括:1)基于Transformer的多模态特征提取模块;2)联合预训练任务(掩码图像建模、跨模态匹配等);3)流形相似性约束建模;4)哈希码平衡优化技术。实验采用三个真实医疗数据集,在PyTorch框架下使用RTX 3090 GPU集群验证性能。
【Related work】
现有跨模态哈希方法存在三大局限:端到端训练内存消耗大、忽视模态间信息交互、难以捕捉医学数据特有的流形结构。相比传统实数表示方法和二进制哈希方法,MSACH通过分阶段训练解决了内存瓶颈问题。
【The proposed MSACH method】
研究团队设计了两阶段框架:第一阶段使用Transformer编码器提取多模态特征,通过联合预训练使低维特征富含跨模态语义;第二阶段采用轻量化网络学习哈希函数,利用流形相似性约束(准确建模模态间非线性关系)、平衡约束(消除哈希码分布偏差)和分类约束(增强语义判别力)优化哈希码生成。
【Experiment】
在三个医学数据集上的测试表明,MSACH在平均精度(mAP)指标上较现有最优方法提升12.7%。消融实验证实,流形约束对细微视觉差异的医学图像检索效果提升尤为显著,平衡约束则使哈希码分布均匀性提高23.4%。
【Conclusion】
该研究开创性地将分阶段训练策略与多模态语义对齐相结合,解决了医学跨模态检索中的三大核心挑战。MSACH不仅显著提升检索效率(较传统方法加速5.8倍),其轻量化设计更便于临床部署。值得注意的是,该方法对超声图像-报告这类视觉-语义差异显著的数据对表现出特殊优势,为智慧医疗系统中的多模态数据整合提供了新思路。研究团队特别指出,未来可扩展至基因序列-临床表型等更复杂的医学跨模态检索场景。
生物通微信公众号
知名企业招聘