编辑推荐:
为解决仅图像训练提取目标细粒度信息受限问题,研究人员开展文本引导跨位置注意力模块(CPAMTG)结合多模态文本与图像的医学图像分割研究。结果表明该模块性能优于同类模型,且在骶髂关节炎诊断等应用中有效,为医学影像分析提供新方法。
在医学影像分析领域,精准识别病灶区域与提取细粒度特征一直是临床诊断的关键挑战。传统基于单一图像的深度学习模型,如 U-Net 及其变体,虽通过编码器 - 解码器结构和注意力模块(如位置注意力模块 PAM)提升了特征提取能力,但仅依赖像素级信息,难以捕捉复杂的医学语义关联。例如,在骶髂关节炎炎症区域分割或脑中线偏移检测中,单纯图像分析可能因缺乏文本语义引导而漏检细微病变或误判结构位置。随着多模态技术的兴起,将文本描述与图像数据结合成为突破瓶颈的新方向,但现有方法如 CLIP 在医学领域存在语义不确定性问题,且非细粒度文本易引入噪声,如何高效融合文本语义与图像空间特征成为亟待解决的问题。
为此,韩国中央大学医院和 Dankook 大学医院的研究人员开展了一项创新性研究,相关成果发表在《Computers in Biology and Medicine》。团队提出一种文本引导跨位置注意力模块(CPAMTG),旨在通过跨模态注意力机制增强医学图像分割中位置信息的学习,解决单一图像特征的局限性,提升复杂病变的检测精度。
研究采用的关键技术方法包括:
- 多模态特征编码:利用图像编码器提取医学图像特征图,文本编码器生成全局文本语义表示,并通过可学习参数将文本特征维度匹配至图像特征图,形成键(Key)和值(Value),图像特征图作为查询(Query)。
- 跨位置注意力机制:基于位置注意力模块(PAM)原理,计算文本与图像特征间的跨模态关联,使模型学习文本语义与图像像素位置的依赖关系。
- 多任务扩展:将模块应用于骶髂关节炎诊断的感兴趣区域(ROI)分割和脑中线偏移分析的关键点检测(如前镰 AF、后镰 PF、透明隔 SP),后者通过高斯热图定位关键解剖点。
实验结果
医学图像分割性能验证
在细胞、胸部 X 射线、磁共振图像(MRI)等多类型医学图像分割实验中,CPAMTG与仅图像模型及现有多模态模型(如 LViT)对比,展现出更高的分割精度。通过跨模态注意力机制,模型有效捕捉了文本语义引导下的病灶位置特征,减少了单纯图像分析的误分割问题。
骶髂关节炎诊断系统应用
在自动 ROI 设置模块中,CPAMTG成功分割出骶髂关节炎症区域,验证了其在实际计算机辅助诊断(CAD)中的有效性。实验结果显示,结合文本描述(如 “骶髂关节炎症”)的模型,对模糊炎症边界的识别精度显著高于仅图像模型,降低了人工标注的主观性误差。
脑中线偏移分析的关键点检测
通过扩展至关键点检测任务,模块利用高斯热图准确检测 AF、PF 和 SP 点,进而计算中线最大偏移距离。在 Monro 孔水平的分析中,CPAMTG对解剖结构的定位误差较传统方法降低约 15%,为颅内病变(如血肿、肿瘤)导致的中线移位提供了更可靠的量化依据。
结论与讨论
本研究提出的 CPAMTG模块通过跨模态注意力机制,实现了文本语义与图像空间特征的深度融合。其核心创新在于将全局文本表示转化为可与图像特征交互的键值对,通过查询 - 键 - 值的注意力计算,强化了模型对目标位置的语义感知能力。实验表明,该模块不仅提升了多类型医学图像的分割性能,还在实际临床应用中展现出精准定位病灶和解剖结构的潜力,为骶髂关节炎、脑中线偏移等疾病的自动化诊断提供了新工具。
研究的意义在于突破了单一图像模态的局限性,为医学影像分析引入了文本语义的 “智能引导”,有望推动多模态深度学习在精准医疗中的应用。未来方向可探索结合更细粒度的医学文本(如病理报告)或动态时序图像,进一步提升模型对复杂病变过程的理解能力。该工作为跨学科融合(计算机视觉与临床医学)提供了范例,展现了多模态技术在提升医疗诊断效率和准确性中的巨大价值。