
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图感知多模态预训练的胸部X光影像疾病分类与跨模态检索研究
【字体: 大 中 小 】 时间:2025年08月15日 来源:Pattern Recognition 7.6
编辑推荐:
本文推荐一种创新的图感知视觉-语言预训练框架(GAVLP),通过大语言模型(LLM)生成结构化语义描述,并构建区域图学习(RGL)框架实现胸部X光(CXR)影像与文本的细粒度对齐。该方法在零样本分类和跨模态检索任务中显著优于现有技术(SOTA),为医学多模态表示学习提供了兼具解剖学一致性和临床解释性的新范式。
Highlight
本研究提出创新的图感知视觉-语言预训练方法(GAVLP),通过两大突破性设计解决胸部X光(CXR)分析的核心挑战:1)利用大语言模型(LLM)将稀疏疾病标签转化为富含解剖学细节的结构化描述;2)构建区域图学习(RGL)框架,通过图卷积网络(GCN)建模影像区域与临床语义的层次关系,实现视觉-文本特征的细粒度对齐。
VLPs within CXR study
视觉语言预训练(VLP)在CXR研究中主要通过全局-局部对比学习提升表征能力。例如ConVIRT采用双向InfoNCE损失增强图像-文本全局特征对齐,而我们的GAVLP进一步引入区域感知机制,突破传统方法对人工标注的依赖。
Method
如图1所示,GAVLP包含两大模块:1)基于LLM的多提示问答词典(MPQAD)数据生成器,通过多样化提示策略将图像-标签对转化为高质量图像-文本对;2)RGL模块建立全局-区域图拓扑,将病灶区域特征作为图节点,实现跨模态特征的解剖学一致性对齐。
Experiment
零样本分类任务显示,GAVLP通过计算测试图像与预定义类别描述的相似度,准确率较基线模型提升23.6%。在图像-文本检索任务中,其跨模态匹配精度达到91.2%,显著优于GPT-4V等通用多模态模型。
Conclusion
GAVLP通过LLM驱动的结构化数据生成和区域图学习框架,有效解决了CXR分析中数据稀缺和跨模态对齐难题,为医学影像诊断提供了可解释性强、临床适用性高的新型预训练范式。
生物通微信公众号
知名企业招聘