
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多模态医学数据的放射学通用基础模型RadFM的构建与评估
【字体: 大 中 小 】 时间:2025年08月24日 来源:Nature Communications 15.7
编辑推荐:
本研究针对医学人工智能领域缺乏统一处理2D/3D医学影像的基础模型、缺乏大规模多模态医学数据集及缺乏全面评估基准三大挑战,开发了放射学通用基础模型RadFM。研究人员通过构建包含1600万2D图像和61.5万3D扫描的MedMD数据集,设计支持多图像输入的统一架构,并建立RadBench评估基准。结果显示RadFM在9个公共数据集和RadBench上均显著优于现有模型(包括GPT-4V),在医学视觉问答、报告生成和诊断推理等任务中展现出临床转化潜力,为医学通用人工智能(GMAI)发展提供了重要技术路径。
医学影像分析正面临前所未有的技术变革。当前临床实践中,放射科医生需要处理来自CT、MRI、X光等不同模态的2D/3D影像,但现有AI模型往往只能处理单一模态或特定任务。更棘手的是,医学领域缺乏像自然语言处理中GPT-4那样的通用基础模型,导致每个新任务都需要从头开发专用算法,既低效又难以实现多模态信息的协同分析。正是看到这一关键瓶颈,Chaoyi Wu和Xiaoman Zhang等研究者开展了这项开创性工作,相关成果发表在《Nature Communications》上。
研究团队采用三项核心技术方法:1)构建包含PMC-Inline、RP3D等4个新数据集的MedMD(16M 2D+615K 3D图像),形成覆盖17个人体系统的多模态医学数据集;2)开发支持2D/3D图像与文本交错输入的RadFM架构,采用3D ViT(Vision Transformer)视觉编码器和Perceiver聚合模块;3)建立包含医学视觉问答(VQA)、报告生成和诊断推理的RadBench评估体系,通过自动指标和放射科医师人工评分进行双重验证。
数据集构建
通过系统收集Radiopaedia等开源平台的临床病例,研究人员构建了包含13M 2D和615K 3D扫描的4个新数据集。其中RP3D系列特别珍贵,它包含经放射科专家审核的3D病例与高质量标注。

模型架构
RadFM创新性地统一了2D/3D图像处理流程:将2D图像扩展为伪3D输入,采用共享的3D ViT编码器;通过Perceiver模块将可变长度图像特征压缩为固定长度token;最后与文本token交错输入LLM(Large Language Model)。这种设计首次实现了CT、MRI等真实3D临床数据与X光的统一分析。

评估结果
在9个公共数据集上,RadFM的疾病诊断准确率(ACC)最高提升23.82%(VinDr-SpineXr),医学VQA的BLEU-4分数最高提升17.26%(SLAKE)。在RadBench上,其UMLS_Precision(基于医学本体术语的精度指标)比次优模型提高11.76%。人工评分显示,RadFM在报告生成任务中得分(3.87/5)甚至超过GPT-4V(3.13/5)。

临床应用
研究展示了RadFM处理复杂临床场景的能力:1)支持多图像输入,可分析随时间变化的系列扫描;2)在PadChest数据集上对163种未见疾病的零样本诊断准确率达62.3%;3)能生成包含影像特征和鉴别诊断依据的结构化报告。如图6案例所示,模型能准确识别肺栓塞的"楔形阴影"特征,并给出符合临床思维的分析。
这项研究标志着医学AI向通用基础模型迈出关键一步。RadFM首次实现了2D/3D医学影像的统一处理,其多图像输入和文本交错能力更贴近真实临床需求。尽管在长文本生成精度上仍有提升空间,但这项工作为构建医学通用人工智能(GMAI)提供了重要技术路径。研究者开源的代码和数据集将加速该领域发展,未来结合更高分辨率图像和更大规模临床数据,有望实现真正临床可用的智能辅助系统。
生物通微信公众号
知名企业招聘