
-
生物通官微
陪你抓住生命科技
跳动的脉搏
零针临床诊断的多模态多域多语言医学基础模型
【字体: 大 中 小 】 时间:2025年02月07日 来源:npj Digital Medicine 12.4
编辑推荐:
在医学人工智能快速发展的当下,牛津大学工程科学系生物医学工程研究所的 Fenglin Liu 等研究人员在npj Digital Medicine期刊上发表了题为 “A multimodal multidomain multilingual medical foundation model for zero shot clinical diagnosis” 的论文。该期刊与首尔国立大学盆唐医院合作出版,在数字医学领域具有较高影响力。此研究成果意义重大,为临床诊断提供了创新的方法和思路,有望解决现有临床诊断方法在处理罕见病、新疾病以及非英语语言数据时面临的困境,推动医学人工智能迈向新高度。
在医学人工智能快速发展的当下,牛津大学工程科学系生物医学工程研究所的 Fenglin Liu 等研究人员在npj Digital Medicine期刊上发表了题为 “A multimodal multidomain multilingual medical foundation model for zero shot clinical diagnosis” 的论文。该期刊与首尔国立大学盆唐医院合作出版,在数字医学领域具有较高影响力。此研究成果意义重大,为临床诊断提供了创新的方法和思路,有望解决现有临床诊断方法在处理罕见病、新疾病以及非英语语言数据时面临的困境,推动医学人工智能迈向新高度。
放射学图像是日常临床诊断中常用的工具,临床诊断涉及疾病报告和分类,这是一项多模态任务,需要从医学图像中提取信息并生成文本报告描述临床发现。然而,现有基于深度学习的方法大多是有监督学习,高度依赖大量标注数据。对于罕见病和新出现的疾病,在早期往往难以获取足够的标注数据进行模型训练,如在新冠疫情初期,收集足够数据训练系统的时间远超疫情前几波的持续时间。此外,对于非英语语言,标注数据更是稀缺,甚至完全缺失,这严重限制了现有深度学习系统在分析非英语语言医学数据方面的应用,也阻碍了实现 “公平人工智能” 的目标,无法充分惠及代表性不足的群体。因此,开发一种能够在少样本甚至零样本情况下进行多模态、多领域、多语言临床诊断的模型迫在眉睫。
研究人员使用了多个公开基准数据集进行模型的预训练和评估。预训练数据集包括 MIMC-CXR 和 COVID-19-CT-CXR,其中 MIMC-CXR 包含 377,110 张 CXR 图像和 227,835 份英语放射学报告,是当时发布的最大相关数据集;COVID-19-CT-CXR 则包含 1k 张 CT/CXR 图像及相应英语报告。在评估时,使用了 IU-Xray、COVID-19 CT、COV-CTR、深圳结核病数据集、COVID.CXR、NIH ChestX-ray、CheXpert、RSNA Pneumonia 和 SIIM-ACR Pneumothorax 等数据集,这些数据集涵盖了不同疾病、不同语言的医学图像和报告,用于全面评估模型在疾病报告和诊断任务中的性能。
研究提出了多模态多领域多语言基础模型(M3FM),该模型由 MultiMedCLIP 和 MultiMedLM 两个主要模块组成。
MultiMedCLIP:受对比学习方法启发,采用 Info Noise Contrastive Estimation(InfoNCE)和均方误差(MSE)损失作为训练目标。利用以英语为中心的语料库,如 CXR - 英语对、CT - 英语对和中文 - 英语对,在共享潜在空间中对齐不同图像领域和非英语语言与英语领域的视觉和文本表示。通过最小化不同分布表示之间的距离,实现不同模态和语言的对齐,为下游零样本推理奠定基础。
MultiMedLM:旨在基于 MultiMedCLIP 提取的表示生成最终报告。通过重建输入文本的方式进行训练,采用交叉熵(XE)损失作为训练目标。这种训练方式仅需无标注的纯文本数据,可利用大规模无标注医学文本(如 PubMed 和 MIMIC-III 临床笔记)进一步提升性能。在训练过程中,为稳定训练,引入了随机失活(dropout)和高斯噪声,并使用特定的优化器和学习率进行参数优化。
零样本设置下的表现:在零样本设置下,以往的方法无法处理疾病报告任务,而 M3FM 能够在单一统一框架中同时进行多语言多领域的疾病报告。在 COVID-19 临床诊断任务中,M3FM 在无任何下游数据训练的情况下,与现有在完整训练集上训练的方法相比,取得了具有竞争力的结果,证明了其在零样本情况下为疾病报告提供可靠基础的能力。
少样本和全监督设置下的表现:在少样本学习设置下,使用 10% 的下游标注数据进行训练时,M3FM 在生成多语言报告方面表现出色,在 CT-to-Chinese 报告生成任务中,其 CIDEr 和 ROUGE-L 得分分别比之前的全监督方法 R2Gen 高出 1.5% 和 1.2%。在全监督设置下,M3FM 同样显著优于先前方法,在大多数指标上取得了令人鼓舞的性能。
临床医生评估结果:研究人员邀请两位临床医生对模型生成的报告进行评估。结果表明,在无任何标注数据训练时,M3FM 就能生成理想的多语言多领域报告;在仅使用 10% 标注数据训练时,M3FM 在 CXR-to-English、CT-to-Chinese 和 CT-to-English 任务上,比全监督的 R2Gen 方法生成的 “有用” 报告比例分别高出 6%、8% 和 8%;在使用完整训练数据时,M3FM 生成的 “有用” 结果更多,有效减轻了临床医生撰写报告的负担。
传染病诊断表现:在传染病诊断方面,以深圳结核病数据集和 COVID-CXR 数据集中的结核病和 COVID-19 诊断为例,使用 10% 数据训练时,M3FM 在结核病和 COVID-19 诊断的 AUC 得分上,分别比现有最佳结果高出 5.1% 和 3.9%;使用 100% 数据训练时,M3FM 在这两种传染病诊断中均取得了最佳结果。
非传染病诊断表现:在 NIH ChestX-ray 数据集中的 14 种非传染病诊断任务中,当训练数据标签极其有限(1%)时,M3FM 的表现与全监督方法 Model Genesis 相当;使用 10% 标注数据训练时,M3FM 在 Consolidation、Fibrosis、Pleural 和 Pneumonia 等疾病的诊断上,优于强基线方法 MRM 和 REFERS,证明了其在疾病诊断任务中对标签数据依赖程度低,泛化能力强。
M3FM 在多模态多领域多语言临床诊断中展现出卓越性能。在疾病报告任务中,无论是零样本、少样本还是全监督设置下,M3FM 均显著优于先前方法,能够生成高质量的多语言报告,有效减轻临床医生撰写报告的负担。在疾病分类任务中,M3FM 在处理传染病和非传染病时,即使在标签数据有限的情况下,也能取得优异的诊断性能,具有很强的泛化能力。此外,M3FM 在不同患者特征(如性别和年龄)上表现稳健,对模型训练中未见过的疾病也能有效诊断,能够捕捉常见疾病和罕见疾病之间细微但重要的放射学差异,提高罕见病诊断的准确性。
性能卓越:M3FM 在广泛使用的基准数据集上超越了先前的最先进方法。在少样本学习设置下,使用 10% 标注数据训练时,其性能优于先前的全监督方法;在 CheXpert 数据集上,使用 1% 训练数据时,M3FM 的 AUC 得分达到 88.8,超过了先前全监督方法的 88.7。
适应性强:该模型对不同患者特征具有良好的适应性,在不同性别和年龄组的评估中,M3FM 在大多数指标上均优于现有模型,证明了其稳健性和泛化能力。
处理未见疾病能力突出:通过前瞻性实验,M3FM 在对训练中未见过的疾病(如 COVID-19)进行诊断时,能够有效捕捉其与常见胸部疾病的放射学差异,在有限标签设置下,其疾病报告性能在 BLEU-4、ROUGE 和 CIDEr 得分上分别比先前方法高出 11.7%、9.6% 和 9.7%。
多模态多语言对齐有效:M3FM 能够有效对齐不同模态、领域和语言之间的差距,在零样本学习设置下,冻结文本编码器能保持模型性能,避免因文本编码器可调导致的领域对齐破坏。
报告生成能力优秀:M3FM 生成的报告质量高,能够捕捉重要异常信息,为临床决策提供有益支持,尤其在罕见病和非英语语言场景下,其零样本和少样本生成多领域多语言报告的能力具有重要意义。
组件贡献显著:模型中的 MultiMedCLIP 和 MultiMedLM 模块对性能提升贡献显著,在少样本学习设置下,两者结合使 M3FM 在 CXR-to-English 和 CT-to-Chinese 任务中,ROUGE-L 得分比基础模型分别提高 11.3% 和 32.0%;在零样本学习设置下,缺少任何一个模块都会导致性能大幅下降。
对非英语语言的潜力大:使用人工标注的翻译数据集训练 M3FM 能显著提升性能,在应用于代表性不足的语言时,只需少量(<100 个样本)人工标注数据即可取得较好效果,而以往方法通常需要数万甚至更多标注数据。即使在没有人工标注训练文本的情况下,使用谷歌翻译数据训练的 M3FM 仍能取得理想性能,随着翻译技术和大语言模型的发展,其在非英语语言方面的潜力巨大。
多语言理解能力提升:引入多语言(英语和中文)能提高模型在每种语言应用场景下的性能,统一不同语言的知识,促进语言理解和整体性能的提升。与使用翻译软件或专为翻译设计的大语言模型的方法相比,M3FM 避免了视觉不相关、不流畅错误和领域转移问题,性能更优。
研究使用的原始公共数据集仅提供 2D 切片,限制了模型对更复杂成像模态(如 CT 和 MRI 的完整 3D 体积)的泛化能力。尽管 M3FM 是为 2D 图像设计的,但研究人员认为其方法具有应用于 3D 图像进行零样本临床诊断的潜力,未来可进一步探索其在 3D 图像上的有效性。
M3FM 的出现为临床诊断带来了新的解决方案,在多模态多领域多语言临床诊断方面取得了重大突破,为处理罕见病、新疾病以及非英语语言医学数据提供了有效途径,具有广阔的应用前景和重要的临床价值,有望推动医学人工智能在临床实践中的广泛应用和深入发展。
生物通微信公众号
知名企业招聘