-
生物通官微
陪你抓住生命科技
跳动的脉搏
《Nature》用大语言模型实现精准鉴别诊断:开拓医学诊断新方向
《Nature》:Towards accurate differential diagnosis with large language models
【字体: 大 中 小 】 时间:2025年04月10日 来源:Nature 50
编辑推荐:
在医学诊断中,准确的鉴别诊断至关重要但充满挑战。为解决此问题,研究人员开展了关于大语言模型(LLMs)辅助诊断的研究。他们引入 Articulate Medical Intelligence Explorer(AMIE)并评估其性能,结果显示 AMIE 能提升诊断准确性,这为临床诊断提供新助力,意义重大。
在医学领域,准确的诊断是有效治疗的基石,而鉴别诊断(Differential Diagnosis,DDx)作为诊断过程的关键环节,却面临诸多挑战。传统的诊断方式依赖临床医生综合病史、体格检查、检查结果等信息进行判断,这一过程不仅复杂,还容易受到医生经验和知识水平的影响。随着人工智能技术的发展,深度学习在医学诊断的多个领域取得了一定成果,如放射学、眼科和皮肤病学等,但这些系统缺乏自然语言交互能力,难以在诊断过程中与医生进行流畅沟通。大语言模型(Large Language Models,LLMs)的出现为解决这些问题带来了新的希望,然而,此前的研究大多聚焦于模型在标准化测试中的表现,对于其在实际临床场景中辅助医生进行鉴别诊断的能力评估较少。
为了探索 LLMs 在医学鉴别诊断中的实际应用价值,来自 Google Research、Google DeepMind 等多个机构的研究人员展开了一项深入研究。他们开发了专门针对临床诊断推理优化的大语言模型 Articulate Medical Intelligence Explorer(AMIE),并通过一系列实验评估其在生成鉴别诊断方面的能力,以及作为辅助工具对临床医生诊断能力的提升作用。该研究成果发表在《Nature》杂志上,为医学诊断领域带来了新的思路和方法。
研究人员在此次研究中运用了多种关键技术方法。首先,他们从新英格兰医学杂志(NEJM)的临床病理会议(CPCs)案例报告中选取了 302 个具有挑战性的真实医学案例,这些案例涵盖了多个医学专科,为评估 AMIE 的性能提供了丰富的数据来源。其次,他们采用了一种两阶段的读者研究设计,20 名美国 board - certified 内科医生参与第一阶段研究,在无辅助和有辅助(分别为搜索引擎及标准医学资源辅助、AMIE 辅助)的两种条件下生成鉴别诊断列表;19 名专科医生参与第二阶段研究,对第一阶段生成的鉴别诊断列表进行评估。此外,研究人员还利用自动评估方法,通过语言模型 Med - PaLM 2 对鉴别诊断列表进行评价,以补充人工评估的不足。
AMIE 在生成鉴别诊断列表方面表现出色。通过计算 top - n 准确率(若个体鉴别诊断列表中前 n 个诊断中有任何一个被标记为正确,则该鉴别诊断被视为正确,计算所有案例中正确鉴别诊断列表的比例)发现,AMIE 在 59% 的鉴别诊断列表中提供了正确诊断,其中 29% 的列表中正确诊断位于首位。其 top - 10 准确率达到 59.1%,显著高于无辅助临床医生的 33.6%。在质量评分方面,AMIE 生成的鉴别诊断列表中位数质量评分为 5(表示鉴别诊断包括正确诊断),54% 的列表达到该评分,且其平均适宜性评分为 4.43(满分 5 分),中位数全面性评分为 4(表示鉴别诊断包含所有合理的候选诊断),55% 的列表达到该评分。这些结果表明,AMIE 生成的鉴别诊断列表在质量、适宜性和全面性方面都具有较高水平。
研究发现,使用 AMIE 辅助临床医生进行诊断时,鉴别诊断列表的质量、适宜性和全面性得分均高于无辅助时。在质量评分方面,使用 AMIE 辅助后,49% 的鉴别诊断列表达到 5 分,而无辅助时该比例仅为 29%(搜索条件下为 37%)。在全面性评分方面,使用 AMIE 辅助的临床医生,其鉴别诊断列表得分 4 分(表示鉴别诊断包含所有合理的候选诊断)的案例数量显著高于无辅助和使用搜索引擎辅助的临床医生。此外,使用 AMIE 辅助后,临床医生鉴别诊断列表的平均适宜性评分为 4.06,显著高于使用搜索引擎辅助后的 3.80 以及基线的 3.74。同时,使用 AMIE 辅助后,临床医生鉴别诊断列表的 top - n 准确率也有所提高,如 top - 10 准确率从无辅助时的 33.6% 提升至 51.7%。
由于无法直接比较 AMIE 和 GPT - 4 的 top - 10 准确率,研究人员通过自动评估指标对两者进行了对比。结果显示,在 n>1 时,AMIE 在 top - n 准确率方面表现更优,n>2 时优势更为明显;在 n = 1 时,GPT - 4 表现略好,但差异不具有统计学意义。这表明 AMIE 在生成鉴别诊断列表的质量和全面性方面可能具有显著优势。
研究还对使用 AMIE 和搜索引擎生成更新的鉴别诊断列表所需的时间进行了比较,发现两者耗时相似(搜索条件下为 7.19±5.33 分钟,AMIE 条件下为 7.29±6.41 分钟)。在鉴别诊断列表长度方面,无辅助时列表中位数长度为 6,使用搜索引擎辅助时为 7,使用 AMIE 辅助时为 8。使用 AMIE 辅助的鉴别诊断列表长度显著长于无辅助和使用搜索引擎辅助的列表。
研究结果表明,AMIE 无论是在独立生成鉴别诊断列表,还是作为辅助工具帮助临床医生进行诊断方面,都展现出了一定的优势。在独立性能上,AMIE 生成的鉴别诊断列表比无辅助的临床医生更合适、更全面,包含最终诊断的可能性更高。作为辅助工具,AMIE 能够提高临床医生鉴别诊断的 top - n 准确率,提升鉴别诊断列表的质量、适宜性和全面性。然而,研究也存在一些局限性。例如,NEJM CPC 案例报告的格式与临床实际接诊患者时的评估方式存在差异,这些案例多为具有挑战性的病例,不能直接代表日常常见病例;评估过程存在一定的模糊性,对于个别诊断是否正确可能存在不同判断;AMIE 仅能获取文本信息,无法获取案例中的图像和表格数据,这可能影响其诊断能力。尽管如此,该研究为 LLMs 在医学诊断领域的应用提供了重要的参考。AMIE 的出现为临床医生提供了一种新的辅助工具,有望帮助医生在面对复杂病例时拓宽诊断思路,提高诊断准确性。未来的研究可以进一步探索如何优化 LLMs 在医学领域的应用,提高其对多模态数据的处理能力,同时加强对其在不同临床场景下的有效性和安全性评估,以更好地服务于医疗实践,为患者带来更精准的诊断和更有效的治疗。
知名企业招聘