融合医学知识图谱与大语言模型的诊断预测系统DR.KNOWS:设计与应用研究

【字体: 时间:2025年06月06日 来源:JMIR AI

编辑推荐:

  电子健康记录(EHR)的复杂性和冗余信息增加了临床诊断错误的风险。为解决这一问题,研究人员开发了DR.KNOWS系统,通过整合统一医学语言系统(UMLS)知识图谱(KG)与大语言模型(LLM),从EHR数据中检索与患者特异性信息对齐的知识路径,显著提升了诊断预测的准确性。实验表明,DR.KNOWS在MIMIC-III和院内EHR数据集上均优于基线模型,其路径提示策略使T5和ChatGPT的ROUGE-L和CUI F1 -score显著提高。该研究为人工智能驱动的临床决策支持提供了可解释且安全的解决方案。

  

在医疗信息化快速发展的今天,电子健康记录(EHR)已成为临床诊疗的核心载体。然而,冗长复杂的EHR文本常让医生陷入信息过载的困境,甚至导致诊断错误率上升。尽管大语言模型(LLM)在文本处理中展现出强大潜力,但其在医疗领域的应用仍面临严峻挑战——模型可能产生误导性结论或“幻觉”,这对患者安全构成潜在威胁。与此同时,统一医学语言系统(UMLS)构建的知识图谱(KG)虽蕴含丰富的结构化医学知识,却因包含450万概念和1500万关系而难以精准匹配具体病例。如何将KG的精确性与LLM的推理能力结合,成为提升诊断准确性的关键突破口。

为破解这一难题,来自未知机构的研究团队开发了DR.KNOWS(诊断推理知识图谱系统)。该系统创新性地采用堆叠图同构网络(SGIN)生成节点嵌入,结合基于注意力的路径排序器,从UMLS KG中筛选与患者临床背景最相关的知识路径。研究团队在MIMIC-III和院内EHR数据集上的实验表明,DR.KNOWS的路径提示策略使T5模型的ROUGE-L得分提升至30.72,CUI F1
-score达到27.78;在ChatGPT的5样本提示设置中,相关指标也分别提升至25.43和26.02。更令人振奋的是,人类评估显示整合KG路径后,模型的诊断推理正确率从50%提升至55%,有效抽象能力显著增强。这项发表于《JMIR AI》的研究,为构建可信赖的医疗人工智能树立了新标杆。

研究主要采用三项关键技术:1)基于SGIN的图神经网络架构,通过多层感知机(MLP)迭代聚合邻域信息;2)双重注意力机制(多头注意力MultiAttn与三线性注意力TriAttn),评估路径与患者症状的相关性;3)结合对比学习的损失函数设计,通过余弦相似度区分正负样本特征。实验数据来自MIMIC-III重症监护数据库和某医疗机构的4815份全科室EHR记录。

研究结果
DR.KNOWS在诊断概念预测中的内在评估
与QuickUMLS基线相比,DR.KNOWS的TriAttn变体在MIMIC和院内数据集上分别实现25.20和25.70的F1
-score,精准度提升近10个百分点。值得注意的是,院内数据因包含更多显性概念,召回率高达90.11。

DR.KNOWS对诊断预测的影响评估
在ProbSum测试集上,整合知识路径的T5模型表现最优,其ROUGE-L得分可媲美榜单前三的集成系统。ChatGPT在5样本提示中加入路径后,诊断相关概念召回率从22.45%提升至27.76%。

人类评估结果
医学专家盲评显示,加入KG路径的ChatGPT输出在“正确推理”指标上获得55%的专家认可(无路径时为50%),但抽象陈述比例从88%降至78%,反映模型更倾向于使用具体医学概念。

错误分析
研究发现两类典型错误:一是DR.KNOWS可能检索到无关路径(如将“药物过敏”关联至“二甲茚啶过敏”,与患者“无已知药物过敏”记录矛盾);二是LLM偶尔会忽略正确路径(如漏诊“肝硬化”这一黄金标准诊断)。

讨论与展望
该研究开创性地将医学知识图谱与大语言模型深度融合,通过路径提示策略显著提升诊断准确性。提出的临床安全评估框架首次将诊断安全指标(如遗漏率、有效抽象)引入LLM评价体系。局限在于当前路径排序依赖余弦相似度,未来可探索概率图模型或符号推理链技术。正如研究者强调,DR.KNOWS不仅验证了KG增强LLM的可行性,更为构建符合临床安全标准的AI诊疗系统提供了可扩展的解决方案——这或许是迈向“无幻觉”医疗人工智能的关键一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号