编辑推荐:
本文研究发现,语义临床人工智能(SCAI)结合检索增强生成(RAG)技术,能显著提升大语言模型(LLMs)在 USMLE 考试中的成绩。这为医疗教育和服务带来新变革,对 LLMs 在医疗领域的应用意义重大。
大语言模型概述
大语言模型(LLMs)是一类特殊的神经网络,能将输入字符串(如问题)转化为响应输出字符串(答案)。它通过分析海量文本、调整数十亿内部概率参数来预测句子中的下一个单词,从而生成回答。
向量嵌入和注意力机制是 LLMs 的两项关键技术进展。向量嵌入将单词、短语和句子转化为向量,帮助计算机理解它们之间的关系,让 LLMs 能在数学层面找到上下文单词间的相关性。注意力机制则使 LLMs 在预测时聚焦于句子中最重要的单词,根据单词与当前上下文的相关性分配不同的重要程度,而不是平等对待每个单词。
提升 LLMs 性能的方法有多种,增加模型参数数量、扩大数据集规模、提高训练时的计算能力都能起到作用。提示工程、微调、提示蒸馏以及集成方法也对 LLMs 性能有影响。检索增强生成(RAG)技术能将预训练知识融入输入提示,增强 LLMs 在知识密集型任务中的表现,还能减少幻觉现象,且避免了昂贵的基础模型重新训练,但 RAG 也存在输入文本生成与整合受 LLMs 尺寸限制、推理成本增加等问题。
LLMs 在回答医疗问题中的表现
众多研究探讨了 LLMs 回答各类医疗问题的能力,涉及美国医学执照考试(USMLE)、各种医学专业考试以及医学期刊临床案例等来源的问题。然而,提高 LLMs 在问答任务和鉴别诊断中的准确性与可靠性,仍是一个亟待解决的重要挑战。
语义三元组和知识图谱在临床知识中的应用
临床领域特定知识对于回答医疗问题和进行鉴别诊断至关重要,这些知识可通过形式逻辑以知识图谱的形式呈现。知识图谱中的节点代表医学概念,如药物或疾病,弧线表示概念之间的关系,像 “治疗” 关系。常见的医学语义网络有医学系统命名法 - 临床术语(SNOMED CT)、统一医学语言系统、DrugBank 等。
语义三元组是语义网络的一种简单形式,格式为 “主语 - 关系 - 宾语”,例如 “青霉素 [主语] 治疗 [关系] 肺炎球菌肺炎 [宾语]”。当语义网络用形式逻辑(如描述逻辑)表示时,借助软件工具(如分类器)可以进行逻辑推理,分类任务是推理的一部分。
研究目的
研究人员利用 RAG 和语义三元组开发了语义临床人工智能(SCAI)方法,旨在对基于 Transformer 的 LLMs 进行语义增强。研究假设是,用语义三元组形式的相关临床知识增强原生 LLMs,能够提高其准确性并减少虚构内容。研究人员在 2024 年 6 月至 2025 年 2 月期间,通过对比 3 种原生 LLMs 和经 SCAI RAG 增强后的对应模型在 USMLE 三个阶段考试中的表现,来验证这一假设。USMLE 是美国 50 个州执业医师必须通过的考试,用于评估医师应用知识、展示以患者为中心的基本技能的能力。
方法
- 研究概况:该比较有效性研究在纽约州布法罗市的布法罗大学雅各布斯医学院和生物医学科学学院生物医学信息学系进行。研究团队使用高清自然语言处理(HD - NLP)解析临床参考文献和 USMLE 练习题,开发出 SCAI。研究未涉及患者数据,因此被布法罗大学机构审查委员会认定为豁免审查。研究遵循国际药物经济学和结果研究协会(ISPOR)的报告指南。
- USMLE 数据收集与整理:研究使用 USMLE 的样题创建输入文本文件,剔除含有视觉成分的题目。
- HD - NLP 系统:HD - NLP 用于为临床参考文献和 USMLE 问题中的文本分配本体术语。它能从自然语言文本中提取信息,并利用现成的生物医学本体存储信息,包括基础形式本体、生物医学调查本体、SNOMED CT、逻辑观察标识符名称和代码(LOINC)、RxNorm 及其超集 Solor 等。HD - NLP 通过句法处理和语言模型将文本与本体术语匹配,构建图表和知识图谱。其在将电子健康记录中的临床问题转化为编码数据方面,灵敏度(召回率)达 99.7%,阳性预测值(精确率)达 99.8%。该系统还用于创建 USMLE 问题特定代码、语义三元组,以及从多种临床指南、数据库和文献中生成临床知识代码和语义三元组。
- 嵌入知识图谱:研究团队通过对 SNOMED CT、RxNorm 以及 HD - NLP 生成的临床知识代码和语义三元组进行训练,开发出临床知识嵌入语料库。训练采用多种互补算法(集成处理),使用图嵌入和知识图谱嵌入两种方法。图嵌入算法如改进的 node2vec(Sno2Vec)和 DeepWalk,用于创建主体 - 关系和对象 - 关系嵌入;知识图谱嵌入算法如 TransE 和 RotatE,用于创建主体 - 关系 - 对象嵌入。训练使用 GraphVite 实现,嵌入维度设置为 (128, 256, 512),结果显示 512 维的嵌入在所有任务中表现更优。这些嵌入用于为 SCAI 管道生成相关代码和知识,训练结果称为 SCAI LLM 语义知识推理器。
- RAG 的语义数据处理:为实现 RAG,研究人员为每个 USMLE 问题创建人类可读的特定临床知识。首先用 HD - NLP 系统处理问题,提取相关医学代码;接着利用代码从嵌入语料库中检索相关嵌入,通过余弦相似度搜索找出最相似的医学代码;然后将代码提交到图数据库,检索更多相关语义三元组;再根据关系类型过滤部分三元组,减少最终 RAG 文件大小的同时保留高价值内容;最后将检索到的三元组翻译成人类可读格式,呈现给 LLM 模型。
- LLM 评估:研究测试了 Meta Llama 2 的 130 亿参数模型、Meta Llama 3 的 700 亿参数模型和 Meta Llama 3.1 的 4050 亿参数模型在有无 SCAI RAG 情况下,对 USMLE 三个阶段考试问题的回答能力。记录每个原生 LLM 的回答及正确性,再添加 USMLE 问题特定临床知识后重复测试。
- 统计分析:研究定义并分类了处理队列(有 RAG 和无 RAG),使用黄金标准答案自动评分,并由人工进行二次审核。将错误回答(错误阳性响应)定义为虚构内容,计算虚构率。使用精确 Cochrance Q 检验,考虑问题难度差异和聚类情况,确定测试分数和虚构率差异的显著性。分析使用内部软件 ExamEvaluator,版本 1 进行,双侧 P < 0.05 被认为具有统计学意义。
结果
- 嵌入结果:研究总共创建并嵌入了 13,687,849 个语义三元组,涉及 40 种不同关系。为限制 RAG 文本大小,最终选择 13 种关系类型生成 5,349,778 个嵌入。
- LLMs 在 USMLE 考试中的表现:USMLE 三个阶段考试分别有 87、103 和 123 道文本类问题。原生 130 亿参数 LLM 在任何考试中都未达到 60% 的及格分数。经 SCAI RAG 增强的 130 亿参数 LLM 在 USMLE 第一和第三阶段考试中表现显著提升,第三阶段考试答对 74 题(60.2%),超过及格线。700 亿参数和 4050 亿参数模型无论是否使用 SCAI RAG,都通过了每个阶段的考试。SCAI RAG 增强的 700 亿参数模型在第一阶段答对 80 题(92.0%),第二阶段答对 82 题(79.6%,USMLE 测试分数 261),第三阶段答对 112 题(91.1%,USMLE 测试分数 253);4050 亿参数模型在第一阶段答对 79 题(90.8%),第二阶段答对 87 题(84.5%,USMLE 测试分数 264),第三阶段答对 117 题(95.1%,USMLE 测试分数 258)。SCAI RAG 显著提升了 700 亿参数模型在第一和第二阶段的成绩。700 亿参数模型表现明显优于 130 亿参数模型,4050 亿参数模型与 700 亿参数模型相比,成绩差异不显著。4050 亿参数模型在第三阶段考试中的 SCAI 虚构(错误)率低至 4.9%(6/123)。
- SCAI RAG 示例:给出了一个 USMLE 考试的输入提示案例。原生 130 亿参数模型给出错误答案,而添加 SCAI 临床上下文的 130 亿参数模型给出了正确答案。SCAI 临床上下文包含 “异常生命体征” 与 “肺炎”、“尿检” 与 “结晶尿” 等关系的语义三元组。
讨论
研究开发并评估了一种利用 RAG 将基于语义三元组的推理融入 LLMs 的方法。通过形式语义学为 LLMs 提供回答问题所需的相关临床知识,对比发现 SCAI RAG 实现的性能显著优于原生 LLM。
130 亿参数模型仅在使用 SCAI RAG 时才能达到 USMLE 第三阶段考试 60% 的及格准确率,且在第一和第三阶段成绩有显著提升。700 亿和 4050 亿参数模型即便没有 SCAI RAG 也能取得较高分数,但添加 SCAI 语义后性能仍有提升,SCAI 的虚构率最低可达 4.9%,远低于相关研究中尸检时重要临床漏诊的中位数错误率 23.5%。
与其他研究中不同参数的 LLMs 在 USMLE 考试或类似问题上的表现相比,虽然更大的 LLMs 通常表现更好,但存在硬件和能源成本较高的问题。RAG 技术能在不进行昂贵的重新训练的情况下,使大型基础模型给出正确答案。
关于 LLMs 是否具备推理能力以及是否智能存在争议。语义网络在临床推理中的作用已被证实,成功的诊断医生会使用多样化的抽象关系。LLMs 可通过思维链推理解决复杂问题,生成中间步骤的解释,提高答案的性能和可解释性。
从两个方面论证了语义增强的 LLMs 具备推理能力。一方面,临床推理可数学化,LLMs 中使用的余弦相似度计算与临床推理中基于证据的医学计算有相似之处,因此语义增强的 LLMs 可能具备基于证据的医学推理能力。另一方面,语义增强的 LLM 利用语义三元组和知识图谱进行分类,类似于描述逻辑分类,可看作一种推理形式。
从实际应用角度看,重要的是 LLMs 的实用性。SCAI LLMs 将辅助而非取代临床医生,使用 AI 的临床医生可能会比不使用的更具优势。在 LLMs 不断发展、有望实现全球健康信息民主化的同时,必须确保其使用安全,临床信息学家应参与健康相关 AI 模型的治理和安全保障工作。
局限性
本研究存在一定局限性,仅测试了 3 种 LLMs,结果的普适性有待进一步验证。基于关系类型对 RAG 中包含的三元组进行筛选的方式,若改变筛选策略可能会产生不同结果。对 SCAI LLM 在实际临床实践中的评估,将能更好地证明其辅助临床医生的能力。
结论
在这项比较有效性研究中,语义增强的 SCAI RAG 显著提高了 LLMs 在 USMLE 三个阶段考试中的成绩。700 亿和 4050 亿参数模型在所有阶段考试中都能取得较好成绩。利用针对性、最新的临床知识提升 LLMs 在医疗领域的性能,是 LLMs 在医疗领域应用和被接受的重要一步。