基于检索增强生成技术的大语言模型在评估手术适宜性中的应用及泛化性研究

【字体: 时间:2025年04月07日 来源:npj Digital Medicine 12.4

编辑推荐:

  为解决大语言模型(LLMs)在医疗应用中缺乏领域专业知识、易产生幻觉等问题,研究人员开展了利用检索增强生成(RAG)技术优化 LLMs 用于术前医学的研究。结果显示,GPT4LLM-RAG模型在评估手术适宜性上准确性达 96.4%,优于人类。该研究为术前评估提供了新方向。

  在医疗领域,大语言模型(LLMs)的出现为临床应用带来了新的可能,其在一些基础临床任务中表现出与人类相当的能力,比如对患者美国麻醉医师协会(ASA)身体状况评级。然而,LLMs 在处理复杂临床任务时,仅依赖预训练知识,无法依据机构实践指南给出可靠回复,并且其产生的幻觉现象引发了严重的安全和伦理担忧。同时,手术因患者医学不适取消、医生指令错误以及患者不遵守术前指令等问题,不仅造成了巨大的经济损失,传统的术前评估方式也存在人力成本高、效率低的缺陷。
为了改善这一现状,新加坡总医院(Singapore General Hospital)、杜克 - 国大医学院(Duke-NUS Medical School)等多个机构的研究人员开展了一项针对 LLMs 结合检索增强生成(RAG)技术在术前医学应用的研究。研究成果发表于《npj Digital Medicine》。该研究旨在开发并评估一种用于术前医学的 LLM-RAG 流程,主要评估其判断患者手术适宜性的准确性,以及提供准确、一致和安全的术前指导的能力。

研究人员运用了多种关键技术方法。首先,使用 Python 3.11 开发了先进的 LLM-RAG 框架,利用 LlamaIndex 实现高效的文本处理和检索,通过设置 “similarity_top_k” 参数为 30 来平衡信息检索和计算资源消耗。其次,遵循特定的提示工程原则优化提示,以引导 LLMs 生成更符合要求的回复。此外,选择了包括 GPT3.5、GPT4 等 10 种预训练的基础 LLMs 进行实验,在标准化的推理参数设置下生成回复。

研究结果


  1. 模型准确性:研究共评估了 3682 个组件(448 个人工生成和 3234 个 LLM 生成)。结果显示,GPT4international模型预测手术适宜性的准确率最高,达到 96.4%,显著高于人类评估者的 86.6%,也优于其非 RAG 版本和使用本地指南的 RAG 版本。例如在评估 ASA 3 级患者手术适宜性时,GPT4 模型的准确性远高于 Gemini 和 LLAMA2-13b 等模型。
  2. 其他术前评估指标:在预测患者是否应由护士或医生接诊方面,使用本地指南的 GPT-4 RAG 模型准确率达到 93.0%,高于其非 RAG 版本。在生成所需医学优化建议时,GPT4international模型表现优于人类,但在生成药物指令顺序上,人类生成的答案更准确。总体而言,在所有次要结果综合准确性上,GPT4international模型与人类无显著差异。
  3. 模型可靠性和安全性评估:通过 S.C.O.R.E 评估框架(包含安全性、共识性、客观性、可重复性、可解释性)评估,GPT4 RAG 模型结果可重复性得分为 4.86(满分 5 分),提供安全指令的得分为 4.93(满分 5 分)。此外,人类评估者的假阴性率为 62.5%,而 GPT4international模型仅为 25%。
  4. 模型一致性评估:GPT-4International在预测医疗适宜性、为医护人员提供指导以及识别优化需求类型等方面,组内相关系数(IRR)分别达到 0.93、0.96 和 0.92,一致性表现优于人类评估者。
  5. 模型幻觉率和语言多样性评估:包括 GPT3.5、GPT4 等在内的多个 LLM 系统幻觉率较低,在 0% - 2.9% 之间,而 LLAMA2 的幻觉率显著较高,尤其是其 RAG 增强版本。通过 n-gram 分析发现,GPT-3.5、GPT-4 等模型在 2-gram 和 3-gram 指标上平均得分较高,语言多样性较强。

研究结论与讨论


该研究表明,LLM-RAG 模型在医疗工作流程,尤其是术前医学领域具有巨大潜力。GPT4LLM-RAG模型在评估患者手术适宜性方面表现出色,能够提供准确、一致的术前评估,且幻觉率低。这一模型可以辅助临床医生,提高工作效率,减轻工作负担。

同时,研究也发现国际指南比本地指南更有助于模型生成准确输出,这可能是由于国际指南内容更全面。未来可通过完善本地指南文本或转化图表为文本等方式优化模型应用。此外,虽然 RAG 模型具有优势,但仍面临计算资源消耗、可扩展性等挑战,需要进一步探索动态检索机制等方法提升效率。

总体而言,这项研究为 LLM-RAG 模型在医疗领域的应用提供了重要依据,推动了人工智能技术在医疗行业的发展,有望为患者带来更高效、准确的医疗服务。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号