EVAL 框架:提升胃肠病领域大语言模型安全性的创新之道

【字体: 时间:2025年05月04日 来源:npj Digital Medicine 12.4

编辑推荐:

  大语言模型(LLMs)在医学决策中存在不准确风险,评估其输出耗时且不切实际。研究人员开展 “Expert of Experts Verification and Alignment (EVAL)” 框架研究,结果显示该框架能优化模型配置、提升准确性,对保障医学 AI 安全意义重大。

  在当今数字化医疗蓬勃发展的时代,大语言模型(LLMs)凭借其强大的文本生成能力,逐渐在医疗领域崭露头角。它能够针对临床问题给出看似合理的文本回复,为医疗决策提供参考。然而,LLMs 的表现并非完美无瑕。在高风险的临床决策场景中,其输出的不准确信息可能会给患者的治疗带来严重风险。例如,在胃肠病和肝病领域,初步研究发现这些模型可能会为患者和医疗服务提供者生成错误的建议。而且,不同研究评估 LLMs 性能的标准并不统一,验证模型性能需要医学专家进行大量的人工审核,既耗时又耗费资源。这使得在医疗建议中确保 AI 安全变得困难重重,建立合适的监管框架也无从谈起。
为了解决这些问题,来自耶鲁大学医学院、纽约城市大学巴鲁克学院、西北大学等多个研究机构的研究人员展开了深入研究。他们提出了 Expert of Experts Verification and Alignment(EVAL)框架,旨在提升面向医疗服务提供者的 LLMs 的 AI 安全性,相关研究成果发表在《npj Digital Medicine》。

研究人员在开展此项研究时,运用了多种关键技术方法。首先,他们测试了多种 LLM 架构,包括 GPT-3.5-Turbo、GPT-4-Turbo 等,在零样本基线、检索增强生成(RAG)、监督微调(SFT)等不同配置下进行实验。其中,RAG 技术将相关文档检索与生成相结合,SFT 则利用低秩适应(LoRA)方法对部分模型进行微调 。其次,构建了包含专家生成问题、美国胃肠病学会多项选择题(ACG-MCQs)和真实世界问题的基准数据集,并由专家进行人工评分。最后,采用了无监督嵌入技术和奖励模型,无监督嵌入通过将 LLM 输出和专家答案转化为向量进行语义相似性比较,奖励模型则用于筛选高质量的 LLM 响应。

下面来看具体的研究结果:

  • 模型排名:在通过相似性度量进行的模型排名中,不同模型在不同指标下表现各异。如 Claude-3-Opus 基线配置在词频 - 逆文档频率(TF-IDF)和句子转换器指标下表现出色,而 SFT-GPT-4o 在微调后的上下文晚期交互 BERT(ColBERT)评分中相似度最高。在人工评分和多项选择题评估中,SFT-GPT-4o 在专家生成问题和 ACG-MCQs 评估中表现最佳,RAG-GPT-o1 在真实世界问题中表现优异12
  • 相似性度量与人工性能的一致性:通过计算斯皮尔曼相关系数评估发现,微调后的 ColBERT 度量与人工评估在所有三个数据集上的相关性最强,句子转换器呈现中等相关性,TF-IDF 相关性最弱3
  • 奖励模型与人工评分的一致性评估:奖励模型在不同温度阈值下对 RAG-GPT-4 的评估中,整体有 87.9% 的情况能产生与人工评分相同的标签。在不同温度区间,其表现有所差异,如在温度 <1.2(正区间)和温度>1.6(负区间)时,产生真实标签的比例较高4
  • 拒绝采样提升模型准确性:利用奖励模型分析结果进行拒绝采样,能有效提高 LLM 响应的准确性。在 RAG-GPT-4 和 SFT-GPT-4o 中,整体准确性分别提高了 9.39% 和 8.36%,在较难分类的混合区间(温度 1.2 - 1.6),提升更为显著5

在研究结论与讨论部分,EVAL 框架利用专家的自由文本响应确定最佳的 LLM 配置,并通过训练奖励模型识别高质量响应。该框架在多个数据集上展示了较高的准确性,为优化 AI 在医学中的安全性提供了新途径。同时,研究发现 RAG、SFT 及两者结合的方法能提升模型性能,但结合方法并不总是表现更优,可能是由于信息冗余和模型干扰。此外,奖励模型有助于降低 LLM 超参数设置(如温度)带来的风险。不过,该研究也存在一定局限性,例如依赖专家医生的文本响应和高质量临床指南,真实世界问题来自模拟工作流程而非实际临床工作流程等。

总体而言,这项研究具有重要意义。EVAL 框架为评估 LLM 配置提供了一种可扩展的方法,有助于医疗系统、临床提供者和患者权益组织在众多 LLMs 中做出明智选择,推动 AI 在医学领域的安全应用,为未来的医学研究和临床实践开辟了新的道路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号