胃肠病学临床推理中专用与开源语言及视觉语言模型的基准评估研究
《npj Digital Medicine》:Benchmarking proprietary and open-source language and vision-language models for gastroenterology clinical reasoning
【字体:
大
中
小
】
时间:2025年11月28日
来源:npj Digital Medicine 15.1
编辑推荐:
本研究针对胃肠病学领域缺乏标准化AI模型评估体系的问题,研究人员通过系统比较36种专用和开源LLMs与VLMs在胃肠病学会考题中的表现。结果显示专用模型o1-preview准确率达82.0%,开源模型Llama3.3-70b达65.7%,而VLMs在图像理解方面存在显著瓶颈,仅当提供人工描述时性能提升约10%。该研究为AI在专科医疗领域的应用建立了可复现的评估范式。
在人工智能席卷医疗领域的今天,大型语言模型(LLM)正逐渐成为临床决策的支持工具。然而,这些模型在不同医学专科中的表现参差不齐,尤其在胃肠病学这类需要综合处理文本、表格和图像数据的专科中,其可靠性更是备受质疑。更棘手的是,当前缺乏针对专科医疗场景的系统化评估标准,导致医疗机构在选择AI工具时如同"盲人摸象"。
面对这一困境,由Seyed Amir Ahmad Safavi-Naini领衔的国际研究团队在《npj Digital Medicine》发表了开创性研究。研究人员设计了一套严谨的评估体系,首次对胃肠病学领域的LLM和视觉语言模型(VLM)进行全面基准测试。他们采用美国胃肠病学会(ACG)2021-2023年的自我评估题库作为"试金石",这些题目不仅涵盖10个专科亚类,还包含大量内镜、影像等医学图像,能有效模拟真实临床场景的复杂性。
研究团队创新性地构建了多维度评估框架,涵盖不同运行环境(API、网页界面、本地部署)、模型规模(70亿至4050亿参数)和优化策略(4-8位量化)。通过精心设计的实验流程,他们系统比较了36个模型的表现,包括GPT、Claude、Gemini等专用模型和Llama、Mixtral等开源模型,甚至测试了经过医学数据微调的定制化模型。
关键技术方法包括:使用ACG自我评估题库(300题/年)构建专业数据集;通过提示工程优化模型交互策略;建立半自动化评估管道实现大规模响应分析;采用量化技术实现本地部署;设计四场景对比实验评估VLM图像理解能力。
在纯文本题目测试中,OpenAI的o1-preview模型以82.0%的准确率领先,不仅超过人类考生平均成绩(74.52%),还高于胃肠病学委员会考试的通过线(70%)。Claude 3.5-Sonnet以74.0%紧随其后。开源模型中,Llama3.3-70b(65.7%)和Qwen-2.5-72b(61.0%)表现最佳,与GPT-4(66%)处于同一水平。值得注意的是,模型性能与参数规模呈正相关,但经过8位量化的Llama 3.2-11b(51.7%)和6位量化的Phi3-14b(48.7%)在保持较小内存占用的同时,达到了与全精度版本相当的准确率。
当涉及图像类题目时,VLMs的表现令人深思。直接提供医学图像给模型时,除Claude3-Sonnet(提升20.2%)和Llama3.2-11b(提升8.7%)外,其他模型均未出现显著改善。更令人意外的是,使用VLM自动生成的图像描述反而导致性能下降,而提供人工编写的一句话图像描述后,所有模型(除GPT4V-API外)性能提升8.0%-29.3%。这表明当前VLMs的主要瓶颈在于图像表征能力而非文本推理能力。
量化实验揭示,8位量化对大多数模型性能影响有限,但Llama3-8b从43%降至31%是个例外。有趣的是,4位量化的90B模型(61.0%)性能优于全精度11B模型(48.7%),显示优化大模型可能比使用原生小模型更有效。然而,经过医学数据微调的模型(如medicineLLM、OpenBioLLM)反而逊色于通用基础模型,提示专业领域模型的开发仍需突破架构设计和数据利用等关键难题。
研究还发现,固定随机种子、温度设为0、使用简单提示能获得最稳定的输出,但一致性提高未必伴随准确性提升。不同接口(API与网页版)对专用模型影响不大,但未优化的API可能表现不佳。成本分析显示,处理单个问题(中位长度216词元)的费用从0.0003美元(GPT-3.5)到0.06美元(Claude-3-Opus)不等,为实际部署提供了经济性参考。
这项研究的意义远超出胃肠病学范畴。它建立的标准化评估框架为医学AI领域提供了可复现的范例,揭示了专用模型与开源模型之间的性能差距正在缩小。更重要的是,研究首次系统论证了VLMs在医学图像理解中的局限性,为下一代多模态模型研发指明方向。
对于临床医生,这项研究提示LLMs在医学教育和决策支持方面潜力巨大,但需要警惕其与真实临床场景的差距。对开发者而言,研究揭示了性能、隐私和计算效率间的平衡关系,显示量化后的大模型在保持存储效率的同时优于小模型,凸显优化技术的价值。
尽管基于多选题的评估存在局限,但这项研究为AI在专科医疗中的应用树立了重要里程碑。随着模型不断进化,建立包含幻觉检测、不确定性评估等多维度的评价体系,将成为推动AI安全融入临床实践的关键。未来需要医疗各方协同努力,构建更全面的验证数据集和协作标准,让AI真正成为医疗领域的可靠"协作者"。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号