《Digestive and Liver Disease》:Performance of gastroenterologists and multimodal LLMs in endoscopic EREFS scoring of Eosinophilic Esophagitis
编辑推荐:
基于EREFS评分系统评估不同经验胃肠科医生与多模态LLMs(含few-shot提示)在嗜酸性食管炎内窥镜图像判读中的准确性差异。摘要:研究比较了专家、住院医生及三款LLMs在50例EoE患者内窥镜图像评分中的表现,发现LLMs在整体准确率(58.9%)和环状病变评估(30%)显著低于人类评分者,但通过few-shot提示后LLMs整体准确率提升至62.7%,接近专家水平(65.3%)。
阿萨夫·莱瓦托夫斯基(Asaf Levartovsky)|利奥尔·达尔(Lior Dar)|什穆埃尔·费伊(Shmuel Fay)|奥菲尔·乌卡希(Offir Ukashi)|埃亚尔·沙查尔(Eyal Shachar)|塔尔·恩格尔(Tal Engel)|肖姆龙·本-霍林(Shomron Ben-Horin)|埃多阿多·V·萨瓦里诺(Edoardo V. Savarino)|贝拉·昂加尔(Bella Ungar)
以色列谢巴医疗中心(Sheba Medical Center)胃肠病学系
摘要
背景
在胃肠病学图像分析中,对多模态大型语言模型(LLMs)的全面评估仍然有限。本研究旨在评估嗜酸性食管炎内镜参考评分系统(EREFS)在具有不同经验水平的胃肠病(GI)临床医生中的准确性。
方法
由一位黄金标准评分者根据原始EREFS评分对50张嗜酸性食管炎患者的真实内镜图像进行了评分。将GI专家、研究员以及三种多模态LLM(ChatGPT-4o、Claude Sonnet 3.5、Perplexity Sonar)的评分结果与评分者的评分进行了比较。为了优化性能,LLM被提供了单次提示和少量样本提示策略。
结果
总体评估准确性方面,GI研究员(72.4%)显著高于GI专家(65.3%,p = 0.004)和LLM(58.9%,p < 0.001)。在检测水肿方面,LLM的表现优于专家(83.3% vs 49.3%,p < 0.001)。然而,在识别食管环状病变方面,LLM的表现明显较差(30% vs 专家58%,研究员58.7%,两者均p < 0.001)。在采用少量样本提示后,LLM的总体表现与GI专家相当(62.7% vs 65.3%,p = 0.3)。
结论
本研究揭示了具有不同专业水平的人类评分者和多模态LLM在EREFS评分上的差异,并证明了少量样本提示可以提高LLM的准确性。
引言
嗜酸性食管炎(EoE)是一种慢性进行性炎症性疾病,其特征是食管功能障碍症状以及组织学上可见的以嗜酸性粒细胞为主的食管炎症[1]。准确的诊断过程包括由胃肠病学家(GI)进行详细的内镜检查以及组织病理学确认[2,3]。识别内镜异常的具体区域与更高的嗜酸性粒细胞计数和更高的诊断效率相关[4]。标准化的EoE活动评估为内镜特征的重复分级提供了有效的框架,因此对于疾病监测至关重要[[5], [6], [7]]。嗜酸性食管炎内镜参考评分系统(EREFS)包括几种内镜特征——水肿、食管环状病变、渗出物、沟槽和狭窄[8]。EREFS评分系统提高了EoE的识别和分类能力。多项研究表明,EREFS与食管嗜酸性粒细胞计数和治疗反应之间存在强相关性,使其成为临床实践中的重要工具[[9], [10], [11]]。然而,识别和解释这些内镜特征需要大量的培训和专业知识,鉴于并发症的风险,及时识别和干预对于防止长期食管损伤至关重要[12]。此外,评分者间的可靠性不佳仍然是内镜评分系统中的一个关键问题,先前的研究报道受过培训的内镜医师在EREFS评分上的一致性为中等到较高[13,14]。评分的不一致性强调了需要准确且可重复的评估工具来辅助临床决策。
具有多模态能力的大型语言模型(LLMs)的出现为自动化医学图像解释带来了新的可能性。它们提供了用户友好的集成方式,无需预先设置,能够进行全面的图像分析,从而有助于临床评估[15]。此外,“少量样本”提示学习技术的应用可能显著提升LLM在具有挑战性的多模态任务(如图像解释)中的能力[[16], [17], [18]]。通过这种方法,模型只需少量的未见过的标记样本,就能根据提供的视觉参考来学习和准确评估未来的图像[19]。
在专门的胃肠病学评分系统中,对LLM性能的全面评估仍然有限。本研究旨在考察具有不同经验水平的GI医生以及采用不同提示技术的多模态LLM在EREFS评分系统中的评估准确性和评分者间的一致性。
研究设计与图像
本研究评估了90名确诊为EoE的患者的内镜图像。我们筛选了代表EoE典型表现的内镜图像,以涵盖EREFS评分系统的全部范围。每个索引内镜检查中都包含了一张包含最典型EREFS评分组件的图像(水肿/食管环状病变/渗出物/沟槽/狭窄)。图像选择旨在确保最高的分辨率并尽量减少运动引起的干扰
EoE图像与专家评分
由专家评分者对50张确诊为EoE的患者的内镜图像进行了评估。在大多数图像中都发现了水肿(42/50,80%)。其中68%(34/50)的图像中出现了食管环状病变,其中1级环状病变占55.9%(19/34),2级环状病变占38.2%(13/34),3级环状病变占5.9%(2/34)。渗出物和沟槽分别出现在44%(22/50)和54%(27/50)的图像中。有12张图像(24%)被评定为2级渗出物。只有9张图像
讨论
本研究详细比较了GI专家、研究员和多模态LLM在EoE内镜评估方面的准确性。我们发现,与LLM相比,人类GI评分者的EREFS评分准确性和评分者间一致性更高。特别是,GI研究员在总体评分和EREFS各组成部分的评分方面均表现更优。此外,LLM在少量样本提示下的表现也有所提高,使其与GI专家的水平相当