人工智能与人类临床医生在食管胃十二指肠镜检查适用性方面的比较研究：基于临床案例的分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《The American Journal of Gastroenterology》：Artificial Intelligence versus Human Clinicians in Esophagogastroduodenoscopy Appropriateness: A Comparative Study Using Clinical Vignettes

【字体：大中小】 时间：2025年11月20日 来源：The American Journal of Gastroenterology 7.6

编辑推荐：

　　本研究探讨了大型语言模型（LLMs）在评估食管胃十二指肠镜（EGD）检查适用性方面的表现，通过问卷调查比较了五个AI模型（ChatGPT-4.0、4.5、Gemini、Claude AI、OpenEvidence）与消化科医生、住院医师和全科医生的结果，依据ESGE/ASGE指南。结果显示，AI准确率从2025年4月的50%-90%提升至9月的63%-80%，其中ChatGPT-4.5和4.0在9月表现优于人类医生，表明AI性能随时间变化，临床应用前需进行重复评估。

　　```section>

引言：

大型语言模型（LLMs）在临床决策中的使用日益增多，但它们在基于适当性的医疗建议中的作用仍不确定。

方法：

我们进行了一项基于案例的意大利语调查，通过五种人工智能模型（ChatGPT-4.0、ChatGPT-4.5、Gemini、Claude AI、OpenEvidence）在2025年4月和9月两次时间点，根据ESGE/ASGE指南，评估胃镜检查（EGD）的适当性，并邀请了胃肠病学家、住院医师和全科医生参与。

结果：

共有135名医生参与了这项研究。人工智能模型的表现随时间有所变化：4月份的准确率在50%到90%之间，而9月份则上升到了63%到80%之间，其中ChatGPT-4.5和ChatGPT-4.0在9月份的表现优于人类医生。

讨论：

模型性能随时间和提示内容的变化表明，在临床应用之前需要进行多次纵向评估。

通俗语言总结：本研究探讨了大型语言模型（LLMs）在判断食管胃十二指肠镜检查（EGD）程序的适当性方面与人类医生的表现。通过包含临床案例的调查，我们对五种人工智能模型进行了测试，并将其与胃肠病学家、住院医师和全科医生进行了对比。结果显示，人工智能的准确率从4月份的50%到9月份的63%有所提高，其中ChatGPT-4.5和ChatGPT-4.0在9月份的表现优于人类医生。该研究表明，人工智能的性能会随时间变化，因此在将这些模型用于临床环境之前进行多次评估非常重要。

本文本由机器生成，可能存在不准确之处。常见问题解答

```

热点排行

新闻专题

联系信箱：

粤ICP备09063491号