
-
生物通官微
陪你抓住生命科技
跳动的脉搏
OpenAI o1大型语言模型在眼科委员会式考题中超越GPT-4o、Gemini 1.5 Flash及人类应试者的性能评估
【字体: 大 中 小 】 时间:2025年06月17日 来源:Ophthalmology Science 3.2
编辑推荐:
本研究针对AI在眼科医学教育中的准确性验证需求,通过横断面设计比较了OpenAI o1、GPT-4o和Gemini 1.5 Flash在500道眼科委员会式考题(源自BCSC和EyeQuiz题库)中的表现。结果显示,OpenAI o1以84.6%的整体准确率显著优于其他模型及人类应试者(64.5%),尤其在复杂推理题(Buckwalter三级问题)和九大眼科亚专科中表现突出。该研究为AI辅助医学教育及临床决策提供了实证依据,凸显了专用推理模型的潜力。
在医学教育领域,眼科医师的标准化考核长期依赖美国眼科委员会(ABO)的考试体系。随着生成式人工智能(Generative AI)的崛起,ChatGPT和Gemini等大型语言模型(LLM)已展现出辅助医学学习的潜力,但既往研究显示其在眼科考题中的准确率仅46.7%-71%。更关键的是,缺乏对新一代专用推理模型(如OpenAI专为复杂科学推理设计的o1系统)的性能评估,而这类模型可能彻底改变医学培训模式。
针对这一空白,来自南加州大学的研究团队在《Ophthalmology Science》发表了一项开创性研究。他们从权威题库《基础与临床科学课程》(BCSC)和开放资源EyeQuiz中选取500道多选题,采用横断面设计对比OpenAI o1、GPT-4o和Gemini 1.5 Flash的表现。研究通过标准化提示流程(每题独立会话避免记忆偏差),并依据Buckwalter分类法将问题按认知复杂度分为三级(记忆/理解/应用),同时覆盖白内障、青光眼等九大亚专科。统计采用ANOVA和McNemar检验分析差异。
关键实验技术
RESULTS
总体性能
OpenAI o1以84.6%准确率(423/500)碾压式领先,较GPT-4o(66.2%)和Gemini(60.2%)提升超18个百分点(P<0.001)。在BCSC题库中,o1的91.2%正确率甚至超越人类平均表现(64.5%)。
认知复杂度分层
o1在三级应用类问题中仍保持86.7%准确率,较GPT-4o(65.1%)优势扩大至21.6%,证明其解决临床疑难的能力。
亚专科表现
在眼整形外科(90.2%)和青光眼(87.5%)领域表现最佳,而神经眼科相对较弱,提示亚专科知识库仍需优化。
图像题测试
o1与GPT-4o在7道图像题中均答对6题(85.7%),显著优于Gemini(42.9%),展现多模态处理优势。
DISCUSSION
这项研究首次证实,专用推理模型OpenAI o1在医学高阶认知任务中具有革命性突破。其三大创新价值在于:
研究局限性包括样本量限制(仅7道图像题)和未评估动态临床场景整合能力。但团队指出,未来通过API接口标准化和扩大亚专科训练数据,这类模型有望成为医学教育的"数字导师"。正如研究者强调:"当AI在委员会考试中持续超越人类时,我们不应恐惧替代,而应思考如何让它赋能下一代医生的成长。"
(注:全文数据及结论均源自原文,未添加外部信息;专业术语如Generative AI、LLM等均按原文格式保留)
生物通微信公众号
知名企业招聘