
-
生物通官微
陪你抓住生命科技
跳动的脉搏
专家与AI 2.0:在阻塞性睡眠呼吸暂停评估中,AI模型与专家共识的比较研究
《European Archives of Oto-Rhino-Laryngology》:Experts V/S AI′s 2.0: Comparative evaluation of AI models and expert consensus in obstructive sleep apnea assessment
【字体: 大 中 小 】 时间:2025年11月03日 来源:European Archives of Oto-Rhino-Laryngology 2.2
编辑推荐:
AI模型在OSA管理评估中表现弱于专家共识,ChatGPT-3.5优于4.0和Gemini,复杂临床决策需人类判断。
本研究旨在通过10位超级专家的评估,比较三种不同人工智能聊天机器人(Chat GPT-3.5、Chat GPT-4.0和Gemini)以及100位睡眠医学领域的耳鼻喉科专家对阻塞性睡眠呼吸暂停(OSA)的评估结果。
Chat GPT-3.5、Chat GPT-4.0、Gemini和100位耳鼻喉科专家共同完成了一份关于OSA管理的10个问题的调查问卷。睡眠医学领域的10位专家使用李克特量表(Likert scale)对这些回答进行了评估,以判断其与专家共识的一致性。随后进行了统计分析,以评估一致性程度和显著性。
专家共识的平均得分最高(4.5 ± 0.9),显著优于所有人工智能模型。其中,ChatGPT-3.5的表现最佳,得分为4.1 ± 1.2(p=0.003),其次是ChatGPT-4(3.9 ± 1.4,p<0.001)和Gemini(3.6 ± 1.5,p<0.001)。在某些特定场景下,如确定减肥手术或侧咽成形术的适应症时,人工智能模型的回答与专家共识完全一致。然而,在需要综合考虑多个因素的复杂临床场景中,人工智能模型的表现明显低于专家共识(p<0.01)。
尽管人工智能模型在OSA的管理中具有潜力,尤其是在定义明确的临床场景下,但目前它们更适合作为辅助工具,而非替代专家的临床判断。令人惊讶的是,ChatGPT-3.5在许多方面的表现优于其更新版本,这表明具有通用能力的人工智能模型更新并不总能带来在专业医疗领域的更好表现。这些发现强调了人工智能作为辅助资源的潜力,同时也突显了在复杂临床决策中持续需要人类专业知识的必要性。
本研究旨在通过10位超级专家的评估,比较三种不同人工智能聊天机器人(Chat GPT-3.5、Chat GPT-4.0和Gemini)以及100位睡眠医学领域的耳鼻喉科专家对阻塞性睡眠呼吸暂停(OSA)的评估结果。
Chat GPT-3.5、Chat GPT-4.0、Gemini和100位耳鼻喉科专家共同完成了一份关于OSA管理的10个问题的调查问卷。睡眠医学领域的10位专家使用李克特量表(Likert scale)对这些回答进行了评估,以判断其与专家共识的一致性。随后进行了统计分析,以评估一致性程度和显著性。
专家共识的平均得分最高(4.5 ± 0.9),显著优于所有人工智能模型。其中,ChatGPT-3.5的表现最佳,得分为4.1 ± 1.2(p=0.003),其次是ChatGPT-4(3.9 ± 1.4,p<0.001)和Gemini(3.6 ± 1.5,p<0.001)。在某些特定场景下,如确定减肥手术或侧咽成形术的适应症时,人工智能模型的回答与专家共识完全一致。然而,在需要综合考虑多个因素的复杂临床场景中,人工智能模型的表现明显低于专家共识(p<0.01)。
尽管人工智能模型在OSA的管理中具有潜力,尤其是在定义明确的临床场景下,但目前它们更适合作为辅助工具,而非替代专家的临床判断。令人惊讶的是,ChatGPT-3.5在许多方面的表现优于其更新版本,这表明具有通用能力的人工智能模型更新并不总能带来在专业医疗领域的更好表现。这些发现强调了人工智能作为辅助资源的潜力,同时也突显了在复杂临床决策中持续需要人类专业知识的必要性。
生物通微信公众号
知名企业招聘