从GPT-4.1人工智能在儿科异物吸入病例中的实际应用中得出的警示性教训

《European Archives of Oto-Rhino-Laryngology》:Cautionary lessons from real-world testing of GPT-4.1 AI for pediatric foreign body aspiration

【字体: 时间:2025年11月25日 来源:European Archives of Oto-Rhino-Laryngology 2.2

编辑推荐:

  本研究评估GPT-4.1在儿科气道异物吸入诊断中的可行性与性能。通过回顾性分析58例确诊患者临床数据及胸部X光片,模型分类准确率为62.3%,但左支气管异物检出率为0,整体召回率仅19%,提示需任务专用训练和严格验证。

  

摘要

目的

利用真实世界的临床和放射数据,评估多模态大型语言模型(GPT-4.1)在检测儿童气道异物吸入(FBA)方面的可行性和诊断性能。

方法

这项回顾性队列研究包括了2015年至2024年间在一家三级学术医院接受疑似气道异物吸入评估的58名儿童患者。每个病例结合了急诊科就诊时收集的结构化临床数据和胸部X光片,支气管镜检查作为诊断参考标准。GPT-4.1是一种具备视觉功能的大型语言模型,它将病例分类为右支气管吸入、左支气管吸入或无吸入。模型性能通过准确性、精确度、召回率和F1分数进行评估。

结果

该模型的总体准确率为62.3%,精确度为23.3%,召回率为19.0%,F1分数为0.21。虽然它正确识别了46例无吸入病例中的34例,但在12例确诊的支气管吸入病例中仅检测出4例,并且全部漏掉了左支气管吸入病例。

结论

这项概念验证研究凸显了通用多模态AI模型在儿童气道分诊方面的显著局限性。较低的召回率和较高的误分类率表明,具备视觉功能的语言模型在临床应用前需要针对特定任务进行训练和严格验证。尽管如此,如果进一步优化并进行前瞻性验证,这类模型作为支气管镜检查的辅助工具使用,最终可能在资源有限的环境中支持分诊决策。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号