
-
生物通官微
陪你抓住生命科技
跳动的脉搏
AI辅助诊断系统性能对比研究:Isabel Pro与ChatGPT-4在临床决策支持中的准确性与可重复性评估
【字体: 大 中 小 】 时间:2025年06月17日 来源:JAMIA Open 2.5
编辑推荐:
本研究针对AI辅助诊断系统在临床实践中的可靠性问题,由得克萨斯大学健康科学中心团队开展,通过对比专业诊断系统Isabel Pro与通用大模型ChatGPT-4在201例NEJM病例中的表现。研究发现,采用"思维树"提示策略的ChatGPT-4虽将Recall@10提升至0.72,但存在35%的文献引用造假率及低至0.34-0.44的r2 可重复性指标,证实当前AI诊断系统在准确性、文献支持及结果稳定性方面仍存在重大缺陷,为临床AI应用划定明确边界。
在医疗人工智能应用爆发的时代背景下,诊断错误每年导致美国近80万患者永久残疾或死亡,而AI辅助诊断系统被视为解决这一难题的关键。然而,专业诊断系统Isabel Pro与通用大语言模型ChatGPT-4孰优孰劣?得克萨斯大学健康科学中心生物医学信息学院的Joe M. Bridges团队在《JAMIA Open》发表的研究给出了令人深思的答案。
研究团队设计了一项严谨的对比实验,采用201例来自《新英格兰医学杂志》的临床病例,通过Mean Reciprocal Rank(MRR)、Recall@10等指标系统评估两种系统的诊断性能。特别引人注目的是,他们创新性地引入"思维树"(Tree-of-Thought, ToT)提示策略,模拟多专家会诊场景,并首次量化了AI系统在文献引用造假和结果可重复性方面的缺陷。
关键技术方法包括:1)采用201例NEJM标准化病例构建测试集;2)设计多阶段提示工程,包括基础提示、ToT专家小组提示(2-10人规模)和Isabel Pro结果重排提示;3)通过5次重复实验评估结果可重复性;4)人工验证所有参考文献及DOI真实性。
研究问题1:Isabel Pro结果整合对诊断准确性的影响
当ChatGPT-4被要求重新评估Isabel Pro生成的鉴别诊断时,Recall@10从0.687提升至0.720,平均排名改善2.98位。但值得注意的是,系统同时漏诊了11例本可正确识别的病例,揭示AI协同诊断存在"此消彼长"现象。
研究问题2:思维树提示与专家小组规模效应
采用2人专家小组的ToT提示取得最佳效果(Recall@10=0.72),而扩大小组规模反而降低性能。研究推测更多"虚拟专家"的参与可能导致"诊断竞争",这与人类会诊中"人多误事"的现象惊人相似。

研究问题3:结果可重复性危机
5次重复实验显示,虽然Recall@10均值稳定在0.71±0.02,但具体病例诊断排名波动剧烈:63例改善、56例恶化,r2
仅0.34-0.44。这种"诊断彩票"现象使临床应用的可靠性存疑。
研究问题4:文献造假现状
ChatGPT-4生成的参考文献仅34.8%准确,DOI准确率37.8%,更有20%的文献完全虚构。这种系统性造假行为被研究者称为"AI诊断的致命伤"。
该研究揭示了当前AI辅助诊断的三大瓶颈:1)通用大模型(如ChatGPT-4)受限于Common Crawl训练集的低质量医学数据;2)结果不可重复性阻碍临床信任建立;3)文献造假问题可能误导诊疗决策。研究者建议未来开发专用医学训练数据集,并建立严格的临床验证流程。值得关注的是,专业系统Isabel Pro展现出稳定的性能(Recall@10=0.65),其基于25年积累的精选医学数据库仍是当前临床更可靠的选择。
这项研究为AI医疗应用划定了现实边界:在影像分析和行政管理领域,AI已展现卓越能力;但在诊断决策支持方面,仍需突破数据质量、算法透明度和结果稳定性三重障碍。正如研究者强调的,当诊断错误可能危及生命时,"足够好"的AI远远不够,唯有达到近乎完美的可靠性,才能真正融入临床实践。
生物通微信公众号
知名企业招聘