
-
生物通官微
陪你抓住生命科技
跳动的脉搏
临床诊断决策支持系统(DDSS)与生成式大型语言模型(LLM)的性能对比研究:传统专家系统与新兴AI技术的碰撞
【字体: 大 中 小 】 时间:2025年05月30日 来源:JAMA Network Open 10.5
编辑推荐:
这篇研究首次对比了传统AI诊断决策支持系统(DDSS)与两种生成式大型语言模型(LLM1/ChatGPT-4、LLM2/Gemini-1.5)在36例未公开临床病例中的诊断表现。结果显示,DDSS在无实验室数据时正确诊断率更高(56% vs 42%/39%),但三者结合实验室数据后性能均显著提升(DDSS 72%,LLM1 64%,LLM2 58%)。研究提出结合LLMs的语言解析能力与DDSS的确定性推理优势可能产生协同效应,为临床决策支持工具的发展提供了新思路。
Key Points
核心问题直指临床实践痛点:在诊断决策支持领域,传统AI专家系统与新兴生成式AI模型孰优孰劣?研究团队设计精妙的对照实验显示,马萨诸塞总医院研发的DXplain系统(DDSS)在无实验室数据时展现优势,其正确诊断出现在前25位诊断列表的概率达56%,显著高于ChatGPT-4(42%)和Gemini-1.5(39%)。但令人惊讶的是,当加入实验室数据后,三大系统的诊断准确率均获显著提升,其中DDSS达到72%的识别率,印证了多模态数据整合对AI诊断的关键价值。
Abstract
这项开创性研究填补了重要空白:首次在未公开临床病例上对比传统DDSS与LLMs的诊断性能。36个来自三家学术医疗中心的疑难病例经过严格处理——病例信息被三重医师盲法提取,并映射到DDSS的标准化词汇体系。实验设计极具匠心:DDSS设置四种输入模式(全部/关键临床发现×有无实验室数据),而LLMs采用两种输入方式。结果显示,三大系统在整合实验室数据后均表现亮眼,但DDSS仍保持微弱优势,尤其在诊断排序上更常将正确诊断置于前五位。
Introduction
医学AI发展史在此形成有趣对照:已有40年历史的DDSS系统代表着"老派"专家系统的智慧结晶,其知识库包含2680种疾病档案与6100+临床术语的精确关联;而ChatGPT-4和Gemini-1.5则展现了大语言模型的"新贵"优势——尽管并非为医学专门设计,却能通过海量文本训练获得令人惊艳的临床推理能力。这种"精确工程"与"概率生成"的碰撞,恰似医学领域"循证思维"与"模式识别"的百年辩论。
Methods
研究方法彰显严谨性:36个精心筛选的未公开病例构成黄金标准,确保所有测试系统均未见过这些案例。医师团队采用"三重盲审"机制提取临床发现,仅当至少两位医师认同的发现才会被录入系统。统计方法别出心裁地采用五等分评分法:正确诊断位列1-5名得5分,6-10名得4分,以此类推。这种设计既能捕捉系统间的细微差距,又避免了单纯"是/否"判断的粗糙性。
Results
数据揭示有趣现象:在无实验室数据时,DDSS的"全部发现"模式正确识别率(56%)显著高于LLMs,但p值恰停在显著性边界(DDSS vs LLM1 p=0.09)。而当加入实验室数据后,三大系统集体"超进化"——DDSS正确诊断率跃升16个百分点,LLMs也获得约20%的性能提升。特别值得注意的是,在9例DDSS未能识别的病例中,LLMs成功诊断出4例,展现出良好的互补性。
Discussion
讨论部分充满辩证思考:DDSS展现传统优势——其确定性算法能规避人类医师的锚定偏倚,且通过"解释"功能增强临床可信度;而LLMs虽存在"幻觉"风险,却展现出惊人的语言理解与病例整合能力。作者提出的"杂交育种"设想颇具前瞻性:用LLMs解析电子病历文本并补充DDSS知识库,同时以DDSS的确定性框架约束LLMs的随机性,或能培育出新一代诊断"超级助手"。
Limitations
研究坦诚承认边界:LLM版本迭代迅速可能影响结果可重复性,且仅评估了诊断存在性而未分析整体鉴别诊断质量。但作者巧妙回应:正如新药审批需要证明"生物活性",证明AI工具能包含正确诊断正是临床应用的先决条件。
Conclusions
结论描绘出激动人心的未来图景:当"老派"专家系统遇上"新潮"LLMs,不是简单的替代关系,而是孕育着1+1>2的协同可能。研究者正在探索用LLMs自动提取临床发现并映射到DDSS词汇体系,这种"神经符号整合"策略或许终将实现诊断决策支持的"无缝嵌入"——就像现在的药物相互作用提醒一样,未来电子病历或能自动提示:"请注意:当前发现强烈提示XX疾病,但尚未列入问题清单"。
生物通微信公众号
知名企业招聘