大型语言模型DeepSeek-R1显著提升重症医师对复杂危重症病例的诊断效能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月07日 来源：Critical Care 8.8

编辑推荐：

　　本研究针对ICU中复杂危重症病例诊断困境，评估了推理模型DeepSeek-R1的辅助价值。通过前瞻性对照试验，发现该模型能生成高质量诊断信息（Likert评分4.0-5.0），将住院医师的Top诊断准确率从27%提升至58%（p=0.006），诊断时间缩短49.4%，证实AI辅助可显著优化重症诊疗效率。

在重症监护病房(ICU)中，快速准确的诊断往往关乎生死。然而，危重症患者复杂的临床表现、多系统受累特征，使得住院医师常陷入"诊断迷宫"。传统诊疗模式下，即使借助PubMed等资源，住院医师对复杂病例的Top诊断准确率仅27%，平均耗时32分钟——这样的效率在争分夺秒的ICU环境中显然捉襟见肘。

正是基于这一临床痛点，西南交通大学附属医院重症医学科团队开展了一项开创性研究。他们选取了48例发表于《新英格兰医学杂志》等顶刊的疑难病例，让32名重症住院医师在DeepSeek-R1模型辅助下进行诊断挑战。这个基于强化学习技术、拥有6710亿参数的开源推理模型，展现出令人惊艳的临床思维：其生成的鉴别诊断不仅逻辑严密（Likert清晰度评分5.0），更包含68%病例的最终诊断。

研究设计凸显科学性：采用分层随机分组，对照组允许使用UpToDate等传统资源，实验组则增加AI辅助。结果令人振奋——AI组医师的Top诊断准确率实现翻倍增长（58% vs 27%），诊断时间从1920秒锐减至972秒。更值得注意的是，模型自身的诊断准确率达60%，其生成的鉴别诊断质量评分（中位数5.0）显著高于人类医师单独诊断（3.0）。

关键技术方法包括：

病例筛选：通过PubMed系统检索2023年后发表的48例复杂危重症病例，排除管理类病例
模型测试：使用标准提示词模板，在独立会话中运行DeepSeek-R1（温度参数0.6）
效果评估：采用5分制Likert量表评价响应质量，比较Top诊断准确率和鉴别诊断质量评分
随机对照：32名住院医师分层随机分组，记录诊断时间和准确性

主要研究结果：
响应质量
模型响应在完整性（中位数4.0）、清晰度（5.0）和实用性（5.0）方面均获高分，ICC显示评估者间一致性良好（0.960）。

诊断准确性
模型独立诊断的Top准确率（60%）显著高于非AI辅助医师组（27%），AI辅助组医师表现（58%）与模型相当。鉴别诊断质量评分显示相似趋势：模型5.0 vs 非辅助组3.0。

诊断效率
AI辅助使诊断时间中位数从32分钟缩短至16.2分钟（p=0.000001），提升幅度达49.4%。

这项发表于《Critical Care》的研究具有三重里程碑意义：首次证实推理模型在真实临床场景中的诊断优势；为资源有限的ICU提供了开源解决方案（DeepSeek-R1）；建立了AI-医师协同诊疗的新范式。不过研究也指出，模型仍存在16%的"幻觉"风险，强调当前阶段应坚持"AI辅助"而非"AI替代"的定位。

随着Xintong Wu和Yu Huang团队持续优化提示工程，未来或可进一步释放AI在脓毒症鉴别、多器官衰竭预警等复杂场景的潜力。这项研究不仅为重症医学数字化转型按下加速键，更启示我们：当人类临床智慧与机器推理能力深度融合时，必将重塑危重症诊疗的未来图景。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号