基于临床记录的机器学习模型识别医师疲劳状态及其对医疗决策的影响研究

【字体: 时间:2025年07月02日 来源:Nature Communications 14.7

编辑推荐:

  本研究通过分析129,228例急诊科就诊记录,创新性地利用临床笔记文本特征构建机器学习模型,成功识别医师疲劳状态(如连续工作5天以上、夜班或高负荷时段)。研究发现疲劳状态显著降低心肌梗死检测阳性率19%,并首次揭示LLM(大型语言模型)生成文本的"疲劳特征"比医师手写笔记高74%,为医疗AI应用风险预警提供重要依据。

  

急诊科医师长期面临高强度工作压力,约65%存在职业倦怠,但传统研究难以量化疲劳对医疗决策的实际影响。Chao-Chun Hsu等研究者独辟蹊径,将临床笔记这一常规医疗记录转化为"疲劳监测器"。通过分析12.9万份急诊笔记发现,疲劳不仅改变了医师的书写模式,更直接导致心肌梗死检测阳性率下降近五分之一——这相当于每标准差的疲劳增长就伴随19%的关键诊断质量下滑。更引人深思的是,研究意外发现当前热门的LLM生成的医疗文本竟比疲劳医师的笔记表现出更显著的"疲劳特征",这为医疗AI的临床应用敲响了警钟。

研究团队来自美国学术医疗机构,采用多维度分析方法:首先基于急诊科医师排班数据(含60名医师11,592个班次)建立工作量指标;其次通过GPT-2模型量化笔记文本特征(包括可预测性、认知词汇比例等);最终构建逻辑回归模型关联文本特征与临床决策质量(以心肌梗死检测阳性率为指标)。所有分析均在医院内部计算环境完成以保护患者隐私,并在MIMIC-III数据集上进行外部验证。

模型预测疲劳与独立疲劳指标相关
通过控制患者特征和时序变量,模型成功区分高负荷(过去7天工作≥4天)与低负荷医师(AUC=60.1%)。预测分数与夜班、轮班时间波动等独立疲劳指标显著相关(p<0.05),如图2所示:

疲劳影响医疗决策质量
传统工作量指标未能发现检测阳性率变化(p=0.383),而笔记预测的疲劳分数每增加1个标准差,心肌梗死检测阳性率下降19.0%(p=0.047)。这表明文本特征比排班数据更能反映真实疲劳状态。

LLM生成文本的警示
研究发现LLM生成文本的预测疲劳分数比医师笔记高74%,主要体现在文本可预测性(perplexity)和愤怒词汇使用增多。这提示LLM可能无意识放大了医疗文本中的风险特征,如表3所示:

这项研究开创了通过临床笔记监测医师状态的新范式,揭示了疲劳对医疗质量的隐性影响机制。特别值得注意的是,研究发现的"LLM疲劳悖论"——即本应辅助医师的AI工具可能产生比疲劳人类更差的文本特征——为医疗AI质量控制提出了全新课题。研究者建议将LLM定位为"写作辅助工具"而非替代品,以保护临床思维过程的完整性。这些发现对改善医师工作安排、开发下一代医疗AI系统具有重要指导意义,相关成果已发表于《Nature Communications》。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号