综述:评估人工智能语音识别在临床文档记录中的性能:一项系统评价

【字体: 时间:2025年07月02日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  这篇综述系统评价了人工智能(AI)驱动的语音识别(ASR)和自然语言处理(NLP)技术在临床文档中的应用,揭示了其在提升效率与准确性方面的潜力,同时指出多说话者场景、专业术语和口音适应性等挑战。研究强调需优化领域特异性训练、实时纠错及与电子健康记录(EHR)的互操作性,并展望下一代结合大语言模型(LLM)的“数字文书”技术。

  

背景

临床文档是医疗沟通、法律责任和连续性护理的核心,但传统手工记录方式效率低下且易出错。近年来,人工智能(AI)通过自动语音识别(ASR)、大语言模型(LLM)和自然语言处理(NLP)技术,为临床文档的自动化提供了新方案。然而,不同临床环境中AI工具的准确性和实用性差异显著,亟需系统性评估。

方法

研究团队遵循PRISMA指南,检索了截至2025年2月16日的MEDLINE、Embase和Cochrane Library数据库,筛选出29项符合条件的研究。纳入标准包括评估AI转录工具在临床环境中的性能,指标涵盖词错误率(WER)、时间效率和用户满意度等。通过QUADAS-2工具评估研究质量,并采用叙述性综合方法分析结果。

结果

准确性与错误率
AI转录的准确性表现不一:在受控环境中,词错误率(WER)低至0.087(如Issenman等研究),而多说话者场景下可超过50%(Kodish-Wachs等)。F1分数范围从0.416(护理交接场景)到0.856(结构化任务),显示领域特异性训练的重要性。

工作流效率
部分研究(如Zick等)报告文档周转时间从数天缩短至分钟级,但其他研究(如Hodgson等)指出编辑负担可能抵消时间收益。近期LLM驱动的系统(如DAX Copilot)虽能生成结构化摘要(如SOAP笔记),仍需人工审核以确保临床安全性。

临床影响与风险
AI文档可提高关键症状的检出率(Almario等),但高错误率可能导致遗漏风险(Kodish-Wachs等)。例如,Biro等发现AI工具常遗漏关键信息,可能威胁患者安全。

用户接受度
尽管AI工具减轻了文档负担(Misurac等报告 burnout率从69%降至43%),但 clinicians对实时纠错和系统可靠性的担忧普遍存在(Bundy等)。

讨论

AI转录技术的核心挑战包括:

  1. 适应性不足:对专业术语、口音和非标准语音的识别较差;
  2. 工作流整合:与EHR系统的互操作性和实时纠错功能待优化;
  3. 成本效益:早期研究显示成本节约潜力(如急诊科),但专科场景可能成本更高(如儿科胃肠病学)。

未来方向应聚焦于:

  • 下一代数字文书:整合LLM的摘要与文本重构功能;
  • 标准化评估:采用ROUGE等指标量化生成内容质量;
  • 多中心长期研究:验证真实环境中的安全性和效益。

局限性

研究未涵盖IEEE Xplore等技术类数据库,且多数为短期或模拟环境试验。此外,成本效益和长期临床影响数据有限。

(注:全文严格基于原文数据,未添加非文献支持内容。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号