综述：评估人工智能语音识别在临床文档记录中的性能：一项系统评价

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月02日 来源：BMC Medical Informatics and Decision Making 3.3

编辑推荐：

　　这篇综述系统评价了人工智能（AI）驱动的语音识别（ASR）和自然语言处理（NLP）技术在临床文档中的应用，揭示了其在提升效率与准确性方面的潜力，同时指出多说话者场景、专业术语和口音适应性等挑战。研究强调需优化领域特异性训练、实时纠错及与电子健康记录（EHR）的互操作性，并展望下一代结合大语言模型（LLM）的“数字文书”技术。

背景

临床文档是医疗沟通、法律责任和连续性护理的核心，但传统手工记录方式效率低下且易出错。近年来，人工智能（AI）通过自动语音识别（ASR）、大语言模型（LLM）和自然语言处理（NLP）技术，为临床文档的自动化提供了新方案。然而，不同临床环境中AI工具的准确性和实用性差异显著，亟需系统性评估。

方法

研究团队遵循PRISMA指南，检索了截至2025年2月16日的MEDLINE、Embase和Cochrane Library数据库，筛选出29项符合条件的研究。纳入标准包括评估AI转录工具在临床环境中的性能，指标涵盖词错误率（WER）、时间效率和用户满意度等。通过QUADAS-2工具评估研究质量，并采用叙述性综合方法分析结果。

结果

准确性与错误率
AI转录的准确性表现不一：在受控环境中，词错误率（WER）低至0.087（如Issenman等研究），而多说话者场景下可超过50%（Kodish-Wachs等）。F1分数范围从0.416（护理交接场景）到0.856（结构化任务），显示领域特异性训练的重要性。

工作流效率
部分研究（如Zick等）报告文档周转时间从数天缩短至分钟级，但其他研究（如Hodgson等）指出编辑负担可能抵消时间收益。近期LLM驱动的系统（如DAX Copilot）虽能生成结构化摘要（如SOAP笔记），仍需人工审核以确保临床安全性。

临床影响与风险
AI文档可提高关键症状的检出率（Almario等），但高错误率可能导致遗漏风险（Kodish-Wachs等）。例如，Biro等发现AI工具常遗漏关键信息，可能威胁患者安全。

用户接受度
尽管AI工具减轻了文档负担（Misurac等报告 burnout率从69%降至43%），但 clinicians对实时纠错和系统可靠性的担忧普遍存在（Bundy等）。

讨论

AI转录技术的核心挑战包括：

适应性不足：对专业术语、口音和非标准语音的识别较差；
工作流整合：与EHR系统的互操作性和实时纠错功能待优化；
成本效益：早期研究显示成本节约潜力（如急诊科），但专科场景可能成本更高（如儿科胃肠病学）。

未来方向应聚焦于：

下一代数字文书：整合LLM的摘要与文本重构功能；
标准化评估：采用ROUGE等指标量化生成内容质量；
多中心长期研究：验证真实环境中的安全性和效益。

局限性

研究未涵盖IEEE Xplore等技术类数据库，且多数为短期或模拟环境试验。此外，成本效益和长期临床影响数据有限。

（注：全文严格基于原文数据，未添加非文献支持内容。）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号