人工智能在急诊医学中的偏见：识别、评估与缓解策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《JACEP Open》：Understanding and Addressing Bias in Artificial Intelligence Systems: A Primer for the Emergency Medicine Physician

【字体：大中小】 时间：2025年12月27日 来源：JACEP Open

编辑推荐：

　　随着人工智能（AI）在急诊医学（EM）中的整合日益深入，其潜在的偏见风险也随之凸显。美国急诊医师学会（ACEP）AI工作组的研究人员针对AI系统在急诊科（ED）应用中可能存在的偏见问题，开展了一项系统性研究。该研究旨在为急诊医师（EPs）提供一个实用的框架，以理解、识别和解决临床及运营AI工具中的偏见。研究团队首先回顾了与EM相关的AI偏见常见来源，包括数据、算法、测量和人类互动因素，并探讨了潜在的陷阱。随后，文章通过急诊实践中的实例（如分诊工具、风险分层和医疗设备）展示了偏见如何具体显现。研究还讨论了不断演变的监管环境、结构化评估框架（包括部署前、持续监测和部署后步骤）、关键原则（如社会技术视角和利益相关者参与）以及具体工具。最后，文章概述了急诊医师在通过倡导、本地验证、临床反馈、要求透明度和保持临床判断力来缓解AI相关偏见方面的关键作用。这项研究的意义在于，它为急诊医师提供了必要的知识和工具，以确保AI技术在急诊医学中的应用能够促进公平、安全和有效的患者护理，而不是加剧现有的健康差距。

在急诊科（ED）这个分秒必争的战场，人工智能（AI）正以前所未有的速度渗透进来。从自动生成病历的大语言模型（LLM），到辅助诊断的影像分析工具，再到预测患者风险的算法，AI承诺带来更高的效率、更好的患者体验和更安全的医疗环境。然而，在这片充满希望的新大陆上，也潜藏着一个不容忽视的暗礁——偏见。

与人类一样，AI也会“犯错”，而且这种错误往往是系统性的。当AI模型在缺乏多样性或本身就包含社会结构性偏见的数据集上进行训练时，它们不仅会吸收这些偏见，甚至可能将其放大和“正常化”。在急诊科这个接待着最广泛、最多样化患者群体的地方，一个带有偏见的AI工具，可能会对某些种族、性别或社会经济背景的患者做出不准确的判断，从而加剧现有的健康差距，造成不公平的医疗结果。

为了应对这一挑战，美国急诊医师学会（ACEP）AI工作组的研究人员开展了一项系统性研究，旨在为急诊医师（EPs）提供一套实用的框架，以理解、识别和解决临床及运营AI工具中的偏见。这项研究不仅回顾了偏见的来源和表现形式，还提供了具体的评估工具和缓解策略，为急诊医师在AI时代保持警惕、确保公平护理提供了重要的指导。

研究设计与方法

本研究主要采用文献综述和专家共识的方法，结合急诊医学的临床实践，构建了一个关于AI偏见的系统性框架。研究团队首先对AI在急诊医学中的应用现状进行了梳理，明确了AI技术带来的机遇与风险。随后，通过回顾现有文献，系统性地识别和定义了AI生命周期中可能出现的各种偏见类型，包括数据偏见、算法偏见和人类互动偏见。在此基础上，研究团队结合急诊医学的具体场景，通过案例分析的方式，阐述了偏见在分诊工具、风险分层模型等实际应用中的具体表现。最后，研究团队整合了现有的监管政策、评估工具和治理原则，为急诊医师和医疗机构提供了一套从部署前评估到部署后监测的全流程偏见管理策略。

研究结果

1. 偏见的定义与来源

研究首先对AI偏见进行了定义，将其界定为“决策过程中的系统性缺陷，导致不公平或非预期的结果，可能无意中嵌入AI算法或训练数据中”。这种偏见可能出现在AI生命周期的多个阶段，包括数据收集、算法设计、临床实施和人类互动。

•
数据偏见：这是AI偏见最主要的来源。当训练数据不能充分代表实际患者群体的多样性时，就会产生代表性偏见。例如，如果训练数据中少数族裔患者的数据不足，模型在这些群体上的表现就会变差。此外，选择偏见（样本选择不具代表性）、测量偏见（数据测量或记录存在系统性误差）和标签偏见（训练数据的标签本身带有主观性或偏见）也是常见的数据偏见形式。
•
算法偏见：当算法从有偏见的数据中学习时，就会编码并延续这些偏见。一个典型的机制是代理歧视，即算法依赖看似中立的变量（如医疗成本或邮政编码），但这些变量与敏感属性（如种族或社会经济地位）相关，从而导致歧视性结果。
•
人类互动偏见：这是指人类与AI系统互动过程中引入的偏见。其中，自动化偏见尤为关键，它描述了临床医生过度依赖或过度信任AI生成建议的倾向，即使这些建议与自己的临床判断相悖。研究表明，即使增加了可解释性功能，当临床医生得到有偏见的AI支持时，其诊断准确性仍然显著低于没有AI支持的情况，这凸显了自动化偏见如何凌驾于临床判断之上。

2. 急诊医学中的现实案例

研究通过急诊医学中的具体案例，生动地展示了偏见如何在实际应用中显现。

•
分诊工具中的偏见：一项对用于分诊敏锐度评估（分配急诊严重程度指数级别）的大型语言模型（LLM）的评估揭示了几个问题。该模型在可能反映临床医生隐性偏见的临床叙述上进行训练，并且模型可以访问实时人工分诊时无法获得的数据，这使直接性能比较变得复杂，并可能夸大感知的准确性。
•
风险分层模型中的偏见：一项关于胸痛HEART（病史、心电图、年龄、风险因素和肌钙蛋白）评分记录的研究发现，患者人口统计学特征（如年龄较小、女性、非白人种族）与是否记录该评分有关。这表明隐性临床医生偏见可能影响标准风险评估工具的应用，从而可能产生有偏见的数据集，进而影响未来基于这些数据训练的AI系统的性能。
•
医疗设备中的偏见：一项广泛使用的专有脓毒症预测模型的外部验证显示，其辨别力和校准度较差，表明其在预测脓毒症发作方面不可靠。如果性能不佳的模型在某些患者群体中产生更多误报或漏诊，则可能不成比例地导致不必要的干预或延误治疗，从而加剧现有的差距。

3. 评估框架与缓解策略

为了帮助急诊医师和医疗机构系统性地评估和缓解AI偏见，研究团队提出了一个结构化的框架，并推荐了具体的工具。

•
评估工具：研究推荐了多种技术工具包，如Aequitas和AI Fairness 360 (AIF360)，用于审计模型在不同亚组中的偏见，并提供指标和缓解算法。此外，还介绍了标准化报告指南，如预测模型偏倚风险评估工具+AI (PROBAST + AI) 和医学影像人工智能清单24 (CLAIM)，以促进AI评估研究的严谨性和透明度。
•
生命周期管理：研究强调了对AI系统进行全生命周期管理的重要性。在部署前，应仔细审查数据集对当地人群的代表性，评估可能编码偏见的代理变量，并理解系统关于公平性和性能目标的基本设计假设。部署后，需要进行持续监测，将算法输出与真实世界的临床结果进行评估，并寻找不同人口统计学群体在错误率或不良事件方面的差异。此外，必须保持强大的人机交互检查，确保临床医生能够随时干预或推翻AI决策。
•
急诊医师的关键角色：研究明确指出，急诊医师在缓解AI偏见方面扮演着不可或缺的角色。他们需要倡导数据质量和代表性，积极参与新AI系统的本地测试和验证，提供持续的临床反馈，要求供应商和机构领导层提高透明度，并最终保持临床判断的首要地位，抵制自动化偏见。

结论与意义

人工智能在急诊医学中拥有巨大的应用潜力，但其整合必须对偏见保持严格的警惕。偏见通过数据、算法和人类互动渗透到系统中，并有可能加剧急诊科中现有的健康差距。解决这一挑战需要一种社会技术方法，其基础是基本原则：优先考虑代表性数据、确保透明度、保持临床首要地位以及抵制自动化偏见。

虽然结构化的框架和机构治理提供了必要的支持，但它们不能替代一线临床医生的关键参与。急诊医师必须积极培养对潜在偏见的认识，批判性地评估AI工具，倡导透明的开发者实践和具有代表性的验证数据，并参与本地测试和监测。通过承担这一重要的监督角色，急诊医师可以指导负责任的AI实施，确保这些强大的技术能够公平地改善所有患者的护理，并为急诊医学创造一个更加公平的未来。

联系信箱：

粤ICP备09063491号

热点排行