
-
生物通官微
陪你抓住生命科技
跳动的脉搏
临床AI公平性研究:医疗健康领域中的证据缺口分析与未来策略
【字体: 大 中 小 】 时间:2025年06月15日 来源:npj Digital Medicine 12.4
编辑推荐:
针对医疗AI中存在的公平性问题,新加坡杜克-国立大学医学院团队通过系统性范围综述,分析了467项研究,揭示了临床AI公平性在医学领域应用不足、偏倚相关属性局限、群体公平性主导等问题,提出了跨学科协作的解决方案,为促进健康公平提供了重要指导。
在数字化医疗快速发展的今天,人工智能(AI)技术已广泛应用于医学影像诊断、疾病预测和治疗决策等多个领域。然而,一个不容忽视的问题逐渐浮出水面——AI系统可能携带并放大人类社会的偏见,导致不同性别、种族或社会经济地位的患者获得差异化的医疗服务。这种算法偏倚(Algorithmic bias)可能发生在AI开发生命周期的任何环节,从数据收集到模型部署,最终加剧医疗健康领域的不平等现象。
以皮肤科为例,训练数据中深色肤色的样本不足会导致AI对深肤色患者皮肤病诊断准确率降低;在肝移植领域,忽略性别差异的MELD(Model for End-Stage Liver Disease)评分系统会因肌酐参考值设置不合理而低估女性患者的肾功能障碍,降低其获得肝移植的机会。这些案例凸显了医疗AI公平性研究的紧迫性和重要性。尽管已有大量关于AI公平性的讨论,但技术解决方案与临床应用之间仍存在显著脱节,缺乏对医疗场景特异性的深入考量。
新加坡杜克-国立大学医学院的Mingxuan Liu和Yilin Ning等研究人员在《npj Digital Medicine》发表了一项开创性研究。通过对5个数据库的11,133篇文献进行系统筛选,最终纳入467项研究进行证据缺口分析。研究团队开发了一套完整的分类框架,将公平性技术分为群体公平性(Group fairness)、个体公平性(Individual fairness)和分布公平性(Distribution fairness)三大类,并细分为预处理(Pre-process)、处理中(In-process)和后处理(Post-process)三种干预策略。
研究采用了系统范围综述方法,严格遵循PRISMA-ScR指南。团队从MEDLINE等5个数据库中筛选文献,通过多轮独立评审最终确定纳入分析的研究。采用标准化数据提取表格记录每项研究的医学领域、数据类型、偏倚相关属性(Bias-relevant attributes)、公平性指标和缓解方法等关键信息。特别关注了公开数据集的使用情况、算法类型与公平性方法的关联,以及临床医生参与(Clinician-in-the-loop)的程度等维度。
医学领域与医疗数据:现状概览
研究发现AI公平性研究在不同医学领域分布极不均衡。如图2所示,健康信息学与政策、癌症和放射学等领域研究较多,而耳鼻喉科、家庭医学和免疫学等领域的相关研究不足5项。表格静态数据(51.2%)和图像数据(31.0%)是最常用的数据类型,66%的研究仅使用公开数据集。MIMIC-III/IV、MEPS和ISIC等公开数据集被频繁使用,但大多数数据集(226/241)仅在不超过5项研究中出现。
偏倚相关属性:模式与偏斜
种族/民族(55.9%)、性别/生理性别(51.6%)和年龄(30.2%)是最常研究的偏倚相关属性。社会经济地位、肤色和地理位置等属性也有涉及,但关注度较低。值得注意的是,32项研究未明确说明偏倚相关属性,部分研究使用符号化表示而非实际临床属性。
偏倚识别
57.2%的研究将偏倚识别作为偏倚缓解的前置步骤,主要采用文献证据、探索性数据分析和模型比较等方法。数据偏倚常通过类别不平衡和少数群体代表性不足来量化。13.3%的研究明确提及是否将偏倚相关属性作为预测因子,传统机器学习模型比深度学习模型更常说明这一点。
偏倚评估指标
群体公平性(93.1%)占据绝对主导,其中基于性能(79.5%)和基于均衡(30.8%)的指标最为常见。个体公平性(4.3%)和分布公平性(3.9%)研究较少。图像或视频研究主要依赖基于性能的指标,而表格静态数据研究则更常使用基于均衡的指标。校准性能(Calibration performance)很少被考虑(3.2%),这可能导致模型预测概率与实际结果不匹配。
偏倚缓解
在尝试缓解偏倚的267项研究中,处理中方法(65.9%)最受欢迎,其次是预处理(36.0%)和后处理方法(11.6%)。对抗学习(Adversarial learning)常被用于开发公平的深度学习模型。涉及生成式AI(GenAI)和大语言模型(LLM)的研究很少阐明偏倚相关属性与其他变量的关系。
临床AI公平性的新兴主题
41项研究使用可解释AI(XAI)增强公平性评估,32项利用XAI探索偏倚路径。33项研究涉及临床医生参与,主要发挥评估验证(16)、决策支持实验(12)和监督(5)三种作用。21项研究采用联邦学习(FL)促进跨机构协作,其中13项关注参与者间的数量公平性。
这项研究揭示了临床AI公平性领域的五大关键挑战:跨医学领域研究不足、偏倚相关属性考虑局限、个体公平性关注欠缺、分布公平性探索不足,以及临床场景融入不够。针对这些挑战,研究提出了建立医学领域专用数据集、精确界定偏倚相关属性、开发个体公平性指标、设计激励兼容的联邦学习框架,以及加强临床专家早期参与等解决方案。
该研究的创新价值体现在三个方面:首次系统评估了临床AI公平性研究的整体格局;开发了适用于医疗场景的公平性分类框架;提出了可操作的跨学科协作路线图。这些发现为医疗AI的伦理整合提供了重要指导,将推动健康公平从理论探讨向临床实践转化。
值得注意的是,研究也存在一些局限,如部分医疗数据集引用模糊、医学领域分类可能不完全匹配全球标准,以及仅纳入英文文献可能遗漏某些健康差异视角。未来研究需要更多国际合作,开发 culturally-sensitive 的公平性评估工具,并探索非技术性干预(如临床路径优化)对促进健康公平的作用。这项研究为构建真正公平、可信赖的医疗AI生态系统奠定了重要基础。
生物通微信公众号
知名企业招聘