
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:什么是公平?定义健康机器学习中的公平性
【字体: 大 中 小 】 时间:2025年09月18日 来源:Statistics in Medicine 1.8
编辑推荐:
本综述深入探讨了机器学习(ML)在健康领域应用中的公平性(Fairness)概念,系统阐述了导致模型不公平的多种偏差(Bias)来源,并全面梳理了群体公平性(Group Fairness)、个体公平性(Individual Fairness)和因果公平性(Causal Fairness)三大框架下的主流定义与评估指标(如统计平价、机会均等、充分性等)。文章强调,在临床决策支持系统(CDSS)、电子健康记录(EHR)分析、医学影像诊断等应用场景中,操作化公平性仍是一个开放性的挑战,并指出了未来在健康领域实现公平ML的研究方向。
即使研究问题定义明确且意图良好,机器学习模型仍可能因数据、模型本身或模型部署过程中的偏差而变得不公平。偏差主要分为三类:数据中的偏差、模型中的偏差以及部署中的偏差。
数据偏差源于社会性和统计性两方面。社会性偏差指数据反映了长期存在的社会差异,例如,临床词嵌入模型在大型文本语料库(如医疗系统的临床笔记)上训练后,会反映出关于少数族裔的偏见。统计性偏差则指数据因抽样方法(选择偏差)、收集时间(时间偏差)或数据质量问题(如缺失数据偏差、测量偏差和少数群体偏差)而无法代表目标人群。例如,来自可穿戴设备的数据不能反映一般人群,因为使用率在年轻人和较高社会经济地位的个体中更高。
模型偏差是指在模型训练和评估阶段,选择不恰当的标签(标签偏差)、模型(算法偏差)或评估指标/数据集(评估偏差)会放大数据中的偏差或引入新的偏差。一个著名的例子是,一个广泛使用的商业风险预测工具使用医疗成本作为医疗需求的代理指标,导致黑人患者被显著低估了护理服务需求。
部署偏差则发生在用户选择性地忽略(驳回偏差)或过度信任(自动化偏差)模型输出时,或者模型无法被某些亚人群获取(特权偏差)时。例如,机器学习辅助的诊断成像需要医院拥有必要的设备,但加拿大农村地区的急诊科很少有内置的CT扫描仪来利用这些先进技术。
现有的公平性定义主要分为三类:群体公平性、个体公平性和因果公平性。
群体公平性标准要求机器学习模型在由受保护属性(如年龄、种族)定义的群体中表现相似,是最常用于健康领域的框架。这些标准主要分为独立性(Independence)、分离性(Separation)和充分性(Sufficiency)三类。独立性要求模型的决策不依赖于受保护属性,例如统计平价要求模型将个体分类为正类的比率在每个群体中相同。分离性要求模型在正类和负类中的决策不依赖于受保护属性,例如机会均等要求假阴性率(FNR)在不同群体间相等,而均等化几率则要求假阴性率和假阳性率(FPR)都相等。充分性旨在使具有相似决策的个体间的错误率相等,例如预测奇偶性要求阳性预测值(PPV)在不同群体间相同。
重要的是,许多公平性标准是不相容的,除了在高度限制性的条件下,算法不可能同时满足所有标准。例如,独立性和充分性、独立性和分离性、以及分离性和充分性这些配对的标准通常无法同时满足。
个体公平性确保“类似病例得到类似处理”,这源于亚里士多德的正义概念。公平通过意识(FTA)是个体公平性的一个基础概念,它依赖于相似性度量来量化个体之间的距离,并确保相似个体获得相似预测。与之相对的方法是公平通过无意识(FTU),旨在通过不在模型中明确包含受保护属性来防止偏见。然而,在健康应用中,FTU需要仔细考虑,因为受保护属性可能是结果的关键预测因子,简单地移除它们可能降低整体预测准确性,或者由于与其他属性的高度相关性,模型仍可能推断出它们。
因果公平性通常关注理解受保护属性与模型决策之间的因果关系,是基于反事实的公平概念。反事实公平认为,如果一个模型在受保护属性被反事实改变而所有其他变量保持不变的情况下,对于给定个体,预测结果的分布保持不变,那么该模型是公平的。这种方法在健康应用中特别有价值,因为它能够解开偏见的机制,尽管指定可靠的因果模型可能具有挑战性。
尽管在认识到偏见的重要性以及在健康应用中应用群体、个体和因果基础标准方面取得了实质性进展,但如何在量化和减轻机器学习在健康中的偏见方面达成共识仍然缺乏。每个框架都有其独特的优势和挑战。群体公平标准相对易于实施和解释,但受到潜在的个体公平违规以及不同标准之间存在的不兼容性的限制。个体公平标准优先考虑类似个体的类似结果以增强决策公平性,但可能掩盖群体层面的差异并使某些人群得不到充分服务。因果公平性使研究人员能够调查不公平的来源,为公平决策提供信息,但与群体和个体公平相比,它在机器学习健康中的应用尤其未被充分探索。
在实践中,平衡不同的公平框架需要权衡群体层面的公平、个体层面的考虑和因果理解的好处。因此,建议研究人员了解全面的可用公平方法,并在跨学科团队(例如数据科学家、临床医生、伦理学家、社会科学家)内进行合作,以做出适合情境的决策。此外,健康数据呈现了固有且独特的挑战,使得准确衡量公平性变得困难甚至不可能。大多数现有的公平定义是在健康背景之外开发的,可能无法充分捕捉健康相关环境中出现的偏见形式。未来的方法工作必须承认“多重考虑,从隐私保护、情境敏感性和过程公平性,到对社会技术影响的认识以及包容性和参与性研究过程日益重要的作用”。
生物通微信公众号
知名企业招聘