基于代理建模的公平性评估:解决受保护成员属性缺失问题的新方法

《ACM Transactions on Evolutionary Learning and Optimization》:Surrogate Modeling to Address the Absence of Protected Membership Attributes in Fairness Evaluation

【字体: 时间:2025年11月07日 来源:ACM Transactions on Evolutionary Learning and Optimization

编辑推荐:

  本文针对AI模型公平性评估中受保护成员属性缺失的关键问题,提出了一种创新的代理建模(Surrogate Modeling)方法。作者系统阐述了概率成员问题(PMP),通过利用代理组别信息(如邮政编码)提供的保护组成员似然值,开发了基于加权普通最小二乘法(WOLS)的推断度量(inferred metrics)来替代传统二元公平性指标。研究通过住房抵押贷款披露法案(HMDA)数据和模拟基准测试验证了该方法在统计奇偶性(Statistical Parity)、均等机会(Equal Opportunity)等核心指标上的有效性,并与基于模型预测的现有方法进行了对比分析,证明了其避免个体层面预测偏差的优越性。文章最后提供了开源软件实现和关于代理变量特征、样本量等的实践指导,为在隐私约束下进行可靠的算法公平性评估提供了重要工具。

  
引言:算法公平性评估的挑战与机遇
随着算法决策变得无处不在,确保人工智能(AI)模型对所有群体(包括弱势群体)都能良好运行的公平性评估已成为负责任AI(Responsible AI)的基石。然而,所有标准的公平性度量都有一个共同的前提:必须已知个体的群体成员身份。遗憾的是,在许多实际场景中,关于种族、宗教、性别等受法律保护的敏感信息往往难以获取、有限,甚至因隐私法规限制而无法收集。这导致大多数常见的公平性度量在实际应用中无效。本文正是在这样的背景下,致力于解决当受保护成员属性缺失时,如何进行有效的公平性评估这一关键问题。
概率成员问题(PMP)的定义与阐释
研究首先明确了核心问题——概率成员问题(PMP)。考虑一个总体X,其个体x根据受保护成员属性A被划分为两个队列:受保护队列X??和非保护队列X。在实践中,由于隐私等原因,每个个体的受保护信息是未知的。PMP的巧妙之处在于引入了一个代理分组变量Z(例如邮政编码)。关键假设是:个体属于某个代理组z(如x ∈ z)这一事实,揭示了其属于受保护队列的概率Pz(x ∈ X??)。每个个体恰好属于一个代理组。PMP的目标是,在给定模型度量m(如统计奇偶性、真正例率TPR、假正例率FPR)的情况下,估计受保护队列与非保护队列之间的模型度量差异,即m(X??) - m(X),尽管个体的受保护属性未知。
一个生动的例子是信贷贷款违约预测。假设受保护属性A是种族(白人与非白人)。由于隐私限制,贷款机构无法获取申请人的种族信息。此时,邮政编码Z可以作为代理变量,因为通过美国人口普查数据等公开信息,可以获知不同邮政编码区域内白人与非白人的比例(即Pz(x ∈ X??))。PMP的目标就是利用这种代理邮政编码信息,来评估贷款审批模型在不同种族队列间的公平性。
利用代理成员身份解决PMP:理论与方法
为了解决PMP,研究团队将模型度量m的差异估计问题转化为一个线性回归问题。核心思路是:对于每个代理组z,其模型度量mz可以近似表示为受保护队列和非保护队列模型度量的线性组合,权重即为该组内属于各队列的概率。通过数学变换,可以得到一个线性回归方程:
mz = β0 + β1 Pz(x ∈ X??) + ez
其中,β0 = m(X),而至关重要的β1 = m(X??) - m(X),它恰好捕捉了两个队列间模型度量的差异,即我们寻求的公平性 disparity。
由于实践中无法观测整个总体,度量mz存在误差ez。为了获得β0和β1的最佳估计,研究采用了加权普通最小二乘法(WOLS)而非普通最小二乘法(OLS)。这是因为误差ez的方差在不同代理组z间可能不恒定(异方差性)。WOLS为每个代理组z赋予权重,权重即为该组的观测个体数量nz。在高斯-马尔可夫定理的假设下(误差期望为零、独立同分布),WOLS估计量是无偏且具有最小方差的。此外,为了解决概率函数期望值可能存在的偏差问题,研究还采用了自助法(Bootstrap)来产生更稳健的估计。
从PMP到公平性评估:核心指标的应用
许多常见的公平性度量都可以表示为算术平均,从而适用于上述推断度量方法。研究重点考察了四个标准指标:
  1. 1.1.
    统计奇偶性(Statistical Parity):受保护组与非保护组被预测为正例的概率之差。
  2. 2.2.
    均等机会(Equal Opportunity):受保护组与非保护组的真正例率(TPR)之差。
  3. 3.3.
    预测均等性(Predictive Equality):受保护组与非保护组的假正例率(FPR)之差。
  4. 4.4.
    平均几率差(Average Odds):(均等机会 + 预测均等性) / 2。
这些指标的计算最终都可归结为指示函数(Indicator Function)的算术平均。例如,统计奇偶性中,P(ML(x)=1 | x∈X??) 可以表示为组X??中所有个体指示函数ML(x)=1的算术平均。这一特性使得利用代理成员信息进行推断成为可能。
实验验证:效果、鲁棒性与方法对比
研究通过三组实验验证了所提方法的有效性。
首先,在真实数据集HMDA上,将推断度量与“预言机”(Oracle,即使用真实种族信息计算的标准度量)进行对比。结果表明,对于决策树和逻辑回归两种模型,推断度量得到的四个公平性指标值与预言机结果非常接近,绝对差异较小,证明了该方法在实际应用中的可行性。
其次,为了在受控环境下检验方法在不同公平性场景下的鲁棒性,研究进行了大规模的模拟基准测试。模拟设置了从“公平”到“极度不公平”五种场景,通过控制受保护组和非保护组的假正例率(FPR)、假负例率(FNR)和正例率来模拟不同水平的模型偏差。结果显示,在所有场景和所有公平性指标上,推断度量都紧密地跟踪着预言机的值,标准差很低,证明了该方法对各种不公平程度的稳健性。
第三,研究将推断度量与现有的基于模型预测成员身份的方法进行了对比分析。后者需要先训练一个模型来预测个体的受保护属性,然后将预测值当作真实值来计算公平性指标。研究从理论上证明,基于模型的方法估计出的公平性统计量(如统计奇偶性)会偏向于0,其偏差程度直接取决于预测模型的阳性预测值(PPV)和阴性预测值(NPV)。当预测模型存在误分类时,计算出的模型偏差会被低估。模拟结果直观地显示了推断度量的无偏性,而模型基估计量则表现出明显的向零的偏差。
实践考量与开源实现
文章深入探讨了实际应用中的关键问题。首先是遗漏变量偏差(Omitted Variable Bias),即存在某个变量C同时与代理变量Z和模型度量m相关,这可能导致推断度量出现偏差。潜在的解决方案包括将相关变量加入模型,或采用双重稳健机器学习(Doubly Robust Machine Learning)等更先进的估计方法。
其次,代理变量Z的特性至关重要。基于广泛的模拟,研究提出了实用建议:代理变量Z应至少拥有100个组别(水平),300个以上更佳;每个组内应至少包含5个个体,20个以上更佳。样本量过小会导致估计失败率高或标准误过大。此外,代理组概率Pz(x ∈ X??)的分布也应具有足够的变异性,避免集中在极端值或0.5附近,以确保回归拟合效果。
为了方便研究者和实践者,团队将方法实现在开源库Jurity中,提供了高级接口,支持概率公平性评估、多类公平性度量、偏见缓解等多种功能。
结论:推动隐私约束下的算法公平性评估
本研究通过引入概率成员问题(PMP)和创新的代理建模方法,有效地解决了受保护成员属性缺失这一制约算法公平性评估实践的关键瓶颈。理论推导和大量实验表明,所提出的推断度量方法能够在不尝试预测个体受保护属性的前提下,可靠地估计模型在不同群体间的性能差异,其性能优于依赖个体属性预测的现有方法。这项工作将公平性评估的范围扩展到了以往无法进行测试的场景,为在严格遵守隐私法规的前提下确保算法决策的公平性提供了有力的理论和实践工具,对推动负责任AI的发展具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号