主观肤色评估的有效性研究:对医疗AI模型公平性的挑战与启示

【字体: 时间:2025年10月04日 来源:npj Digital Medicine 15.1

编辑推荐:

  本刊推荐:为解决医疗算法(如脉搏血氧仪)公平性评估中缺乏标准化肤色量表验证的问题,研究人员开展了一项前瞻性研究,比较Fitzpatrick和Monk两种主观肤色量表的评估者间一致性及与患者自评的差异。结果显示评估者间一致性仅为中等(ICC=0.64-0.66),且评估者倾向于将自评深肤色的患者评分调浅(β=-0.823, p<0.001),凸显主观肤色评估存在系统性偏差,对医疗AI公平性评估的可靠性提出重要质疑。

  
在数字化医疗快速发展的今天,基于人工智能(AI)的预测模型日益广泛应用于临床决策支持系统。然而这些算法可能隐藏着令人担忧的偏见——脉搏血氧仪在深肤色患者中会高估血氧饱和度,导致临床干预延迟和死亡率上升;皮肤病变检测模型在训练数据中缺乏深肤色代表样本,造成黑色素瘤诊断准确率下降。这些现象暴露出医疗AI领域存在的严重公平性问题。
要评估算法偏差,首先需要准确测量皮肤色调。目前最常用的Fitzpatrick量表最初是为评估紫外线敏感性而设计,并非专门用于肤色分类;新兴的Monk量表虽声称更具包容性,但缺乏充分验证。更客观的黑色素测量方法如反射分光光度法虽准确,却难以大规模应用。这种困境使得主观肤色评估成为当前医疗算法公平性评估的主要手段,但其可靠性和有效性一直存疑。
为此,研究团队开展了一项创新性研究,成果发表在《npj Digital Medicine》。该研究通过系统分析三种面部区域(前额、左右面颊)的810张图像数据,比较三位独立评估者使用Fitzpatrick(I-VI级)和Monk(1-10级)量表的评分一致性,并与90名住院患者的自评结果进行对比。研究发现虽然评估者内部信度很高(Cronbach's α=0.88-0.93),但评估者间一致性仅为中等水平(ICC=0.64-0.66)。更重要的是,评估者与患者自评之间存在显著差异:评估者系统性地将自报深肤色的患者评分调浅(β=-0.823, p<0.001),而将自报浅肤色的评分调深,且这种差异因面部位置和评估者置信度而异。这些发现对当前依赖主观肤色评估的医疗算法公平性验证方法提出了根本性质疑。
研究采用了几项关键技术方法:使用多相机阵列采集住院患者面部图像,通过RetinaFace进行面部检测和区域裁剪;设计专用图形用户界面(GUI)实现三重复随机化评估;采用组内相关系数(ICC)、加权Cohen's Kappa、Kendall's W和Krippendorff's alpha等多重统计方法评估一致性;建立混合线性模型控制面部区域和评估者置信度混杂因素。样本来自旧金山VA医疗中心接受手术的成年患者队列。
研究结果
样本特征
研究纳入90名参与者(中位年龄72岁,77%为男性),种族构成包括白人(48%)、非洲裔/黑人(10%)、西班牙裔/拉丁裔(15.6%)及其他群体(26.3%)。大多数患者自评为Fitzpatrick II型和Monk 4型。
评估者内部可靠性
Cronbach's alpha值显示评估者内部可靠性较高——Fitzpatrick量表为0.88-0.92,Monk量表为0.88-0.93,表明个体评估者自身评分具有高度一致性。
评估者间一致性
评估者间一致性分析显示:ICC[2,k]值Fitzpatrick为0.66(95%CI[0.02-0.87]),Monk为0.64(95%CI[0.02-0.85]);加权Cohen's Kappa在评估者两两比较中波动较大(0.29-0.64);Kendall's W显示评估者在患者相对排序上一致性较高(0.85-0.90);Krippendorff's alpha值为0.41,表明绝对一致性仅属中等。
评估者与患者主观评分比较
配对t检验显示评估者共识分数与患者自评分存在显著差异(p<0.001)。Spearman相关性显示评估者共识与自评分差异与自评分值呈强负相关(-0.82至-0.84),表明患者倾向于使用量表极端值,而评估者偏好中间值。
混合线性模型证实:较高的自报分数(较深肤色)与较低的评估者分数显著相关(Fitzpatrick: β=-0.727, p<0.001; Monk: β=-0.823, p<0.001);评估者置信度水平4.0和5.0与较高评分显著相关;右面颊位置相比前额获得较高评分。
研究结论与意义
本研究揭示了主观肤色评估中存在的系统性偏差:尽管评估者内部一致性较高,但评估者间一致性仅为中等,且评估者与患者自评之间存在显著差异。这种差异表现为患者倾向于使用量表极端值而评估者偏好中间值的“中心趋势偏差”,以及评估者系统性地调浅自报深肤色、调深自报浅肤色的评分模式。
这些发现对医疗AI公平性评估具有重要启示:首先,当前依赖主观肤色量表(如Fitzpatrick和Monk)的算法公平性验证方法可能存在根本缺陷,因为评估者间不一致性和系统性偏差会传导至算法偏差评估中;其次,在脉搏血氧仪准确性评估等关键应用场景中,主观肤色评估的不可靠性可能导致对设备性能的错误结论,进而影响医疗资源分配的公平性;最后,在皮肤病学领域,不准确的肤色分类可能加剧深肤色患者诊疗中的结构性不平等。
研究建议未来应采取更客观的肤色测量方法(如分光光度法),在使用观察者量表时评估多个解剖区域并增加评估者数量以提高信度。同时,需要开发更可靠的肤色评估标准和方法,以确保医疗AI算法真正实现公平和包容。
该研究由Julien Cobert团队完成,作者来自塔夫茨大学医学院、加州大学伯克利分校、布莱根妇女医院等多家机构,研究得到了UCSF诺伊斯数字转化计划、Hellman学者基金会等多个基金支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号