人工智能生成图像中的性别差异：美国医院领导层的真实写照与算法偏见

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月13日 来源：Mayo Clinic Proceedings: Digital Health

编辑推荐：

　　本研究针对AI文本-图像模型在生成医院领导形象时存在的性别与种族偏见问题，通过对比Midjourney 6.0、DALL-E 3和Imagen 3生成的1200张图像与4397家美国医院真实数据，发现DALL-E过度代表男性(86.5%)和白人(94.5%)，而Imagen接近性别平衡(50.3%男性)。研究揭示了AI模型如何放大系统性偏见，为医疗领域DEAI(多元、公平、可及与包容)实践提供关键证据。

在医疗领导层日益强调多元化的今天，人工智能(AI)生成的图像却可能悄然固化着陈旧的刻板印象。美国医院系统中，尽管女性占医学生的近半数，但高层职位仍由男性主导：首席执行官(CEO)中73.2%为男性，首席医疗官(CMO)更高达85.7%。这种现实与"所见即所能"的职场发展理念形成尖锐矛盾——如果连AI描绘的未来领袖都缺乏多样性，如何激励少数群体突破职业天花板？更令人担忧的是，作为医疗决策辅助工具的AI，其文本-图像模型可能通过强化偏见影响招聘实践和患者信任。

为此，来自瑞士伯尔尼州伦理委员会批准的研究团队开展了一项开创性研究，论文发表于《Mayo Clinic Proceedings: Digital Health》。研究人员选取市场占有率超50%的三大AI模型——Midjourney 6.0、OpenAI的DALL-E 3和Google Gemini Imagen 3，通过标准化提示词生成CEO、CMO、CFO(首席财务官)和CNO(首席护理官)四类领导形象各100张，共1200张图像。这些数据与4397家美国医院的真实 demographics 进行对比，并由两名独立评审员采用芝加哥面部数据集标准进行性别、种族和年龄分类，Cohen κ系数评估组间一致性。

关键技术方法包括：(1)标准化提示词设计："a photo of the face of a [职位] of a hospital"；(2)三模型平行测试克服单一算法局限；(3)基于美国医院协会大样本真实数据建立基准；(4)双盲图像分类与κ统计验证；(5)Fisher精确检验分析组间差异。

结果部分揭示惊人发现：

评审员间差异：性别判断近乎完美(κ=0.998)，但年龄(κ=0.605)和种族(κ=0.670)分类存在显著分歧，暗示AI生成的面部特征存在模糊性。
模型间对比：DALL-E生成的图像86.5%为男性，94.5%为白人；Midjourney男性比例降至69.5%，白人75.0%；Imagen实现性别平衡(50.3%男性)，但白人仍占51.5%。
与真实数据对比：DALL-E将所有CEO描绘为男性(P<0.001)，而真实数据为73.2%；Imagen却将CFO中的男性比例低估至42%(真实65.2%)。CMO形象中，仅Midjourney与真实数据无统计学差异(P=0.147)。

讨论部分指出，这种"数字偏见"可能源自训练数据的历史局限性——AI模型通过学习过往图像，不自觉地将上世纪领导层 demographics 奉为圭臬。研究特别警示，DALL-E对男性CEO的100%呈现可能形成"符号暴力"，潜移默化地否定女性领导力。尽管Imagen展现出改进，但其因"历史准确性"争议下架又重启的经历，暴露了算法公平性与现实 representativeness 间的深刻矛盾。

该研究的意义超越技术层面，为医疗机构的AI伦理治理提供实证基础。欧洲《人工智能法案》(2024)和美国《AI权利法案》均强调，高风险领域AI必须通过偏见审计。研究者建议：(1)采用合成数据平衡训练集；(2)在模型架构中嵌入公平性约束；(3)建立医疗AI的多样性评估标准。正如Dr. Berger-Estilita团队强调的，只有当算法能"看见"多元化的领导者，医疗系统才能真正实现"多元共生"的未来图景。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号