在线媒体与大语言模型中的年龄与性别扭曲:算法如何放大社会偏见
【字体:
大
中
小
】
时间:2025年10月10日
来源:Nature 48.5
编辑推荐:
本研究针对网络媒体与大语言模型(Large Language Models)中普遍存在的年龄-性别偏见问题,通过多模态数据分析与预注册实验,揭示了女性在职业描绘中被系统性地年轻化呈现的现象。研究人员分析了来自Google、Wikipedia、IMDb等平台的近140万张图片及视频数据,并结合GPT-2 Large等9个大语言模型,发现这种扭曲在高地位职业中尤为显著。实验证明Google图像搜索会强化用户的年龄性别偏见,而ChatGPT在简历生成中默认女性更年轻且经验不足。该研究为理解算法如何放大社会不平等提供了重要证据,对开发更公平的AI系统具有关键意义。
在数字时代,互联网媒体和人工智能算法正在重塑我们对社会的认知。然而,这些技术是否准确反映了现实,还是无形中放大和固化了社会偏见?关于刻板印象准确性的争论持续已久——它们究竟是对社会群体的客观观察,还是被社会扭曲的认知?这个问题的解答一直受限于缺乏大规模多模态数据来衡量刻板印象关联,以及无法将这些关联与真实指标进行比较。斯坦福大学商学院的Douglas Guilbeault、加州大学伯克利分校的Solene Delecourt以及牛津互联网研究所的Bhargav Srinivasa Desikan合作开展了一项突破性研究,他们选择以年龄相关性别偏见为切入点,因为年龄为评估刻板印象准确性提供了一个客观锚点。尽管美国人口普查数据显示劳动力市场中女性和男性的年龄没有系统性差异,但研究人员发现,在来自Google、Wikipedia、IMDb、Flickr和YouTube的近140万张图片和视频中,以及九个基于互联网数十亿单词训练的大语言模型中,女性在各个职业和社会角色中都表现为比男性更年轻。这种年龄差距在描绘更高地位和收入的职业内容中最为明显。研究人员证明了主流算法如何放大这种偏见:一项全国代表性预注册实验(n=459)发现,通过Google搜索职业图像会放大参与者信念和招聘偏好中的年龄相关性别偏见。更令人担忧的是,在生成和评估简历时,ChatGPT假定女性更年轻且经验不足,将年长男性申请者评为更高质量。这项研究揭示了性别和年龄如何在互联网及其中介算法中被联合扭曲,从而揭示了对抗不平等的关键挑战和机遇。研究方法上,团队采用了多平台大规模数据采集与分析技术,包括从Google、Wikipedia等平台获取的超过130万张图像数据,使用OpenCV深度学习模块进行面部提取,并通过亚马逊Mechanical Turk平台招募6,392名人类编码员进行性别和年龄标注。同时,研究还分析了IMDb-Wiki数据集和CACD数据集中的真实年龄数据,以及UTK、Adience和LFW等机器学习训练数据集。在文本分析方面,团队运用词嵌入模型和“文化几何”方法,在GPT-2 Large等语言模型中提取年龄与性别维度关联。实验部分则通过Prolific平台招募全国代表性美国样本进行Google图像搜索实验,并使用定制化提示语对ChatGPT进行简历生成与评估审计。研究人员发现,跨越五个流行在线平台的所有图像数据集中,女性持续被表现为比男性更年轻,无论面部年龄和性别是通过人类判断、机器学习还是真实数据测量的。对Google搜索引擎中与3,495个社会类别相关的657,035张图像的分析显示,女性被编码为显著更年轻——在非性别化搜索中平均年龄组差异为0.37(P=2.2×10-16),在性别化搜索中差异为0.29(P=2.2×10-16)。在Wikipedia图像中,女性同样被编码为显著更年轻(Mdiff=0.71; P=2.2×10-16)。这些结果在不同国家收集的Google图像中保持稳健,并且在对编码者人口特征、社会类别的语言特征、图像的视觉特征以及裁剪算法统计偏差进行控制后仍然成立。对2018年IMDb-Wiki数据集和2014年CACD数据集的分析进一步证实了这一现象。女性名人平均比男性年轻6.5岁(IMDb)和5.35岁(Google图像)。在所有情况下,女性最常见(众数)年龄是20多岁,而男性在IMDb和Google图像中最常见年龄分别是40岁和50岁。在用于训练机器学习算法的著名图像数据集中,女性被自动分类为显著更年轻:UTK数据集中年轻5.12岁,Adience数据集中年轻0.18岁,LFW数据集中年轻0.84岁(所有P值均达显著水平)。在线视频分析也支持这一理论。YouTube Faces数据集中,女性看起来显著更年轻(Mdiff=0.87; P=2.2×10-16)。CelebV-HQ数据集中,仅20%的男性被分类为年轻,而女性比例为33%,表明女性的年轻呈现率显著更高。研究人员将在线图像与可用的行业级真实数据进行比较,以衡量网络图像在多大程度上扭曲了底层的社人口现实。虽然Google图像与人口普查数据在行业层面的性别-年龄关联相关(r=0.13),但Google图像持续显示夸张且在有些情况下逆转的趋势,持续放大了女性与年轻之间的关联。在销售、资源和管理行业,Google图像呈现的年龄差距相对于所有人口普查年份最高(P<0.001)。在销售行业,Google图像将男性表现为比女性年长,而在检查的所有人口普查年份中,女性实际上比男性年长;在资源行业,两年份中也存在类似情况。在生产和服务行业,Google图像捕获的年龄差距幅度并不高于所有人口普查年份;然而,将男性表现为更年长的偏见是稳定的。在每个人口普查年份,女性在这些行业中都比男性年长。只有在Google图像中,男性在这些行业中比女性年长,表明存在系统性的年龄和性别扭曲,将女性与年轻关联。考虑到这些分析的观察性和大规模性质,识别驱动这些年龄-性别关联的机制具有挑战性。然而,数据中的众多模式与社会学相关因素有关。一个考虑因素涉及性别刻板印象在高地位和声望职业中最为突出的假设,这些职业在强化性别期望和合意性规范方面发挥突出作用。通过全国代表性美国样本(n=1,002)对867个职业的地位和声望评估显示,被评为更高地位的职业更可能引发Google图像中男性比女性年长的情况(r=0.08; P=2.2×10-16)。使用美国劳工统计局的职业声望客观测量也复制了这一相关性(r=0.11; P=0.01)。男性在Google图像中表现为更年长的概率对于与较高中位收入相关的职业显著更高(r=0.11; P=1.07×10-13)。性别薪酬差距,即男性在同一职业中比女性多赚的程度,与数字年龄差距相关,即男性在Google图像中比女性显得更年长的程度(r=0.04; P=0.002)。研究人员发现,可比显著的年龄相关性别偏见模式在视觉模态之外的大量互联网文本数据中也很容易观察到。对GPT-2 Large的分析显示,其表征表现出强烈的相关性:社会类别与男性的关联程度越高,与较老年龄的关联也越强(r=0.87; P=2.2×10-16)。这些结果对提取年龄和性别关联的替代方法以及一系列统计控制均保持稳健。这些关联显著预测了人口普查中按性别和职业划分的真实年龄分布,证实了它们的经验一致性。这些结果并非GPT-2 Large独有,研究人员在八个不同的经典和流行语言模型中复制了这些模式,这些模型在训练数据和算法训练方法上各不相同。在线图像、视频和文本跨流行平台中年龄-性别关联的系统性扭曲引发了人们对基于这些数据训练的主流算法可能如何放大这种偏见传播的担忧。通过预注册实验,研究人员发现接触Google搜索引擎的视觉内容会放大人们信念中的年龄相关性别偏见。上传女性图像使参与者对每个职业的平均年龄估计比控制条件参与者低1.75年(t=-11.32; P=2.2×10-16),而上传男性图像使参与者估计的年龄比控制条件高0.64年(t=3.42; P=0.0006)。控制条件分析显示,相信女性最可能属于给定职业的控制参与者估计该职业人员的平均年龄显著更年轻(年轻2.15年),证明了人们判断中年龄相关性别偏见的基线模式。然而,处理条件中的年龄差距甚至更高——上传女性图像的处理条件参与者报告估计的职业年龄比已经认为该职业偏向女性的控制参与者更年轻(在控制具体职业和参与者 idiosyncratic判断后,β[性别×条件]=-0.84; P=0.007)。实验分析结论显示,与女性(男性)更相关的职业与参与者报告的较低(较高)理想招聘年龄显著相关。控制参与者的感知理想招聘年龄与每个职业与男性的关联程度强烈正相关——无论是通过控制参与者的手动性别评级测量(r=0.58; P=3.52×10-6),还是通过处理条件参与者上传图像中的性别关联测量(r=0.45; P=0.0006)。由于流行的人工智能工具如ChatGPT在互联网数据上训练,研究人员进一步提出ChatGPT将在职业的专业文本表征和评估中表现出显著的基于年龄的性别偏见。通过简历生成实验,研究人员发现当ChatGPT为女性姓名生成简历时,生成的简历年龄显著低1.6岁(t=20.5; P=7.09×10-93),毕业日期更近1.3年(t=12.5; P=1.18×10-35),相关经验年数少0.92年(t=5.39; P=6.97×10-8)。这些基于年龄的性别偏见模式在控制性别条件中得到复制——当ChatGPT为给定简历生成男性申请人时,该申请人更可能年长1.3岁(t=17.3; P=2.2×10-16),毕业更早(t=12.5; P=2.2×10-16)。对简历质量的评估显示,ChatGPT对简历质量的判断与申请人年龄显著正相关(r=0.27; P=2.2×10-16)。线性回归发现男性与较老年龄之间存在显著正交互作用,表明较老年龄对ChatGPT简历质量判断的好处如果申请人是男性而非女性则更大(β[男性×年龄]=0.04; t=6.61; P=3.66×10-11)。这项研究提供了大规模证据,表明年龄相关性别偏见普遍存在于在线媒体中,包括主要平台的图像、视频和文本,并且将女性表现为更年轻的偏见扭曲了关于社会女性和男性实际年龄的真实现实。研究结果对互联网上年龄相关性别偏见的算法放大敲响了警钟,特别是考虑到许多主流机器学习算法在这些公共数据集上训练。本研究检查的许多图像和文本数据集被广泛用作开发人工智能应用程序的典型训练和基准数据集。潜伏在流行机器学习工具中的潜在社会偏见可能造成巨大伤害,而算法偏见通常源于受污染的训练数据。年龄-性别关联的数字扭曲可能通过多种关键方式对女性和男性产生负面影响。例如,在生成简历时,ChatGPT不仅假定女性更年轻,而且认为她们整体经验更少。因此,ChatGPT偏向给年轻女性简历的分数低于年长女性,同时给年长男性最高分数。然而,ChatGPT也给年轻女性的分数高于年轻男性,表明年轻男性可能也受到这种双重偏见的不利影响。偏爱年轻女性和年长男性的选择偏见可能在系统层面进一步强化性别不平等——女性被优先招聘到地位和权威较低的角色中但被拒绝流动性,而年长男性继续享受高层职位。未来研究的关键方向是调查年龄相关性别偏见如何渗透和传播到不同平台的图像、视频和文本中的因果机制,每个平台都有其独特的受众和分发渠道。关于娱乐媒体中名人的客观年龄差异的结果可能反映了与地位动态、招聘偏见和女性物化相关的行业特定机制。然而,这些行业特定驱动因素无法解释女性和年轻在来自不同来源的大量在线文本中的语义关联强度,更不用说在ChatGPT的基于文本的表征和职位候选人排名中了。一个引人入胜的问题是探索娱乐媒体的审美规范和招聘偏见是否溢出到其他领域年龄-性别关联的扭曲中。另一个因素关注流行算法中的年龄相关性别偏见是否源于在线数据贡献者的性别不平等。研究表明Reddit用户和Wikipedia编辑 disproportionately 是男性,而这些平台的文本数据经常被挖掘用于训练人工智能模型。在数据贡献者性别更平等的数据集上训练人工智能可能提供有效的缓解策略。这项研究强调了互联网文化和算法在中介我们对社会世界的表征方面日益突出的作用。研究表明,年龄和性别
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号