综述:人工智能与 ChatGPT 中的性别偏见:证据、偏见来源及解决方案

【字体: 时间:2025年05月07日 来源:Computers in Human Behavior: Artificial Humans

编辑推荐:

  本文聚焦人工智能(AI)与 ChatGPT 中的性别偏见问题。阐述其在招聘、教育、医疗等领域的表现,分析训练数据、算法设计、用户反馈等方面的偏见来源,探讨从数据处理、架构优化到政策制定等多种缓解策略,对理解和解决 AI 性别偏见意义重大。

  

1. 引言


人工智能(AI)已广泛应用于医疗、教育、商业等众多领域,给人们的生活和交互方式带来变革,ChatGPT 更是其中备受瞩目的语言模型。它在改善临床服务、提升教育体验等方面发挥了积极作用。然而,AI 并非完美无缺。训练 AI 系统的数据以及人类工程师编写的代码都可能存在偏差,导致 AI 在实际应用中产生偏见。

在医疗、教育、刑事司法等系统中,AI 偏见问题已有所显现。例如,美国预测警务中,AI 对犯罪数据的推导和分析存在偏差,导致对边缘化社区过度执法;在教育领域,AI 系统可能依据历史趋势而非学生实际表现评估成绩,使部分学生受到不公平对待。

在诸多有害偏见中,性别偏见尤为突出。在招聘方面,亚马逊开发的自动招聘算法因训练数据多来自男性求职者,导致算法倾向于男性,限制了女性的就业机会。这不仅反映了亚马逊内部男性主导的劳动力结构,也体现了整个 AI 行业开发者性别比例失衡的现状。研究表明,女性在 AI 开发领域占比较低,这种性别差异可能导致 AI 决策模型反映男性的决策模式,进一步强化性别偏见。

在教育领域,AI 系统中的性别偏见影响深远。以在线课程辍学率预测为例,相关 AI 算法对女性学生的预测准确性低于男性,这可能导致大学在招生时减少对女性的录取,进而加剧教育领域的性别差距。此外,AI 模型在评估学生智力水平时,也存在按性别划分的倾向,这与科学共识相悖,进一步凸显了 AI 性别偏见的问题。

在医疗领域,AI 虽能提高诊断和治疗的准确性,但性别偏见也不容忽视。由于 AI 数据库和预测模型多基于男性主导的数据集训练,导致女性患者的疾病症状更容易被误诊或漏诊。例如,女性慢性心脏病症状常被误诊为其他疾病,针对女性的诊断 AI 在诊断男性疾病时反而表现更好,这表明训练数据存在偏差,无法准确反映女性群体的特征,进而影响女性的治疗方案和健康结果。

2. Chatbot 设计


ChatGPT 作为 AI 大语言模型,融合了自然语言处理(NLP)、机器学习(ML)和深度学习等先进技术。它基于 Transformer 架构的深度神经网络,通过大规模语料库数据进行训练,采用监督学习和无监督学习相结合的方式,能够学习和模仿人类语言。在完成学习阶段后,ChatGPT 还会进行微调,以提高模型的性能和泛化能力,使其能够生成连贯、相关且符合任务要求的回答,实现与人类的自然交互。

3. Chatbot 偏见


尽管 ChatGPT 在日常生活中得到广泛应用,人们对其信任度较高,但它也引发了伦理和客观性方面的担忧。研究发现,ChatGPT 存在性别偏见,这些偏见主要源于训练数据、模型架构和用户反馈等方面。

3.1 训练数据中的偏见


训练数据是 AI 模型的基础,其质量、多样性和代表性对模型性能至关重要。然而,训练数据中存在多种偏见,影响了 ChatGPT 的公正性和准确性。

  • 代表性偏差:当 AI 模型使用不完整、非代表性的数据集进行训练时,就会出现代表性偏差。这些数据集可能缺乏对实际人群多样性的反映,导致模型在处理未充分代表的人群数据时表现不佳。例如,ChatGPT 在回答关于领导力的问题时,常将传统男性特质与有效领导力联系起来,忽视了女性特质,这是因为其训练数据中男性视角的文本占比较大。
  • 人类偏见:数据收集过程中,人类的偏见会影响数据的选择和整理。例如,采样、群体内和测量等方面的偏见,可能导致有缺陷的数据被用于训练 AI 系统,进而影响模型的客观性。
  • 注释偏差:数据注释是使数据可被语言模型理解的过程,但注释者的个人偏见可能会影响数据标签。如果注释者群体缺乏多样性,这种偏见可能会被 AI 模型捕捉,导致性别偏见等问题。例如,微软的聊天机器人曾因注释偏差,在回答性别智力问题时偏向男性。
  • 测量偏差:选择和使用不适当的数据标签进行预测会导致测量偏差。如美国预测警务中,AI 系统错误地将逮捕率作为安全指标,忽视了种族偏见对逮捕率的影响,从而错误地评估社区安全性。
  • 历史偏差:当用于训练的数据反映的是过去的情况,而与当前现实不符时,就会产生历史偏差。例如,使用多年前女性在高级职位上的数据来预测当前情况,可能会导致不准确的结果。

这些训练数据中的偏见会在 ChatGPT 与用户的交互中再次出现。例如,在政治领域,媒体对女性政治家的报道存在刻板印象,这些内容进入训练数据后,使得 ChatGPT 在相关回答中也会重现类似的偏见。在职业相关问题上,ChatGPT 会将某些职业与特定性别刻板地联系起来,这对女性在职业发展中的自我认知和社会对女性的评价产生了负面影响。

3.2 聊天机器人架构中的偏见


ChatGPT 的架构设计在其功能实现中起着关键作用,但也可能引入偏见。

  • 词嵌入:词嵌入是 NLP 模型的关键组成部分,用于捕捉单词之间的语义关系。然而,算法在处理词嵌入时,可能会基于性别和种族等因素分配静态属性,导致模型产生偏见。例如,机器学习系统常将科学和艺术术语与性别刻板印象联系起来。
  • 聚合偏差:聚合偏差发生在不同数据组被不恰当组合时,导致模型对多数群体表现良好,而对少数群体表现不佳。如在分析犯罪率时,基于城市层面的地理聚合数据可能会忽略城市内部不同区域的差异,从而得出误导性结论。
  • 评估偏差:在模型评估和优化过程中,如果使用的基准不能准确代表总体人群,就会产生评估偏差。例如,面部分析基准数据集主要包含浅肤色受试者,导致模型在处理非白人受试者时表现不佳。
  • 算法偏差:算法本身可能存在偏差,这源于其训练的有偏数据集。即使数据集看似无偏,算法在执行特定功能时也可能做出有偏决策。例如,社交媒体算法为提高用户参与度,可能会推送仇恨和对抗性内容,进一步传播偏见。在性别相关内容处理上,AI 算法可能会对女性相关内容进行不当分析,如将女性正常穿着的衣物判定为性感暗示,而对男性类似情况却不做同样判定。
  • 过拟合:当 AI 模型过度学习训练数据中的噪声和异常值时,就会出现过拟合现象。这使得模型在面对新数据时泛化能力下降,并且可能会记忆并重现训练数据中的偏见。
  • 人类反馈强化学习(RLHF):ChatGPT 等大型语言模型在训练过程中会进行 RLHF,通过人类反馈来优化模型。然而,这个过程容易受到人类开发者的偏见影响。研究发现,经过 RLHF 训练的模型生成的回答多样性降低,更倾向于符合人类反馈中的偏见。

这些架构层面的偏见在宗教类 AI 聊天机器人中表现得尤为明显。例如,GitaGPT 等宗教聊天机器人曾被证明会产生性别歧视和暴力相关的不当回应,这可能是由于算法对宗教文本的处理缺乏上下文理解,同时也受到了架构设计中潜在偏见的影响。架构设计中的偏见会加剧和放大其他阶段产生的偏见,使性别偏见问题更加复杂和难以解决。

3.3 用户反馈循环中的偏见


用户与 ChatGPT 的交互也可能导致偏见的产生和传播。

  • 呈现偏差:ChatGPT 在搜索和呈现信息时,由于信息量大,用户通常只能看到部分信息。算法优先呈现的信息更容易被用户点击和关注,这就导致了呈现偏差。如果算法优先呈现的是带有偏见的内容,可能会进一步强化这种偏见。
  • 排名偏差:排名偏差与呈现偏差密切相关,用户往往更关注排名靠前的信息,认为其更相关或准确。这种认知偏见会导致内容排名不断上升,即使其准确性存疑。算法可能会基于用户的这种偏好,不断推送高排名的内容,从而加剧偏见的传播。
  • 流行度偏差:算法倾向于推荐已经受到广泛关注的内容,这就是流行度偏差。受欢迎的内容会获得更多曝光,而不太受欢迎的内容则被忽视,这种循环会导致内容推荐的不平衡,可能使偏见性内容更广泛地传播。
  • 负面用户反馈的影响 - 微软 Tay:微软的聊天机器人 Tay 是一个典型案例。Tay 旨在通过与用户互动学习,但上线后很快就开始发表种族主义、反犹太主义和性别歧视言论。这主要是因为它从与用户的互动中学习到了这些有害内容,这表明聊天机器人在与用户的交互过程中很容易受到负面反馈的影响,ChatGPT 也存在类似风险。

4. 干预措施


为了减轻 AI 模型中的偏见,需要在多个层面采取针对性措施。

4.1 数据集干预


  • 数据预处理:数据预处理旨在在模型训练前去除数据中的偏见。具体方法包括抑制特定相关变量的影响,例如降低年龄、种族等因素对模型决策的影响;对数据集进行 “按摩”,即识别并纠正数据集中的偏见,通过改变或去除带有歧视性的标签,使数据集更加公平;对数据中的元组重新分配权重,以平衡数据的属性,减少无关变量的影响;对代表性不足的群体进行过采样,增加其在数据集中的比例,使算法能够更全面地学习不同群体的特征。
  • 提高数据集质量:提高数据集质量的关键在于多样化数据样本和注释者群体。通过从广泛的来源收集数据,可以避免依赖单一的人口统计数据或数据库,从而减少代表性、测量和历史偏差。同时,多样化注释者群体可以减少个人偏见对数据注释的影响,使训练数据更具多样性和客观性,进而降低模型在训练阶段保留和重现偏见的可能性。

4.2 架构干预


  • 回归、敏感性分析和层次建模:在 AI 和机器学习中,回归可用于检测和控制可能引入偏见的混杂变量,确保模型决策不受无关因素影响。敏感性分析通过系统地改变模型的输入参数和假设,帮助识别对模型预测有显著影响的特征,从而揭示潜在的偏见来源。层次建模则通过将数据结构化并同时分析不同层次的变化,减少因忽略数据的嵌套结构而产生的偏见,使 AI 系统更加稳健,降低偏见风险。
  • RLHF 偏差缓解:RLHF 的干预措施需要根据模型的预期目的匹配技术解决方案,并多样化反馈提供者。确保参与 RLHF 过程的反馈提供者具有多样性,可以减少 AI 模型产生偏差算法的风险,使模型能够更好地泛化,并生成更具包容性的回答。
  • 对齐数据集:开发者可以使用经过测试、能够识别算法中偏见的对齐数据集。这些数据集包含标记数据,用于使模型的输出符合预期用途和道德准则。例如,GenderAlign 数据集旨在减轻大语言模型中的性别偏见。通过学习这些数据集中的示例,AI 模型可以调整决策过程,确保输出既准确又符合道德标准。研究表明,当 ChatGPT(GPT-3.5)与 GenderAlign 对齐时,其性别偏见显著降低,输出更加客观。

4.3 用户循环干预


  • 随机性、FaiR、学习排序:在模型部署后与用户的交互过程中,可以通过在模型中引入随机性来缓解位置偏差,即随机打乱结果的顺序,避免用户过度关注固定的内容。同时,采用 FaiR(公平中心模型)等技术,旨在减少用户和项目中的流行度偏见,确保推荐系统更加公平。此外,使用无偏的 “学习排序” 框架,通过解耦点击和偏见,更准确地估计内容的相关性,提高推荐算法的准确性和公平性。

4.4 政策


从政策角度来看,建立明确的指导方针和训练标准至关重要。企业、政府和跨国组织都在努力制定相关政策,以确保 AI 的公平发展。例如,微软的 AI 和工程研究中的伦理(AETHER)制定了 AI 项目的六项指导原则,涵盖问责制、透明度、公平性等方面;Meta 的独立监督委员会则对 AI 决策进行审查和改革。在国家层面,美国的 AI 权利法案、欧盟的人工智能法案(AIA)以及东盟的 AI 治理和道德指南,都致力于防止 AI 歧视,确保 AI 系统的设计和实施符合公平、透明和问责的原则。跨国组织如经济合作与发展组织(OECD)、联合国教育、科学及文化组织(UNESCO)和联合国(UN)也在积极推动 AI 治理。OECD 的 AI 原则强调以人为本的价值观、透明度和问责制;UNESCO 的人工智能伦理建议旨在引导成员国制定促进人权和可持续发展的 AI 政策;UN 的数字合作高级别小组则强调将 AI 伦理纳入全球治理的重要性。

4.5 总结


AI 模型中的偏见问题不仅是技术难题,还与社会规范和偏见紧密相连。性别偏见在 AI 系统中表现多样,对社会产生了诸多负面影响。为解决这一问题,需要研究人员、开发者、政策制定者和用户共同努力。在数据层面,数据预处理和提高数据集质量是减少偏见的重要基础,但这些方法并非完美,需要与优质数据集相结合。架构干预措施如回归、敏感性分析和 RLHF 偏差缓解等,为识别和减轻偏见提供了统计上的支持,但仍需进一步完善其适用性和通用性。对齐数据集虽有潜力,但开发标准化、行业通用且保持上下文准确性的数据集仍面临挑战。在实际部署中,用户反馈循环中的偏见可通过随机性、FaiR 和学习排序等策略进行缓解。政策和治理干预对塑造 AI 公平性至关重要,但政策的执行机制、合规性和问责结构仍在发展中。未来研究应聚焦于完善偏见检测、缓解和评估方法,开发实用、可扩展且符合行业需求的解决方案,在减轻偏见的同时,平衡模型性能、可用性和现实适用性,确保 AI 聊天机器人的公平性、包容性和问责性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号