
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GenderBias-VL:通过反事实探究来评估视觉语言模型中的性别偏见
《INTERNATIONAL JOURNAL OF COMPUTER VISION》:GenderBias-VL: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing
【字体: 大 中 小 】 时间:2025年09月27日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3
编辑推荐:
大视觉语言模型(LVLMs)普遍存在性别偏见,现有基准多聚焦群体层面而忽略个体公平性。本文首创GenderBias-VL基准,通过生成职业图像及其性别反转版本,结合语义相似但性别比例相反的职业对,构建34581对视觉问答对比样本(177职业),评估19个开源及商用LVLMs,揭示模型普遍存在职业性别偏见,并开源数据集及代码。
大型视觉语言模型(LVLMs)已被广泛应用于各种场景;然而,它们存在显著的性别偏见。现有的评估基准主要关注人口群体层面的性别偏见,忽视了个体公平性,而个体公平性强调对相似个体的平等对待。这一研究空白限制了对歧视行为的发现,因为个体公平性能够更细致地揭示群体公平性可能忽略的偏见。本文首次提出了GenderBias-VL基准,通过使用基于个体公平性标准的反事实视觉问题来评估LVLMs中的职业相关性别偏见。为了构建这一基准,我们首先利用文本到图像的扩散模型生成职业图像及其性别反事实情况。随后,我们通过识别在现实世界统计数据中语义相似但性别比例相反的职业对来生成相应的职业文本选项。这种方法能够创建大规模的视觉问题反事实案例,以揭示LVLMs中的偏见,这些反事实案例既适用于多模态环境,也适用于单模态环境,只需修改特定模态中的性别属性即可。总体而言,我们的GenderBias-VL基准包含了34,581对视觉问题反事实案例,涵盖了177个职业。利用该基准,我们广泛评估了19种常用的开源LVLM(例如LLaVA)和最先进的商业API(例如GPT和Gemini)。研究结果表明,现有LVLMs中普遍存在性别偏见。我们的基准提供了:(1)一个用于评估职业相关性别偏见的全面数据集;(2)一个关于LVLM偏见情况的最新排行榜;(3)对这些模型所呈现的偏见的深入理解。数据集和代码可在https://genderbiasvl.github.io获取。
大型视觉语言模型(LVLMs)已被广泛应用于各种场景;然而,它们存在显著的性别偏见。现有的评估基准主要关注人口群体层面的性别偏见,忽视了个体公平性,而个体公平性强调对相似个体的平等对待。这一研究空白限制了对歧视行为的发现,因为个体公平性能够更细致地揭示群体公平性可能忽略的偏见。本文首次提出了GenderBias-VL基准,通过使用基于个体公平性标准的反事实视觉问题来评估LVLMs中的职业相关性别偏见。为了构建这一基准,我们首先利用文本到图像的扩散模型生成职业图像及其性别反事实情况。随后,我们通过识别在现实世界统计数据中语义相似但性别比例相反的职业对来生成相应的职业文本选项。这种方法能够创建大规模的视觉问题反事实案例,以揭示LVLMs中的偏见,这些反事实案例既适用于多模态环境,也适用于单模态环境,只需修改特定模态中的性别属性即可。总体而言,我们的GenderBias-VL基准包含了34,581对视觉问题反事实案例,涵盖了177个职业。利用该基准,我们广泛评估了19种常用的开源LVLM(例如LLaVA)和最先进的商业API(例如GPT和Gemini)。研究结果表明,现有LVLMs中普遍存在性别偏见。我们的基准提供了:(1)一个用于评估职业相关性别偏见的全面数据集;(2)一个关于LVLM偏见情况的最新排行榜;(3)对这些模型所呈现的偏见的深入理解。数据集和代码可在https://genderbiasvl.github.io获取。
生物通微信公众号
知名企业招聘