KOGENT:面向韩语政治话语性别敏感性评估的大语言模型基准数据集

《Scientific Data》:A benchmark dataset for evaluating gender sensitivity in Korean political discourse with large language models

【字体: 时间:2025年12月12日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对大语言模型(LLM)在识别文化背景下的性别敏感性方面存在的不足,构建了KOGENT基准数据集。该数据集包含从韩国国会议事录(1948-2024)中提取的6,024条语句,标注了性别敏感性高低(H/L)和目标群体。研究利用GPT-4o和GPT-4.1进行零样本和18样本分类测试,F1分数最高达91.2%,证明KOGENT能有效评估LLM对韩语政治话语中微妙性别偏见的识别能力,为多语言NLP的社会文化对齐研究提供了重要资源。

  
在人工智能技术迅猛发展的今天,大语言模型(Large Language Models, LLM)已广泛应用于政治话语分析、内容审核和舆情监测等多个领域。然而,这些模型在理解和评估不同文化背景下语言所蕴含的微妙社会含义时,仍面临巨大挑战。特别是在性别敏感性(gender sensitivity)这一关键议题上,现有研究多集中于检测英语语境中公开的、有毒的或歧视性言论,对于非英语语言,尤其是那些蕴含在正式、制度性政治话语中的、更为隐蔽和情境化的性别偏见,大语言模型的识别能力如何,仍然是一个未被充分探索的领域。韩国作为一个民主化程度较高但性别平等指标(如女性国会议员比例、性别工资差距)在发达国家中相对落后的国家,其政治舞台上的性别话语既反映了全球性的性别平等趋势,也深植于本土的社会文化脉络之中,是研究这一问题的理想样本。
为了填补这一空白,由韩国大学(Korea University)和韩国科学技术院(KAIST)的研究人员组成的团队,在《Scientific Data》上发表了题为“A benchmark dataset for evaluating gender sensitivity in Korean political discourse with large language models”的研究论文,引入了名为KOGENT(KOrean GENder-sensitivity Tagged dataset)的基准数据集。该研究旨在构建一个高质量、人工标注的资源,用于系统评估和提升大语言模型对韩语政治话语中性别敏感性的理解能力。
研究人员主要采用了系统的数据构建与标注流程,并结合大语言模型性能验证的实验方法。具体而言,他们从韩国国会公开数据门户(Open Assembly Data Portal)收集了自1948年至2024年间的全部议会会议记录,共计29,309场会议,约1375万次发言轮次(speech turns)。为了确保数据集中包含足够多与性别相关的内容,研究采用基于关键词(如“母亲”、“妻子”、“育儿”、“父权制”、“性别”、“低生育率”、“同性恋”等)的抽样策略,筛选出1,222份会议记录作为标注基础。随后,由15名经过培训的标注者(政治学或韩国研究专业的本科生或研究生)对这些记录中的发言进行分段,形成 utterances(语句),并对每个语句进行人工标注。标注维度包括性别敏感性等级(高-High/低-Low)和目标群体(仅女性、仅男性、性少数群体、所有性别)。为确保标注一致性,研究采用了双人独立编码并由第一作者进行仲裁的流程,并计算了不同句子余弦相似度阈值下的科恩卡帕(Cohen's Kappa)和克里彭多夫阿尔法(Krippendorff's Alpha)等指标来评估编码者间信度,结果显示出了高度的一致性(例如,在相似度阈值为0.9时,科恩卡帕和克里彭多夫阿尔法均达到0.983)。最终得到的KOGENT数据集包含6,024条语句,其中3,868条被标注为高敏感性(H),2,156条为低敏感性(L)。此外,为了进行更全面的技术验证,研究还从韩国国立国语院的议会语料库中抽取了2,889条与性别敏感性无关的语句(标记为I,Irrelevant),用于构建三分类(H/L/I)任务。在技术验证部分,研究使用OpenAI的API,分别对GPT-4o和GPT-4.1模型进行了零样本(zero-shot)和18样本(18-shot)分类实验,以评估模型根据给定语句判断其性别敏感性等级的性能,并详细分析了模型的错误类型。
数据记录
KOGENT数据集最终包含了从1,222份韩国国会议事录中提取的6,024条语句。每条记录不仅包含语句原文、性别敏感性标签(H/L)和目标群体,还包含了上下文信息、会议元数据(届次、会期、委员会名称)和发言人信息。数据的时间跨度覆盖了从第一届国会(1948年)到第21届国会(2024年),使得分析性别话语的历史变迁成为可能。为了便于非韩语研究者使用,数据集还提供了一个包含约10%数据量的英语翻译子集,该子集由专业人工翻译完成,以避免机器翻译可能带来的偏差。对数据分布的观察发现,标注为高敏感性的语句(3,868条)多于低敏感性的语句(2,156条)。按目标群体分析,针对女性的语句数量最多(共4,844条,其中H标签3,139条,L标签1,705条),其次是所有性别(495条)、男性(416条)和性少数群体(269条)。值得注意的是,在针对性少数群体的语句中,低敏感性语句(185条)远多于高敏感性语句(84条),这表明韩国国会话语中关于LGBTQ+议题的讨论更可能包含歧视性或非包容性的内容。数据的时间分布图显示,自第15届国会(1996-2000年)以来,与性别相关的话语数量呈现上升趋势,并在第20届国会(2016-2020年)期间显著增加,这与韩国社会当时关于性别平等、性别暴力(如2016年江南站杀害女性事件)和#MeToo运动的广泛公共讨论相吻合,反映了真实世界的社会政治动态在议会话语中的印记。
技术验证
研究团队设计实验来评估两个先进的LLM(GPT-4o和GPT-4.1)在KOGENT数据集上的分类性能。实验设置了零样本和18样本两种提示(prompting)条件。在系统提示(system prompt)中,研究人员提供了基于韩国语言文化背景的性别敏感性详细定义。用户提示(user prompt)则直接给出需要分类的语句,要求模型输出H、L或I标签。实验参数设置为确定性模式(temperature=0.0),并限制最大输出令牌数(max_tokens=2)以确保输出格式统一。
实验结果表明,无论是GPT-4o还是GPT-4.1,在18样本提示下的整体分类性能均优于零样本提示。具体而言,GPT-4o在18样本条件下,对高敏感性(H)和低敏感性(L)语句的F1分数分别达到91.10%和81.13%,较零样本条件均有提升。GPT-4.1在18样本条件下对H标签语句的F1分数提升尤为明显,达到91.15%(零样本为87.51%)。这表明提供少量来自目标领域(政治话语,涉及家庭、性别平等、少数群体权利等主题)的示例,能有效引导模型更好地理解任务和语境。然而,对L标签语句的分类,GPT-4.1在18样本下的F1分数(76.25%)略低于零样本(76.83%),说明性能提升并非在所有类别上都一致。
对模型错误案例的深入分析揭示了LLM在理解微妙性别偏见方面的若干局限。首先,模型有时难以区分是对性别不平等的批评,还是对刻板印象的强化。例如,语句“女性由于育儿责任不可避免地要休育儿假,但即使只休一天也会有负担...”本意是揭示韩国社会育儿负担不均的现实(应标为H),但模型可能误解为是在断言育儿 solely 是女性的责任(从而误判为L)。其次,模型对韩国性别平等话语中较新或较少使用的术语不敏感。例如,相较于带有性别偏见暗示的旧术语“低生育率(cechwulsan)”,其中性替代词“低出生(cechwulsayg)”在2018年才被提出,模型因接触较少而常常无法识别其敏感性,导致误分类为无关(I)。第三,当歧视性语言嵌入较长的上下文时,模型的检测能力会下降。例如,蕴含传统性别角色观念的“家庭主妇(cipsalam)”一词,在孤立短句中能被正确识别为L,但在较长语句中,模型可能更关注整体语义流而忽略了这个带有偏见的特定词汇。同样,对于不必要的性别标记职业称谓(如“男护士”、“女职员”、“女教师”),在扩展语境中也不总能被一致地识别出来。
研究结论与意义
本研究成功构建并验证了KOGENT,这是一个专门用于评估大语言模型对韩语政治话语中性别敏感性理解能力的基准数据集。KOGENT的独特价值在于其聚焦于正式的政治精英话语,涵盖了从高敏感性(包容、平等)到低敏感性(歧视、刻板印象)的连续谱系,并深深植根于韩国特定的社会文化和历史脉络之中。技术验证结果表明,尽管像GPT-4o和GPT-4.1这样的大语言模型在显性的性别敏感性案例上表现出一定的识别能力,但在处理需要依赖文化背景和上下文细微差别进行判断的、更微妙的性别偏见表达时,仍然存在明显不足。引入领域内示例的少量样本学习(few-shot learning)能够提升模型性能,这凸显了KOGENT不仅可作为评估基准,也可作为提升模型对制度性话语中微妙偏见敏感性的训练资源。
KOGENT数据集具有广泛的应用前景。在社会与政策层面,它可以为分析日常沟通、媒体内容中的性别敏感性提供度量工具,促进社会性别平等规范的改善。在比较政治学领域,它使研究人员能够在不同分析层面(如议员个人、会议、国会届次)测量性别敏感性,并探究其与立法行为、政策变迁的关系。在比较语言学方面,KOGENT为探索性别敏感性在特定文化语言环境中的表现提供了案例,有助于进行跨语言、跨文化的比较研究。在人工智能和自然语言处理领域,KOGENT可用于开发能够检测和减轻文本中性别偏见的AI系统,例如改进内容审核、职位描述审查和写作辅助工具,以及微调模型以生成更具包容性的文本。
研究者也指出了数据的局限性,特别是其时间跨度超过七十年,语言规范和政治实践均已发生显著变化,尽管标注过程已考虑历时性变异并进行校准,但历史语境的理解仍存在挑战。此外,基于关键词的抽样策略以及议会委员会结构随时间演变等因素,也可能对纵向分析结果产生影响。因此,建议使用者在进行时间趋势分析时,应谨慎考虑这些潜在混杂因素,并采用适当的统计控制方法。
总之,KOGENT作为一个高质量、情境化的基准资源,为推进多语言大语言模型的社会文化对齐研究,尤其是提升模型对非英语语境中微妙社会偏见的感知能力,迈出了重要的一步。它强调了在自然语言处理研究和应用中纳入文化多样性和语境深度的重要性,为未来开发更具包容性和情境感知能力的AI系统奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号