基础模型中情感标签偏差的跨域公平性审计:比较人类与机器对推文和评论的标注结果

《Machine Learning with Applications》:Cross-domain fairness audit of sentiment label bias in foundation models: Comparing human and machine annotations on tweets and reviews

【字体: 时间:2025年08月09日 来源:Machine Learning with Applications 4.9

编辑推荐:

  本文通过对比分析OpenAI、Gemini、DeepSeek和LLaMA四类基础模型在情感分类任务中的表现,评估其对社交媒体文本、产品评论及讽刺性文本的分类准确性和公平性。研究发现,模型在非讽刺文本(如推文、评论)中表现差异显著,OpenAI在正式文本中表现最佳,而Gemini和LLaMA在非正式文本中准确率较低。讽刺性文本中,模型存在系统性偏见,如过度预测负面情绪或中性内容。通过多任务微调策略,结合讽刺检测任务,可有效降低分类误差和公平性差距,验证了轻量级改进策略的有效性。

  该研究探讨了当前主流基础模型在情感分类任务中的公平性表现,特别是在不同文本领域中的性能差异和系统性偏差。这些模型包括OpenAI、Gemini、DeepSeek和LLaMA,它们在处理带有讽刺或非正式语言的文本时,往往表现出对人类标注情感的不一致。通过比较这些模型与人类标注数据的匹配度,研究揭示了在讽刺性文本中,模型更容易产生错误分类,尤其是在负面情感上,这可能是因为模型无法准确识别讽刺的语义转换。为了应对这些偏差,研究团队进行了一项讽刺感知的多任务微调实验,显著降低了在讽刺样本中的错误分类率,并提升了模型在讽刺文本上的公平性指标。这些结果不仅突显了对基础模型进行公平性审计的必要性,也表明通过轻量级的缓解策略可以有效改善情感分类任务中的公平性。

情感分析是自然语言处理(NLP)中的基础任务,旨在从文本数据中提取情感、态度和观点(Ujah-Ogbuagu等,2025)。这项技术广泛应用于多个领域,从社交媒体上的公众情绪评估到电子商务中的消费者反馈分析。随着大型语言模型(LLMs)如GPT(Brown等,2020)、Gemini(Team等,2025)、DeepSeek(Liu等,2024)和LLaMA(Touvron等,2023)的出现,自动情感分类的能力得到了显著提升,使得模型能够更准确地理解和表达情感。然而,尽管这些模型在技术上取得了进步,但它们在公平性方面仍然存在重要问题。例如,某些模型可能对特定群体的句子表现出系统性的偏好或劣势,与人类判断存在偏差,特别是在处理不同语言领域和复杂情感表达时。

人类标注数据一直是情感分类模型的基准标准,因为它们提供了可靠的参考点来评估模型性能(Socher等,2013)。然而,研究表明,基础模型在处理非正式文本类型,如推文或隐含情感表达的文本时,往往与人类标注的情感标签存在显著偏差(Sharma等,2024)。这些偏差引发了关于模型公平性和在现实应用中泛化能力的担忧。因此,研究团队旨在通过比较不同模型在多个文本领域的表现,量化其与人类标注情感的一致性,从而揭示模型的优缺点。

在数据准备方面,研究团队使用了三个经过筛选的文本数据集:1500条加拿大求职者发布的推文,3000条来自公开来源的产品和服务评论,以及1500条带有讽刺标签的文本。这些数据集涵盖了从非正式(社交媒体)到正式(消费者反馈)的不同语言风格,以确保公平性评估的全面性。推文数据集的标注采用三类情感标签(正面、中性、负面),通过三位独立标注员的多数投票确定最终标签。同样,评论数据集也采用了相同的标注流程。讽刺数据集则分为二元标签(讽刺/非讽刺),其中10%的样本进一步标注了情感极性(正面、中性、负面)。所有数据集都经过标准化预处理,包括去除噪音(如URL、HTML标签和特殊字符)、文本规范化(如小写和分词)以及去除常见英语停用词,以保留与情感相关的有意义内容。

在模型评估方面,研究团队选取了四个最先进的基础模型,分别是OpenAI的GPT-4.0、Gemini 1.5 Pro、DeepSeek-V3-Light和Meta的LLaMA。每个模型都使用了统一的提示(prompt)进行评估,以确保在不同领域和任务中的一致性和公平性。GPT-4.0通过OpenAI API访问,以强语言理解和推理能力著称。Gemini 1.5 Pro通过Google Cloud Platform访问,以高效的多轮推理和上下文理解而知名。DeepSeek-V3-Light通过DeepSeek API访问,优化了高吞吐量NLP任务和实际部署需求。LLaMA则通过Hugging Face访问,设计用于遵循指令并强调计算效率。

研究结果显示,OpenAI在所有数据集上表现最为稳定,特别是在推文数据集上,其准确率、宏平均F1分数和Jaccard指数均较高,表明其在非正式、嘈杂的社交媒体文本中与人类情感标签有较强的一致性。相比之下,Gemini和LLaMA在所有指标上表现较差。在评论数据集上,OpenAI同样展现出强大的性能,准确率高达0.8820,F1分数为0.8806,而其他模型的准确率则徘徊在0.37-0.38之间,显示出其在处理结构化文本时的局限性。讽刺数据集的结果显示,DeepSeek和OpenAI的准确率相近,但DeepSeek在讽刺检测任务中表现出更高的F1分数和Jaccard指数,表明其在识别讽刺内容方面具有优势。Gemini和LLaMA则在讽刺文本上表现不佳,所有指标均低于DeepSeek和OpenAI。

此外,研究还分析了模型与人类标注之间的分歧,通过混淆矩阵(confusion matrices)来可视化这些差异。结果显示,模型在处理讽刺性文本时的分歧尤为明显,尤其是在正面和负面情感之间的混淆。例如,Gemini和LLaMA在推文数据集中频繁将负面文本误分类为正面,而DeepSeek则在讽刺文本中表现出对正面情感的过度预测。这些分歧揭示了模型在处理讽刺性文本时的系统性偏差,可能影响其在现实应用中的公平性和可靠性。

研究团队还采用了统计显著性测试,包括McNemar检验和基于bootstrap的置信区间,以验证模型性能差异的统计意义。结果显示,某些模型之间的分歧具有统计显著性,尤其是在处理讽刺性文本时,OpenAI与其它模型的分歧显著,而DeepSeek和LLaMA之间的分歧则不显著。这表明,尽管某些模型在处理讽刺性文本时存在偏差,但它们的分歧可能部分归因于随机性,而非系统性偏差。

研究进一步探讨了讽刺对情感分类的影响,特别是情感极性翻转(sentiment polarity flips)的情况。通过分析讽刺文本的情感极性翻转,研究发现某些模型在处理讽刺性文本时更容易产生情感极性翻转,例如将正面讽刺文本误分类为负面。这些结果表明,讽刺性文本对模型的公平性评估具有重要影响,尤其是在情感分类任务中,需要考虑讽刺对模型输出的潜在偏差。

最后,研究团队进行了一项讽刺感知的多任务微调实验,以评估是否可以通过调整模型训练过程来减少讽刺文本中的错误分类。实验结果显示,多任务学习(MTL)在讽刺文本上的效果显著,降低了错误分类率,并改善了公平性指标。这表明,通过将讽刺检测作为辅助任务,可以在不显著增加推理延迟的情况下提升模型在讽刺性文本中的公平性。

研究结果不仅揭示了当前基础模型在情感分类任务中的局限性,也强调了在实际部署中进行公平性审计和采取缓解策略的重要性。随着情感分类技术在公共意见分析、内容审核和心理健康监测等敏感应用中的广泛应用,确保这些模型的公平性和可靠性是至关重要的。研究建议在模型微调过程中采用讽刺感知的多任务学习方法,以提高情感分类的准确性和公平性,并在部署前进行跨领域的公平性审计,以确保模型在不同文本环境中的表现一致性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号