AugmenToxic:利用强化学习优化大型语言模型(LLM)的指令微调,以增强数据增强效果,从而提升毒性检测能力

《ACM Transactions on the Web》:AugmenToxic: Leveraging Reinforcement Learning to Optimize LLM Instruction Fine-Tuning for Data Augmentation to Enhance Toxicity Detection

【字体: 时间:2025年11月07日 来源:ACM Transactions on the Web

编辑推荐:

  本研究通过强化学习与大型语言模型协同优化,创新性地解决毒性检测数据集的严重不平衡问题。采用PPO算法与人类反馈机制,在保持语义一致性的前提下生成122,951条高毒性样本,构建平衡数据集。实验表明该方法相比传统数据增强技术提升毒性样本生成量7倍,并显著提高分类器在少数类样本的识别准确率。

  

摘要

应对在线讨论中的恶意语言问题对于开发有效的恶意语言检测模型至关重要。这项开创性的工作重点在于通过引入一种新的方法来增强恶意语言数据,从而解决恶意语言检测数据集不平衡的问题。我们通过使用强化学习与人类反馈(RLHF)来指导大型语言模型(LLMs)的微调,从而创建了一个平衡的数据集。鉴于从社交媒体平台收集足够的恶意样本以构建平衡数据集的挑战,我们的方法包括利用优化后的生成式LLMs对现有样本进行改写,以实现句子级别的文本数据增强。在利用生成式LLM的过程中,我们采用近端策略优化器(PPO)作为RL算法来进一步微调模型,并使其与人类反馈保持一致。换句话说,我们首先使用专门为改写任务定制的指令数据集来微调LLM,同时保持语义一致性。接下来,我们应用PPO和奖励函数来进一步优化(微调)经过指令训练的LLM。这一RL过程指导模型生成恶意响应。我们使用Google Perspective API作为恶意语言评估工具来评估生成的响应,并据此分配奖励或惩罚。这种方法通过PPO和奖励函数引导LLM,将少数类样本转化为增强版本。我们方法的主要目标是创建一个平衡且多样化的数据集,以提高分类器识别少数类实例的准确性和性能。利用两个公开可用的恶意语言数据集,我们将各种技术与我们提出的方法进行了比较,结果表明我们的方法在生成恶意样本的数量上优于其他方法。从最初的16,225个恶意提示开始,我们的方法成功生成了122,951个恶意样本,其恶意评分超过了30%。随后,我们使用生成的平衡数据集开发了多种分类器,并将成本敏感学习方法应用于原始的不平衡数据集。研究结果突显了使用我们提出的方法生成的数据进行训练的分类器的卓越性能。这些结果强调了采用强化学习和数据无关模型作为奖励机制来增强恶意语言数据的重要性,从而提高了恶意语言检测模型的鲁棒性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号