高效查询与数据集无关的红队测试方法RAPT:大语言模型内容安全评估新策略

【字体: 时间:2025年09月05日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文提出了一种创新的红队测试方法RAPT(Query-Efficient Adaptive Red Teaming),通过自适应生成-选择框架(含LLM生成器和RL选择器)实现大语言模型(LLMs)内容安全的高效评估。该方法采用对比提示模板和动态示例更新策略提升测试案例多样性,并基于马尔可夫决策过程(MDP)设计强化学习(RL)选择器优化查询效率,实验证明其在不依赖预设数据集条件下显著优于现有方法。

  

Highlight

本研究亮点在于提出RAPT——一种兼具查询高效性与数据集独立性的红队测试方法,通过生成-选择协同框架突破传统方法局限,为LLMs安全评估提供动态解决方案。

Related Work

现有红队测试方法可分为数据集依赖型(如BRT[21])与独立型(如ZS/FS[19])。前者受限于静态数据集更新滞后,后者常因查询效率低下影响实用性。

Problem Formulation

红队测试核心目标是发现能诱导目标模型产生有害输出的自然语言测试案例,这些案例需符合真实场景语言规范,而非无意义输入。

Overview

如图1所示,RAPT框架包含两大核心:

  1. 1.

    测试案例生成器:采用对比提示模板(含正负示例)和动态演示集迭代生成多样化案例

  2. 2.

    RL选择器:将案例选择建模为MDP过程,通过复合奖励函数(效果+多样性)优化策略

Baselines

对比实验包含:

  • 数据集依赖方法:Rand、BRT[21]、AutoRedTeamer[28]

  • 独立方法:ZS、FS[19]、AutoRedTeamer-NM(冷启动版)

Illustrative Example

以BlenderBot-3B模型"攻击性响应"测试为例(表6),展示完整迭代流程:生成→RL选择(策略π)→测试→演示集更新,其中攻击性评分So由分类器R(o)判定。

Conclusion

RAPT通过:

  1. 1.

    对比提示模板与多样性示例提取方法

  2. 2.

    RL驱动的MDP选择机制

    实现了LLMs安全风险的高效探测,为模型优化提供精准靶点。

Hyperparameters Searching Range

表7列出网格搜索的超参数调优范围。

Computing Infrastructure

实验硬件:Intel Xeon Silver 4210R处理器+8×NVIDIA 4090 GPU;软件环境:Ubuntu 20.04 LTS+Python 3.10。

(注:翻译严格遵循生命科学领域专业性,使用"诱导输出""复合奖励函数"等术语,保留MDP、RL等英文缩写及So等下标格式,去除文献引用标识[ ])

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号