
-
生物通官微
陪你抓住生命科技
跳动的脉搏
高效查询与数据集无关的红队测试方法RAPT:大语言模型内容安全评估新策略
【字体: 大 中 小 】 时间:2025年09月05日 来源:Knowledge-Based Systems 7.6
编辑推荐:
本文提出了一种创新的红队测试方法RAPT(Query-Efficient Adaptive Red Teaming),通过自适应生成-选择框架(含LLM生成器和RL选择器)实现大语言模型(LLMs)内容安全的高效评估。该方法采用对比提示模板和动态示例更新策略提升测试案例多样性,并基于马尔可夫决策过程(MDP)设计强化学习(RL)选择器优化查询效率,实验证明其在不依赖预设数据集条件下显著优于现有方法。
Highlight
本研究亮点在于提出RAPT——一种兼具查询高效性与数据集独立性的红队测试方法,通过生成-选择协同框架突破传统方法局限,为LLMs安全评估提供动态解决方案。
Related Work
现有红队测试方法可分为数据集依赖型(如BRT[21])与独立型(如ZS/FS[19])。前者受限于静态数据集更新滞后,后者常因查询效率低下影响实用性。
Problem Formulation
红队测试核心目标是发现能诱导目标模型产生有害输出的自然语言测试案例,这些案例需符合真实场景语言规范,而非无意义输入。
Overview
如图1所示,RAPT框架包含两大核心:
测试案例生成器:采用对比提示模板(含正负示例)和动态演示集迭代生成多样化案例
RL选择器:将案例选择建模为MDP过程,通过复合奖励函数(效果+多样性)优化策略
Baselines
对比实验包含:
数据集依赖方法:Rand、BRT[21]、AutoRedTeamer[28]
独立方法:ZS、FS[19]、AutoRedTeamer-NM(冷启动版)
Illustrative Example
以BlenderBot-3B模型"攻击性响应"测试为例(表6),展示完整迭代流程:生成→RL选择(策略π)→测试→演示集更新,其中攻击性评分So由分类器R(o)判定。
Conclusion
RAPT通过:
对比提示模板与多样性示例提取方法
RL驱动的MDP选择机制
实现了LLMs安全风险的高效探测,为模型优化提供精准靶点。
Hyperparameters Searching Range
表7列出网格搜索的超参数调优范围。
Computing Infrastructure
实验硬件:Intel Xeon Silver 4210R处理器+8×NVIDIA 4090 GPU;软件环境:Ubuntu 20.04 LTS+Python 3.10。
(注:翻译严格遵循生命科学领域专业性,使用"诱导输出""复合奖励函数"等术语,保留MDP、RL等英文缩写及So等下标格式,去除文献引用标识[ ])
生物通微信公众号
知名企业招聘