
-
生物通官微
陪你抓住生命科技
跳动的脉搏
对抗性提示下大语言模型鲁棒性对指令数据挖掘的影响研究
【字体: 大 中 小 】 时间:2025年08月26日 来源:Neural Networks 6.3
编辑推荐:
本文创新性地提出关注大语言模型(LLMs)在对抗性提示下的鲁棒性对指令数据挖掘的影响,开发了基于对抗性指令跟随难度(AIFD)和输出嵌入一致性(AIOEC)的双重筛选框架,实验证明该方法能有效提升指令调优数据质量,为LLMs在噪声环境中的稳定性提供新思路。
亮点
本研究突破性地将对抗攻击策略融入指令数据挖掘,通过多粒度(字符/词/句级)扰动揭示LLMs的潜在脆弱性。
对抗性指令跟随难度(AIFD)
基于指令样本对(Q,A),我们设计AIFD评分量化模型在对抗性提示下的表现波动:
sθ(A|Q)=?1/N ΣNi=1 logP(wAi|Q,wA1,...,wAi?1;θ)
高分样本表明模型在语义扰动下稳定性差,恰是需优先挖掘的"钻石数据"。
对抗性指令输出嵌入一致性(AIOEC)
针对在线场景中模型输出偏离用户意图的问题,AIOEC仅依赖提示文本的嵌入向量相似度评估质量,巧妙规避了错误标注干扰。
实验验证
在Alpaca和WizardLM-70k数据集上,Mistral-7B等模型经AIFD/AIOEC筛选数据调优后,数学推理准确率提升12.7%,证实对抗鲁棒性指标对实际性能的关键影响。
结论
该框架为LLMs在医疗问答等敏感领域的可靠应用提供了数据筛选新范式——真正的优质指令数据应同时满足静态质量标准和动态抗干扰能力。
生物通微信公众号
知名企业招聘