对抗性提示下大语言模型鲁棒性对指令数据挖掘的影响研究

【字体: 时间:2025年08月26日 来源:Neural Networks 6.3

编辑推荐:

  本文创新性地提出关注大语言模型(LLMs)在对抗性提示下的鲁棒性对指令数据挖掘的影响,开发了基于对抗性指令跟随难度(AIFD)和输出嵌入一致性(AIOEC)的双重筛选框架,实验证明该方法能有效提升指令调优数据质量,为LLMs在噪声环境中的稳定性提供新思路。

  

亮点

本研究突破性地将对抗攻击策略融入指令数据挖掘,通过多粒度(字符/词/句级)扰动揭示LLMs的潜在脆弱性。

对抗性指令跟随难度(AIFD)

基于指令样本对(Q,A),我们设计AIFD评分量化模型在对抗性提示下的表现波动:

sθ(A|Q)=?1/N ΣNi=1 logP(wAi|Q,wA1,...,wAi?1;θ)

高分样本表明模型在语义扰动下稳定性差,恰是需优先挖掘的"钻石数据"。

对抗性指令输出嵌入一致性(AIOEC)

针对在线场景中模型输出偏离用户意图的问题,AIOEC仅依赖提示文本的嵌入向量相似度评估质量,巧妙规避了错误标注干扰。

实验验证

在Alpaca和WizardLM-70k数据集上,Mistral-7B等模型经AIFD/AIOEC筛选数据调优后,数学推理准确率提升12.7%,证实对抗鲁棒性指标对实际性能的关键影响。

结论

该框架为LLMs在医疗问答等敏感领域的可靠应用提供了数据筛选新范式——真正的优质指令数据应同时满足静态质量标准和动态抗干扰能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号