基于集合一致性对抗学习(SENA)的预训练语言模型鲁棒性优化研究

【字体: 时间:2025年06月13日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  【编辑推荐】为解决预训练语言模型(PLM)在下游任务适配中存在的实例采样偏差(CL)和梯度冲突问题,上海科技大学团队提出集合一致性对抗学习框架(SENA)。该研究通过实例-集合函数(ITS)整合集合级特征作为对比学习原型,并采用一致性对抗学习(CAL)消除任务间梯度冲突,在GLUE基准和意图分类数据集上实现SOTA性能,为PLM的鲁棒微调提供了新范式。

  

在自然语言处理(NLP)领域,以BERT和RoBERTa为代表的预训练语言模型(PLM)通过生成高质量嵌入(embedding)显著提升了各类下游任务性能。然而当前PLM适配方法面临两大瓶颈:其一,基于实例的对比学习(Contrastive Learning, CL)存在样本偏差,导致类别不平衡和过表征问题;其二,辅助任务与下游任务间的梯度冲突会损害模型表征能力。这些问题使得PLM在意图分类等实际场景中难以发挥最优性能。

为突破这些限制,上海科技大学的研究团队在《Knowledge-Based Systems》发表论文提出创新性解决方案——集合一致性对抗学习(Set-level coNsistency Adversarial learning, SENA)。该框架通过两个核心技术模块:实例-集合函数(Instance-To-Set, ITS)将集合级判别特征融入单样本嵌入,构建更稳定的对比学习原型;一致性对抗学习(Consistency Adversarial Learning, CAL)采用对抗训练机制消除任务间不一致性,在提升PLM表征能力的同时实现梯度冲突的动态平衡。

关键技术方法包括:1)基于集合运算的ITS函数构建类别原型;2)通过梯度余弦相似度检测识别最不一致样本;3)对抗训练框架下的CAL优化策略。实验采用GLUE基准和三个意图分类数据集,对比CAGrad、GradNorm等基线方法。

【Contrastive learning】研究揭示传统CL方法因实例采样偏差导致嵌入空间分布失衡。SENA通过ITS函数将集合统计特征(如类内均值、方差)注入单样本表征,构建具有类别代表性的对比学习原型。

【SENA: A set-level consistency adversarial learning approach】框架设计包含:1)ITS模块通过可学习的集合运算网络生成原型嵌入;2)CAL模块采用最大不一致样本筛选策略,通过对抗扰动使模型学习到梯度兼容的共享表征层。实验显示该方法使任务间梯度余弦相似度提升47.6%。

【Experiment and evaluation】在MNLI、SST-2等GLUE任务中,SENA平均准确率超越SimCSE 3.2个百分点;在银行、电商客服意图分类场景中,F1值较CARL提升5.8%。可视化分析表明SENA能形成更清晰的决策边界。

【Conclusion and future work】该研究证实:1)集合级特征注入可有效缓解CL采样偏差;2)对抗式梯度调和优于传统投影手术。未来将探索SENA在多模态学习中的应用。研究获得上海市科委科技创新计划(21511104700)支持,为PLM的工业落地提供了重要技术支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号