
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一致性校准驱动的预训练语言模型任务特异性嵌入生成方法研究
【字体: 大 中 小 】 时间:2025年06月22日 来源:Neural Networks 6.0
编辑推荐:
针对预训练语言模型(PLMs)在下游任务微调中存在的预训练知识遗忘与目标失配问题,研究人员提出EGO-PLM框架,通过设计任务无关的预定义任务与对抗性一致性校准(CoCa)技术,实现任务特异性嵌入生成。实验表明该方法在GLUE基准和意图识别数据集上平均提升BERTLarge和RoBERTaLarge性能2-3%,为PLMs的领域适应性提供新思路。
在自然语言处理领域,预训练语言模型(PLMs)如BERT和RoBERTa通过微调(fine-tuning)已在各类任务中展现卓越性能。然而这种"预训练-微调"范式存在一个根本性矛盾:模型在适应下游任务时,其预训练阶段获得的语言泛化能力会逐渐被覆盖,这种现象被称为"知识遗忘"(catastrophic forgetting)。更棘手的是,预训练目标(如掩码语言建模)与下游任务目标(如文本分类)之间存在本质差异,这种"目标失配"(objective mismatch)导致模型容易过拟合,甚至出现性能倒退。传统解决方案如降低学习率至2×10-5虽能缓解但治标不治本,如何平衡任务适应性与知识保留成为制约PLMs性能提升的关键瓶颈。
上海交通大学的研究团队在《Neural Networks》发表的研究中,创新性地将PLMs重构为任务特异性嵌入生成器(EGO-PLM),通过双任务协同训练框架和对抗性一致性校准(Consistency Calibration, CoCa)技术,在8个数据集上实现平均3%的性能突破。该研究突破性地将预训练阶段的语言建模任务与下游任务统一为嵌入生成问题,设计包含预定义任务模块和任务适配模块的并行架构。核心技术CoCa通过对抗训练识别预定义目标与任务目标的不一致性,动态校准两者偏差,其创新性体现在将对抗攻击转化为一致性约束信号。
研究方法上,团队采用多阶段验证策略:首先基于GLUE基准和跨领域意图数据集构建评估体系;其次设计任务无关的预定义任务模拟预训练过程;然后通过梯度反转层实现CoCa的对抗训练;最终采用控制变量法验证各模块贡献。关键技术涉及PLMs架构修改、对抗样本生成、以及多任务损失函数设计,其中对抗训练过程中的梯度冲突检测机制尤为关键。
研究结果部分显示:
结论部分指出,EGO-PLM的创新价值在于:理论层面,首次提出"预训练-微调目标连续性"假说,将知识遗忘问题转化为目标一致性优化问题;实践层面,CoCa模块可即插即用地增强现有PLMs,其2×10-5级梯度精调策略为超参数敏感性问题提供解决方案。讨论中作者坦言,当前CoCa的计算开销较传统微调增加约18%,未来将通过蒸馏技术优化效率。该研究为突破"微调天花板"提供新范式,其核心思想可拓展至多模态预训练等领域。
生物通微信公众号
知名企业招聘