关于Transformer(BERT)的双向编码器表示在面对软错误时的可靠性

《IEEE Transactions on Nanotechnology》:On the Dependability of Bidirectional Encoder Representations from Transformers (BERT) to Soft Errors

【字体: 时间:2025年12月01日 来源:IEEE Transactions on Nanotechnology 2.5

编辑推荐:

  本文研究BERT模型在单精度和半精度下软错误的依赖性与影响,通过错误注入模拟分析关键位错误对性能的影响,发现单精度错误易引发溢出导致结果固定,半精度虽无溢出但精度损失大,并探讨激活函数和模型冗余的缓解效果。

  

摘要:

Transformer在自然语言处理和计算机视觉领域得到广泛应用,而Bidirectional Encoder Representations from Transformers(BERT)是许多应用中最流行的预训练Transformer模型之一。本文通过两个案例研究(句子情感分类和问答)来探讨不同浮点格式对BERT可靠性的影响。通过错误注入进行模拟,以评估错误对BERT模型不同部分及参数不同位的影响。分析结果得出以下结论:1)在单精度和半精度情况下,都存在一个关键位(Critical Bit,CB),错误会显著影响模型性能;2)在单精度下,该关键位上的错误可能导致溢出,从而无论输入如何都会得到固定的结果;3)在半精度下,虽然错误不会导致溢出,但仍可能造成较大的准确率损失。总体而言,错误对单精度参数的影响显著大于半精度参数。此外,还进行了错误传播分析,以进一步研究错误对不同类型参数的影响,并揭示激活函数的作用以及BERT本身的冗余性。

引言

深度学习近年来取得了显著进展,并被广泛应用于计算机视觉(CV)和自然语言处理(NLP)领域[1]、[2]。自2012年AlexNet提出以来[3],卷积神经网络(CNN)在CV应用中得到了广泛应用;深度神经网络(DNN)也被提出用于提升任务性能,例如VGGNet[4]、GoogLeNet[5]和ResNets[6]。Transformer于2017年首次用于NLP领域[7]、[8]、[9],近年来不断发展,应用于更多领域,如ViT和Swin Transformers在CV中的应用[10]、[11]、[12]。由于Transformer模型通常包含大量参数(在许多情况下达到数十亿个),当没有大规模数据集时,训练过程成本高昂甚至无法进行。然而,大多数应用依赖于相似的基本特征(例如CV中的对象边界特征或NLP中的语义特征),因此通过低成本的微调过程,可以轻松将预训练在基础任务上的模型能力转移到特定任务中[13]、[14]、[15]。Bidirectional Encoder Representations from Transformers(BERT)是最流行的预训练Transformer模型之一,它能够捕捉每个词的双向上下文[16],并已广泛应用于各种自然语言处理任务[17]、[18]、[19]。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号