
-
生物通官微
陪你抓住生命科技
跳动的脉搏
关于Transformer(BERT)的双向编码器表示在面对软错误时的可靠性
《IEEE Transactions on Nanotechnology》:On the Dependability of Bidirectional Encoder Representations from Transformers (BERT) to Soft Errors
【字体: 大 中 小 】 时间:2025年12月01日 来源:IEEE Transactions on Nanotechnology 2.5
编辑推荐:
本文研究BERT模型在单精度和半精度下软错误的依赖性与影响,通过错误注入模拟分析关键位错误对性能的影响,发现单精度错误易引发溢出导致结果固定,半精度虽无溢出但精度损失大,并探讨激活函数和模型冗余的缓解效果。
深度学习近年来取得了显著进展,并被广泛应用于计算机视觉(CV)和自然语言处理(NLP)领域[1]、[2]。自2012年AlexNet提出以来[3],卷积神经网络(CNN)在CV应用中得到了广泛应用;深度神经网络(DNN)也被提出用于提升任务性能,例如VGGNet[4]、GoogLeNet[5]和ResNets[6]。Transformer于2017年首次用于NLP领域[7]、[8]、[9],近年来不断发展,应用于更多领域,如ViT和Swin Transformers在CV中的应用[10]、[11]、[12]。由于Transformer模型通常包含大量参数(在许多情况下达到数十亿个),当没有大规模数据集时,训练过程成本高昂甚至无法进行。然而,大多数应用依赖于相似的基本特征(例如CV中的对象边界特征或NLP中的语义特征),因此通过低成本的微调过程,可以轻松将预训练在基础任务上的模型能力转移到特定任务中[13]、[14]、[15]。Bidirectional Encoder Representations from Transformers(BERT)是最流行的预训练Transformer模型之一,它能够捕捉每个词的双向上下文[16],并已广泛应用于各种自然语言处理任务[17]、[18]、[19]。