自适应噪声增强注意力机制(ANAA):提升Transformer在纵向医疗数据微调中的性能与应用

【字体: 时间:2025年09月18日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  本综述推荐一种创新的自适应噪声增强注意力机制(ANAA),该方法通过向自注意力权重注入自适应噪声并应用二维高斯核平滑,有效解决了Transformer模型在电子健康记录(EHR)等纵向医疗数据微调中的性能瓶颈。该方法无需改变预训练架构,仅需在微调阶段操作,显著提升了临床预测任务(如心力衰竭、阿尔茨海默病预测)的判别性能(AUC提高2-3%),同时增强了模型对数据稀缺场景的鲁棒性。ANAA通过打破注意力分布的极化现象,促进模型探索更丰富的依赖关系,为医疗时序数据分析提供了新的正则化范式。

  

1 引言

基于自监督任务预训练并在下游目标微调的Transformer模型已在多个领域取得显著成果。然而,在纵向医疗数据(如电子健康记录EHR)上微调这些模型仍面临挑战,主要源于标记数据有限以及医疗序列的复杂事件驱动特性。虽然自注意力机制能够有效捕捉序列内部关系,但在有限监督下建模稀疏临床事件间的细微依赖时可能表现不佳。自适应噪声增强注意力(ANAA)作为一种简单有效的微调技术,通过向自注意力权重注入自适应噪声并应用二维高斯核平滑注意力图,拓宽了注意力在令牌间的分布,同时细化以强调更具信息量的事件。

2 预备知识

2.1 Transformer编码器与自注意力

Transformer编码器的核心是多头自注意力机制。每个自注意力头计算如下:

Qh = XWhQ, Kh = XWhK, Vh = XWhV(公式1)

注意力得分矩阵Ah = softmax(QhKhT/√dk)(公式2)

输出Hh = AhVh(公式3)

多头注意力通过并行计算多个注意力头,从不同表示子空间捕获信息(公式4)。

2.2 预训练与微调

预训练阶段模型通过自监督任务(如掩码语言模型MLM)学习通用知识,微调阶段调整权重以适应特定下游任务。这种方法在医疗领域基础模型适配中广泛应用。

3 相关工作

改进Transformer性能的方法主要包括修改自注意力机制和数据增强。局部化注意力跨度、分段稀疏化交互、绝对位置编码增强等方法虽有效,但常需结构调整,与预训练模型兼容性差。数据增强在离散领域(如医疗代码)面临语义保持和插值困难。模型内部表示扰动(如嵌入层加噪)虽能提升泛化性,但未直接针对注意力机制优化。

4 方法

4.1 自适应噪声增强注意力

ANAA通过两步增强注意力得分:首先注入自适应高斯噪声,随后用高斯核平滑。增强后的注意力计算为:

ANAA = ((Ah + ~N(μ, σGN2)) * nσeh)V(公式5)

噪声参数μ和σGN根据注意力得分动态计算(公式6-7),平滑核nσeh[i,j]为二维高斯分布(公式8),卷积操作如公式9所示。推理阶段去除随机性,使用期望值μ(公式10)。

4.2 机制原理

ANAA通过方差缩放的结构化丢弃连接正则化,将注意力从二元分布转为双模连续分布,促进令牌关系探索。高斯平滑作为数据自适应低通滤波器,抑制高频伪影并插值邻近令牌。

5 实验

5.1 数据集

使用MIMIC-IV住院模块和瑞典马尔默饮食与癌症队列(MDC)数据。MIMIC-IV包含17.3万患者记录,MDC包含3万个体数据。仅使用ICD和ATC代码,预处理后MIMIC-IV有2195个ICD-9和137个ATC-5代码,MDC有1558个ICD-10和111个ATC-5代码。

5.2 问题表述

下游任务包括心力衰竭(HF)、阿尔茨海默病(AD)和延长住院时间(PLS)预测。患者轨迹表示为带特殊令牌([CLS]、[SEP])的序列,模型预测第N次就诊是否发生目标事件(公式11)。

5.3 模型列表

比较模型包括:带ANAA的随机初始化Transformer、预训练Transformer加原始噪声(RNA)、预训练Transformer加ANAA。

5.4 下游任务评估

ANAA显著提升预训练Transformer的AUC:MDC数据集上HF预测从72.2%升至74.5%,AD预测达73.2%;MIMIC-IV数据集HF预测从85.2%升至87.2%。PLS预测性能变化不显著。RNA单独应用在MIMIC数据集效果更明显,ANAA在MDC长序列任务中综合效果更优。

5.5 数据稀缺下的性能提升

ANAA在训练样本减少时(50%、20%、10%)仍保持约3%的AUC提升,尤其在MIMIC-IV数据集上表现稳定。MDC数据集上优势随样本减少而减弱,与HF阳性样本有限相关。

5.6 与隐藏表示增强对比

ANAA在HF预测上一致优于NefTune(嵌入层加噪)和前馈噪声增强,虽计算开销略增,但微调阶段可接受。

5.7 与朴素掩码对比

随机注意力掩码和DropAttention均未改善性能,反而增加训练迭代次数。过强正则化破坏关键依赖,导致训练不稳定。

5.8 ANAA对注意力行为的影响
5.8.1 注意力分布

微调后Transformer注意力得分呈近二元分布(0或1),表明过度自信。RNA通过高斯噪声拓宽分布,增加表示多样性。ANAA结合噪声与平滑,保留多样性同时稳定模式。

5.8.2 感受野效应

预训练Transformer注意力集中于近期事件。RNA regularization降低分布陡度,使注意力更均衡。ANAA在局部邻域内提供更平等分布,同时减少对遥远事件的关注。

6 讨论

ANAA通过两步微调增强,在不改变架构下持续提升预训练Transformer在纵向EHR数据上的判别性能。相比隐藏表示增强和传统正则化方法,ANAA在HF和AD预测任务上取得更优结果(AUC提高2-3%),且在标签稀缺条件下保持增益。注意力直方图显示,常规微调导致注意力头趋向二元权重,表明过度自信和脆弱依赖。ANAA通过自适应高斯噪声注入拓宽分布,鼓励采样更丰富关系线索,随后平滑步骤恢复连贯结构。

与NEFTune和HyPe等嵌入层或前馈层加噪方法相比,ANAA获得更大且一致的性能提升。朴素注意力掩码则降低效果,凸显了噪声注入位置的重要性:扰动自注意力得分(建模令牌交互的核心机制)比改变下游表示收益更大。

ANAA在两类EHR数据集上表现一致,但仍有局限:所有实验基于结构化诊断和药物代码时间线;ANAA引入额外超参数需调优;计算开销随序列长度增加;极低数据或高度不平衡标签场景下增益有限;增强对可解释性的影响需进一步研究。

7 结论

ANAA是一种轻量有效的预训练Transformer微调增强方法,直接通过自适应高斯噪声和 Gaussian 核平滑增强自注意力得分,鼓励模型探索更多样注意力模式同时保持关键依赖。研究表明,预训练Transformer在有限EHR数据上微调时易产生过度尖锐的注意力分布,过拟合局部模式而忽略更广上下文关系。ANAA缓解此问题,促进更多样稳定的注意力分布,带来跨任务和数据机制的更好泛化。大量临床预测任务实验证明ANAA持续优于传统正则化和隐藏增强技术。

ANAA提供即插即用的增强机制,完全在注意力计算内部操作,无需改变模型架构或计算图,使其特别适合与现有预训练模型集成。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号