基于双参数自适应激活函数AdLU1/AdLU2的深度神经网络梯度优化与性能提升研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月06日 来源：Digital Chinese Medicine CS1.8

编辑推荐：

　　本文提出两种新型双参数激活函数AdLU1和AdLU2，通过可调参数优化梯度流（gradient flow）并解决ReLU（Rectified Linear Unit）族函数的神经元死亡（dead neurons）问题。在ResNet-18/50架构测试中，AdLU1较传统ReLU最高提升5.5%分类准确率，为深度网络（deep architectures）提供兼具性能与适应性的解决方案。

亮点

相关研究

激活函数（Activation Functions）是深度学习的关键组件，传统函数如Sigmoid、Tanh和ReLU虽广泛应用，但存在梯度消失（vanishing gradients）和负区间信息丢失等问题。近年提出的GELU（Gaussian Error Linear Unit）、Swish等通过平滑过渡改善性能，但计算成本较高。

新型双参数激活函数

本研究设计的AdLU₁和AdLU₂通过独立调控负区间曲率（curvature）与正区间缩放率（scaling），实现输入敏感的非对称响应。其数学形式（保留原文符号）：

AdLU₁(x)=α·x/(1+e^-βx)

AdLU₂(x)=α·ln(1+e^βx)

其中α控制正区间斜率，β调节负区间衰减速率。

实验设计

采用ResNet-18/50架构，在MNIST、CIFAR-10等数据集对比测试。训练使用Adam优化器（learning rate=0.001），批量大小（batch size）设为128。

结果与讨论

AdLU₁在CIFAR-10上达到92.3%准确率，较ReLU提升5.5%。Cohen's kappa系数显示其分类一致性最优（κ=0.89）。代价是增加约15%训练时间，但测试阶段延迟仅增加2ms。

结论

AdLU系列通过参数化设计平衡了梯度稳定性与非线性表达能力，尤其适合深层网络（如ResNet-50）。未来可探索其在Transformer等架构的应用。

（注：翻译部分严格保留小标题层级，专业术语中英文对照，并去除文献引用标记[ ]）