
-
生物通官微
陪你抓住生命科技
跳动的脉搏
RoSwish:一种基于自适应零旋转机制的新型激活函数及其在深度学习中的性能突破
【字体: 大 中 小 】 时间:2025年07月31日 来源:Neural Networks 6.3
编辑推荐:
本研究针对现有激活函数非线性表达能力不足的问题,创新性提出可旋转Swish(RoSwish)激活函数,通过引入α、β双参数动态调节Swish函数的旋转特性,在MNIST分类(提升16.02%)、ETTm2时间序列预测(提升6.06%)等任务中显著超越ReLU、GELU等主流AF,为深度学习的非线性建模提供新范式。
在人工智能的星辰大海中,神经网络如同模仿人脑的"数字神经元",而激活函数(Activation Function, AF)就是决定这些神经元是否"放电"的关键开关。尽管ReLU、GELU等经典激活函数已经让深度学习大放异彩,但它们就像固定齿轮的自行车,无法根据地形自动调节变速——当面对复杂多变的非线性问题时,这些"老伙计"就显得力不从心。特别是在处理时间序列预测、图像识别等任务时,现有AF往往陷入梯度消失、表达僵化的困境,就像用单一滤镜处理所有照片,难以捕捉数据的细微特征。
来自山东科技大学斯威本学院的Shengbo Zhang和Guoqiang Ren团队在《Neural Networks》发表的研究,带来了名为RoSwish的"智能变速器"。这个创新激活函数的数学表达式看似简单:f(x)=(x+α)·sigmoid(β·x)?0.5·α,却暗藏玄机。通过α、β两个可学习参数的动态配合,它能让Swish函数像旋转门一样绕零点自适应调节,既保留了ReLU的稀疏激活优势,又兼具GELU的平滑特性,堪称AF界的"瑞士军刀"。
研究团队采用理论证明与多任务验证相结合的策略。首先通过泰勒展开和通用近似定理严格论证RoSwish的数学完备性;随后在MNIST分类、推文标注等6类任务中,与13种主流AF进行横向对比;特别设计参数敏感度实验,揭示α控制负饱和值、β调节正斜率的双调控机制。所有实验均采用相同网络架构,通过控制变量法确保可比性。
【Universal Approximation Theory】部分通过构造性证明显示,RoSwish可精确逼近ReLU(当α→0、β→∞)、Swish(α=0)等多种AF形态,其二阶导数存在非零区域,理论上支持更丰富的特征学习。
【Experiment】部分的量化结果令人振奋:在MNIST自动编码任务中,RoSwish在低学习率(0.001)下比次优AF降低5% MSE;结合批标准化后,推文标注任务的准确率提升幅度达30.19%。时间序列预测中,RoSwish在ETTm2数据集上以6.06%的绝对优势领跑,证实其对非平稳信号的捕捉能力。
【Result and Discussion】深入分析了性能提升的三大机理:1)自适应旋转机制实现"一函数多形态";2)Sigmoid门控保留特征选择能力;3)连续可微特性保障梯度流动。与固定AF相比,RoSwish的参数化设计使模型参数量仅增加0.002%,却带来显著的信息增益。
这项研究不仅提出了性能卓越的RoSwish,更开创性地将非平稳随机过程理论引入AF设计,其衍生的NsSin系列函数在MNIST分类任务中再获6.55%提升。如同给神经网络装上了"自适应眼镜",这种动态调节机制为处理复杂信号提供了新思路。未来,随着对AF旋转动力学研究的深入,或将开启深度学习模型架构设计的新纪元。
生物通微信公众号
知名企业招聘