《Frontiers in Artificial Intelligence》:A generalized logistic-logit function and its application to multi-layer perceptron and neuron segmentation
编辑推荐:
Logistic函数与Logit函数在现代科学中发挥重要作用,是人工神经网络(artificial neural networks, ANN)等各类应用中的基础工具。尽管已有函数可产生不同的Logistic曲线与Logit曲线,但目前尚无单一统一框架能同时生成
Logistic函数与Logit函数在现代科学中发挥重要作用,是人工神经网络(artificial neural networks, ANN)等各类应用中的基础工具。尽管已有函数可产生不同的Logistic曲线与Logit曲线,但目前尚无单一统一框架能同时生成Logistic曲线与Logit曲线。研究人员提出Cannistraci–Muscoloni–Gu广义Logistic–Logit函数(Cannistraci–Muscoloni–Gu generalized logistic–logit function, CMG-GLLF,简称CMG)以填补此空白。CMG提供四个可解释且可训练的参数,可显式控制:曲线类型与陡度(steepness)、非对称性(asymmetry)、x轴与y轴的上下限。研究人员探讨了CMG-GLLF在基础机器智能任务中的潜力。作为概念验证,研究人员提出一种可训练输入特征调制器(trainable Input Feature Modulator, IFM),由反向传播过程中为每个多层感知机(multi-layer perceptron, MLP)输入层节点学习CMG-GLLF参数构成,MLP是许多复杂网络架构的基本组成单元。在不同优化器下,与多种其他可学习函数相比,CMG使MLP在CIFAR-10与CIFAR-100图像分类任务中获得更优准确率与稳定训练行为,但代价是计算时间增加。因此研究人员指出未来研究中需解决的问题,尤其是推导Logit相位的显式数学表达式,其可:(i)缓解更复杂架构(如卷积神经网络CNN)中的数值不稳定性并降低计算开销;(ii)实现对CMG作为激活函数在所有层中应用的系统性评估。此外,CMG-GLLF作为数据变换函数应用于基于亲和图(affinity-graph-based)的神经元分割时可提升分割精度。CMG-GLLF在一个独特框架中结合了Logistic与Logit函数调制信号或变量的能力,涵盖衰减或放大变换的完整谱系。CMG-GLLF灵活且可训练,有潜力推进机器学习模型发展,并可启发其他科学领域数据分析挑战中的进一步应用。
论文解读:《Frontiers in Artificial Intelligence》——A generalized logistic-logit function and its application to multi-layer perceptron and neuron segmentation
一、研究背景与意义
标准Logistic函数σ(x)=1/(1+e-x)与Logit函数logit(p)=ln(p/(1-p))在统计学、生物学及人工神经网络(Artificial Neural Network, ANN)中应用广泛,前者常作激活函数,后者用于逻辑回归连接函数。然而标准形式缺乏灵活性,无法刻画不对称生长或响应行为;已有的广义Logistic函数(Richards曲线)虽引入额外参数,仍存在两个局限:一是不能精确设定x轴与y轴的可达上下界(exact reachable bounds),二是Logit相位的陡峭度与非对称性不能由独立参数分别控制,且现有文献缺乏一个统一框架可同时生成广义Logistic曲线与广义Logit曲线。为此,研究人员提出了Cannistraci–Muscoloni–Gu广义Logistic–Logit函数(CMG-GLLF,简称CMG),首次在同一框架下统一了Logistic与Logit曲线族,并提供对边界、非对称拐点(deviate inflection point, I)、拐点变化率(inflection rate, μ)及输出上下限(yL, yR)的显式独立控制。该研究发表于《Frontiers in Artificial Intelligence》。
二、主要关键技术方法
研究人员设计CMG函数含参数xmin、xmax(x轴上下界),yL、yR(对应y值上下界),I∈(0,1)(偏离拐点位置,控制曲线左右偏态:I<0.5左偏,I=0.5对称,I>0.5右偏),μ∈[0,1](拐点变化率:μ=0阶跃函数,0< /><μ<1广义logit由logistic相位数值求逆近似得到,μ=1常函数)。将cmg作为可训练输入特征调制器(input feature modulator,>μ<1广义logit由logistic相位数值求逆近似得到,μ=1常函数)。将cmg作为可训练输入特征调制器(input>i额外参),x/y界取批次数据最小最大值以保持原始范围不变,通过反向传播更新。实验采用CIFAR-10(10类,50000训练/10000测试,32×32彩图)与CIFAR-100(100类同类规模)基准数据集;MLP结构CIFAR-10为[3072→1024→512→10],CIFAR-100为[3072→2048→1024→100];优化器选用SGD(带动量)、AdamW及Muon;学习率调度测试线性(linear)、亚线性(sub-linear)、超线性(supra-linear)后选定超线性;对照包括无IFM(Vanilla MLP)、线性可学习IFM及其他双参数/四参数(SReLU)可学习函数。神经元分割实验采用CREMI挑战果蝇脑电镜(Electron Microscopy, EM)三维图像数据集,对U-Net预测的亲和图(affinity graph)施加CMG变换作软阈值增强,经合并函数(merge function, MF)与阈值网格搜索得最终分割,以CREMI分数(VOI与ARAND几何平均,越低越好)评估。Logit相位梯度借助反函数定理与隐函数定理用Logistic相位近似计算。图像调制效果以亮度(Luma, BT.601加权)的RMS对比度定量验证。
三、研究结果
2.1 Cannistraci–Muscoloni–Gu广义Logistic–Logit函数(CMG-GLLF)
研究人员给出CMG分段表达式:当0≤μ≤0.5时为广义Logistic形式CMG(x)=yL+(yR-yL)/{1+[(xmax-x)/(x-xmin)]·exp[(2-1/μ)·((x-xmin)/(xmax-xmin)-I)]};当0.5< />-1(x,1-μ)。xI=xmin+I·(xmax-xmin)为偏离拐点横坐标。μ连续控制从阶跃(μ=0)→Logistic(0< />< />
2.2 CMG作为MLP神经网络输入特征调制器(IFM)
研究人员将CMG IFM接入MLP输入层并在CIFAR-10/100上训练。超线性学习率调度表现最优故被采用。结果显示:(1)CMG IFM较Vanilla MLP在CIFAR-10与CIFAR-100上分别绝对提升测试准确率5.04%与6.38%,跨epoch面积(Area Across Epochs, AAE)分别提升3.93%与5.81%;(2)在多个双参数可学习IFM函数中CMG取得最高准确率与最快学习速度,次优为线性IFM;(3)较四参数SReLU,CMG学习速度更高且在CIFAR-10上准确率更优、CIFAR-100上相当;(4)在AdamW、SGD、Muon三种优化器下CMG均一致优于线性IFM与Vanilla MLP且无数值不稳定事件(NaN/Inf损失、梯度或参数);(5)CMG IFM仅增约0.17%(CIFAR-10)与0.07%(CIFAR-100)参数量,但GPU显存与训练时间高于基线;(6)可视化显示CMG调制后图像关键区域(蛙眼、鸟冠)亮度对比度(RMS Contrast)增大,定量验证像素亮度分布被重塑以突出判别性特征。结论:CMG作为可训练IFM可稳定提升MLP分类性能与学习速率。
2.3 CMG作为CNN中输入元素调制器的初步结果
研究人员将逐元素CMG IFM用于三层卷积+全连接CNN。结果表明CMG IFM在CNN上准确率低于Vanilla CNN且出现数值不稳定,而线性IFM仍优于Vanilla CNN且稳定。结论:当前CMG实现(依赖Logit相位近似求逆)需改进方适用于比MLP更复杂的架构。
2.4 利用CMG改进基于亲和图的神经元图像分割
研究人员以CMG变换原始亲和图权重作软阈值对比度增强后再做区域聚合分割。网格搜索μ(0.1–0.9)与I(0.1–0.9)得最优μ=0.4、I=0.3,CMG增强SOTA方法使CREMI分数降低9.0%(即改善9.0%),定性显示减少过分割错误。结论:CMG作为数据变换工具可有效提升亲和图基神经元分割精度。
四、讨论与结论总结
讨论部分指出:(1)CMG偏离拐点I在I≠0.5时不与最大增长率点重合,应用时需注意;(2)当前Logit相位靠数值求逆致CNN数值不稳定与额外计算开销,后续工作(Gu and Cannistraci, 2026预印本)已推导基于Newton法单步迭代的显式完全可微CMG表达式,解决上述问题并使CMG在CNN及VGG-16中亦为最佳IFM,且可作为隐层激活函数用于经典MLP与物理信息神经网络(Physics-Informed Neural Network, PINN)并取得显著性能提升,所学参数分布可作MLP与PINN可解释性分析工具;(3)未来需在更多深度学习架构与应用探索CMG潜力,尤其作为可学习激活函数促进模型可解释性。
研究结论(翻译自Discussion末段):
研究人员开发了Cannistraci–Muscoloni–Gu广义Logistic–Logit函数(CMG-GLLF),这是首个能同时生成Logistic与Logit曲线的统一框架。其可调参数可灵活控制曲线类型、陡度、非对称性及x轴与y轴上下限。通过将每个特征分配可学习CMG曲线作为多层感知机(multi-layer perceptron, MLP)的输入特征调制器(input feature modulator, IFM)并进行反向传播训练,研究人员以可忽略的参数增长(CIFAR-10中0.17%,CIFAR-100中0.07%)大幅提升了全连接MLP的性能,在AdamW、SGD与Muon三种优化器下均获得更优准确率与稳定训练。此外,CMG曲线通过变换中间产物——亲和图——提升了神经元图像分割算法的精度。实验表明CMG作为一个简洁而灵活的计算工具,在推进机器学习模型方面具有前景。