随机非凸优化中基于分布式统一自适应动量梯度追踪(Gradient Tracking with Distributed Unified Adaptive Momentum for Stochastic Non-convex Optimization)

《Communications in Nonlinear Science and Numerical Simulation》:Gradient Tracking with Distributed Unified Adaptive Momentum for Stochastic Non-convex Optimization

【字体: 时间:2026年06月08日 来源:Communications in Nonlinear Science and Numerical Simulation 3.8

编辑推荐:

  本研究探讨网络智能体间的分布式非凸优化问题。目标是使所有智能体仅利用本地计算和对等通信协作寻求全局最优,从而消除对任何中心协调的需求。为此,研究人员提出基于分布式统一Adam型优化与梯度机制的梯度追踪与分布式统一自适应动量算法(GTDUAdam)。GTDUAd

  
本研究探讨网络智能体间的分布式非凸优化问题。目标是使所有智能体仅利用本地计算和对等通信协作寻求全局最优,从而消除对任何中心协调的需求。为此,研究人员提出基于分布式统一Adam型优化与梯度机制的梯度追踪与分布式统一自适应动量算法(GTDUAdam)。GTDUAdam算法集成分布式统一Adam型优化与梯度机制,并利用梯度追踪估计器抵消本地代价函数异构性。在非凸随机环境下,研究人员建立一个最优性间隙上界,证明GTDUAdam算法获得随随机梯度方差上界缩放的一阶平稳解。最后,研究人员将GTDUAdam算法应用于图像去模糊应用,取得预期结果,并通过与已有算法对比验证其有效性。
论文解读:随机非凸优化中基于分布式统一自适应动量梯度追踪
一、研究背景与问题提出
在现代机器学习和多智能体系统中,边缘节点计算能力有限,大规模数据处理常采用随机梯度下降(SGD)提升单步效率。随后发展的随机动量方法在非凸Polyak–?ojasiewicz条件下建立了统一收敛框架,却仍对步长选择高度敏感。为降低人工调参负担,自适应学习率方法成为主流,典型代表为Adam算法,它融合一阶与二阶动量及自适应学习率。UAdam框架进一步为Adam族算法提供了统一分析与理论保证。
与此同时,分布式优化广泛应用于传感器网络、智能电网和多智能体协同控制。传统工作多聚焦凸优化,而现实任务(如机器人控制、信号处理)天然为非凸问题,存在多局部最优与复杂景观,需将SGD与自适应方法扩展至分布式非凸场景。现有分布式Adam变体(如压缩通信AMSGrad)及随机Nesterov动量方法已取得进展,但仍面临两大挑战:一是各智能体本地代价函数异构(Non-IID数据)导致本地梯度偏置;二是多数Adam型算法需中心节点聚合,难以纯粹对等部署。
梯度追踪(Gradient Tracking)通过动态平均一致性机制缓解异构性,已在有向图、量化通信、对偶分配及非线性通信等场景演化。然而,将统一自适应动量(Unified Adaptive Momentum)与梯度追踪结合,并在纯分布式、非凸、随机设置下给出收敛保证的研究尚不充分。因此,研究人员开展本研究,设计新算法GTDUAdam,并给出理论分析与实验验证。论文发表于《Communications in Nonlinear Science and Numerical Simulation》。
二、主要关键技术方法
研究人员以多智能体协同优化模型为基础,假设通信拓扑为权重平衡有向图。核心方法是构造梯度追踪与分布式统一Adam型更新相融合的GTDUAdam算法:每个智能体维护本地模型、一阶动量指数滑动平均、二阶动量指数滑动平均,以及梯度追踪估计器(动态一致梯度均值)。更新中采用UAdam的统一自适应缩放规则,用二阶矩开方修正步长,并以梯度追踪项校正异构梯度偏置。理论分析在光滑非凸、随机梯度无偏有界方差假设下,通过构造李雅普诺夫型上界推导最优性间隙,得到O(1/T)一阶平稳点收敛速率。实验上,研究人员将算法用于图像去模糊(线性退化模型yi=Hix+ni,含运动模糊与加性白噪声),并与经典分布式梯度追踪及Adam型基线对比。
三、论文主体结果与结论
问题建模(Problem Formulation)
研究人员给出符号体系与分布式优化目标:各智能体最小化本地随机代价的均值和。明确网络权矩阵、邻域定义及梯度追踪初值设定,并给出图像去模糊的应用示例,为算法设计奠定模型基础。
算法构建(Algorithm Construction)
研究人员提出GTDUAdam算法:每轮各智能体执行三步——(1)用本地随机梯度更新一阶、二阶动量;(2)以统一自适应缩放量更新本地模型,并通过对等加权聚合邻居模型;(3)用梯度追踪更新本地梯度估计为邻居梯度估计的加权动态平均。相比传统分布式梯度追踪,GTDUAdam引入自适应动量;相比中心化Adam,无需中心节点。
收敛分析(Convergence Analysis)
研究人员先给出预备引理(动量偏差有界、追踪误差收缩),再推导辅助不等式,最终得到主定理:在光滑非凸、步长与动量系数满足标准条件下,GTDUAdam的梯范数平方均值满足O(1/T)上界,且常数依赖随机梯度方差上界。这表明算法以一阶平稳点意义收敛,且自适应动量不影响非凸O(1/T)速率阶。
数值算例(Numerical Examples)
研究人员在图像去模糊任务上测试:将清晰图像x通过退化矩阵Hi(含恒等矩阵噪图与运动模糊核)加噪得yi。多智能体分布存储不同模糊-噪型子集(模拟Non-IID)。GTDUAdam与分布式SGD、重球梯度追踪、分布式AMSGrad对比。结果表明GTDUAdam在恢复PSNR与收敛速度上更优,验证理论。
四、讨论与结论翻译
研究人员总结:本文提出GTDUAdam解决分布式非凸优化,利用梯度追踪估计器处理本地代价函数异构,在光滑非凸环境下证明O(1/T)收敛速率,数值仿真确认其效力。但GTDUAdam通信与状态存储开销较高(每节点额外存一阶、二阶动量与梯度追踪变量)。未来可结合压缩通信或事件触发机制降本。
研究结论部分翻译:
本文提出一种称为GTDUAdam的新型算法以解决分布式非凸优化问题。GTDUAdam算法利用梯度追踪估计器处理本地代价函数异构性。此外,研究人员证实GTDUAdam算法在光滑非凸环境中实现O(1/T)收敛速率。GTDUAdam算法的有效性已通过数值仿真确认。然而,GTDUAdam算法引入了较高的……(原文在此截断)。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号