然而,依赖于无偏梯度估计和随机扰动或负曲率方向的现有算法需要大量的函数评估次数来逃离鞍点。首先,由零均值噪声引入的随机扰动需要指数级的迭代次数才能消除鞍点(Lucchi, Orvieto, & Solomou, 2021)。其次,梯度估计和Hessian矩阵近似分别需要O(d)和O(d2)次函数评估,导致每次迭代都需要大量的函数评估。这使得梯度估计和避免鞍点在计算上变得非常困难,尤其是在具有多个鞍点的高维非凸优化问题中(Du et al., 2017)。
为了说明各种优化方法的局限性,我们对以下鞍点问题进行了研究:以及猴子鞍点问题。我们比较了普通的梯度下降(GD)、扰动近似梯度下降(PAGD)、ZOGD-2pt、SPSA和仅需要8次迭代的2-SPSA。如图1所示,GD(蓝星)被困在鞍点(0,0)处。PAGD(红线)和ZOGD-2pt(绿线)使用有限差分方法和零均值噪声(均匀和高斯分布)来逃离鞍点。然而,由于它们估计的梯度接近零,PAGD和ZOGD-2pt的轨迹很难区分,这使它们保持在鞍点附近,类似于GD。此外,它们采用的随机搜索技术需要大量的迭代次数(Lucchi et al., 2021)来消除鞍点。相比之下,渐进式无偏梯度估计方法SPSA(青线)和扰动梯度估计方法2-SPSA(紫线)更有效地逃离了鞍点。尽管它们的梯度不如真实梯度准确,但它们提供了远离鞍点的明确方向。此外,所提出的算法2-SPSA比SPSA更快地收敛到局部最优解。