【caffe 深度学习】3.各类优化器介绍_首页-摩臣-官方注册指定站

【caffe 深度学习】3.各类优化器介绍

发布时间：2024-03-04 13:00:49 浏览次数：

1.主要优化器：

2.各种优化器对比：

2.5NAG（Nesterov accelerated gradient）：

tf.train.GradientDescentOptimizer

tf.train.AdadeltaOptimizer

tf.train.AdagradOptimizer

tf.train.AdagradDAOptimizer

tf.train.MomentumOptimizer

tf.train.AdamOptimizer

tf.train.FtrlOptimizer

tf.train.ProximalGradientDescentOptimizer

tf.train.ProximalAdagradOptimizer

tf.train.RMSPropOptimizer

（1）标准梯度下降法：

标准梯度下降先计算所有样本汇总误差，然后根据总误差来更新权值（可能费时比较严重）

（2）随机梯度下降法：

随机梯度下降法随机抽取一个样本来计算误差，然后更新权值(所以权值更新的方向不保证正确）

批量梯度下降法：

?（3）批量梯度下降法是一个比较折中的方案，从总样本中抽取一定的批次（比如一共有10000个样本，随机抽取100个样本作为一个batch），然后计算这个batch的总误差，根据总误差来更新权值。

W：要训练的参数
L：代价函数
η：学习率

SGD缺点：

1.如果函数的形状非均向，比如呈延伸状，搜索的路径就会非常低效，比如呈“之字形”，它低效的根本原因是梯度的方向没有指向最小值方向。

2.不能逃离鞍点问题、峡谷问题。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

gt为当前估计的梯度。这里出现了一个新的变量v,对应于物理上的速度，上面第一个式子表示了物体在梯度上受力，在力的作用下物体速度增加这一物理法则。

当前权值的改变会受到上一次权值改变的影响，类似于小球向下滚动的时候带上了惯性。这样可以加快小球的向下的速度。

优点：

（1）与SGD方法相比，动量方法的收敛速度更快，收敛曲线也更稳定。如图所示：

（2）来到鞍点中心处，在惯性作用下继续前行，从而有机会冲出这片平坦的陷阱。

前面惯性的获得是基于历史信息的，我们还期待获得对周围环境的感知。

AdaGrad方法对环境的感知是指在参数空间中，根据不同参数的一些经验性判断，自适应地确定参数的学习速率，不同参数的更新幅度是不同的。它的核心思想是对比较常见的数据给予它比较小的学习率去调整参数，对于比较罕见的数据给予它比较大的学习率去调整参数。

实际应用中，我们希望更新频率低的参数可以拥有较大的更新步幅，而更新频率高的参数的步幅可以减小。（比如一个图片数据集，有10000张狗的照片，10000张猫的照片，只有100张大象的照片）。

AdaGrad方法采用“历史梯度平方和”来衡量不同参数的梯度的稀疏性，取值越小表明越稀疏。具体更新公式为：

?i：代表第i个分类
?t：代表出现次数
：的作用是避免分母为0，取值一般为1e-8
? η：取值一般为0.01
gk,i表示k时刻的梯度向量gk的第i个维度（方向）。

分母求和的形式实现了退火的过程，这是很多优化技术常用的策略，意味着随着时间的推移，学习速率? ? ? ? ? ? ?越来越小，从而保证了算法的最终收敛。

从分母中也可以看出，参数的元素中变动较大的元素学习率将变小（分母变大）。

优点：

（1）Adagrad主要的优势在于不需要人为地调节学习率，它可以自动调节。它的缺点在于，随着迭代次数增多，学习率也会越来越低，最终趋向于0。

（2）可以逃离鞍点问题

Adam方法将惯性保持和环境感知这两个优点集于一身：

（1）Adam记录梯度的一阶矩，即过往梯度与当前梯度的平均，这体现的惯性保持

（2）Adam还记录梯度的二阶矩，即过往梯度平方与当前梯度平方的平均，这体现了环境感知

一阶矩和二阶矩采用类似滑动窗口内求平均的思想进行融合，即当前梯度和近一段时间内梯度的平均值，时间久远的梯度对当前平均值的贡献呈指数衰减。具体来说，一阶矩和二阶矩采用指数衰退平均技术，计算公式为：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

Adam的更新公式为：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

其中：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

Adam会设置三个超参数，一个是学习率β1、β2标准的设置值分别为：0.9,0.999

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
在Momentum中小球会盲目地跟从下坡的梯度，容易发生错误，所以我们需要一个更聪明的小球，这个小球提取知道它要去哪里，它还要知道走到坡底的时候速度慢下来而不是冲上另一个坡。γvt-1会用来修改W的值，计算W-γvt-1可以表示小球下一个位置大概在哪里。?从而我们可以提取计算下一个位置的梯度，然后使用到当前位置。