优化算法之二阶优化

深度学习基础知识点优化算法之二阶优化

二阶优化

牛顿法和拟牛顿法是无约束最优化问题的常用法，有收敛速度快的优点。牛顿法是迭代算法，每一步需要求解目标函数的海赛矩阵的逆矩阵，计算比较复杂。拟牛顿法通过正定矩阵近似海赛矩阵的逆矩阵或海赛矩阵，来简化这一计算过程。

牛顿法

考虑无约束最优化的问题

\[\underset{x\in R^n}{\min}f\left( x \right) (1)\]

其中，$x^{*}$为目标函数的极小值。

假设 $f\left( x \right)$ 具有二阶连续偏导数，若第$k$次迭代值为$x^{\left( k \right)}$，则可将$f\left( x \right) $在$x^{\left( k \right)}$附近进行二阶泰勒展开：

\[f\left( x \right) =f\left( x^{\left( k \right)} \right) +g_{k}^{T}\left( x-x^{\left( k \right)} \right) +\frac{1}{2}\left( x-x^{\left( k \right)} \right) ^TH\left( x^{\left( k \right)} \right) \left( x-x^{\left( k \right)} \right) (2)\]

其中，$g_k=g\left( x^{\left( k \right)} \right) =\nabla f\left( x^{\left( k \right)} \right)$ 是 $f\left( x \right) $的梯度向量在点$x^{\left( k \right)}$ 的值，$H\left( x^{\left( k \right)} \right)$ 是 $f\left( x \right)$ 的海赛矩阵。

\[H\left( x \right) =\left[ \frac{\partial ^2f}{\partial x_i\partial x_j} \right] _ {n\times n} (3)\]

在点 $x^{\left( k \right)}$ 的值。

函数 $f\left( x \right)$ 有极值的必要条件是在极值点处的一阶导数为 $0$，即梯度向量为 $0$。特别是当 $H\left( x^{\left( k \right)} \right)$ 是正定矩阵时，函数 $f\left( x \right)$ 的极值为极小值。

牛顿法利用极小值的必要条件：

\[\nabla f\left( x \right) =0 (4)\]

每次迭代中从点 $x^{\left( k \right)}$ 开始，求目标函数的极小值，作为第 $k+1$ 次迭代值 $x^{\left( k+1 \right)}$。具体的，假设 $x^{\left( k+1 \right)}$ 满足：

\[\nabla f\left( x^{\left( k+1 \right)} \right) =0 (5)\]

由公式(2)有：

\[\nabla f\left( x \right) =g_k+H_k\left( x-x^{\left( k \right)} \right) (6)\]

其中，$H_k=H\left( x^{\left( k \right)} \right)$.公式(5)成为：

\[g_k+H_k\left( x^{\left( k+1 \right)}-x^{\left( k \right)} \right) =0 (7)\]

因此，

\[x^{\left( k+1 \right)}=x^{\left( k \right)}-H_{k}^{-1}g_k (8)\]

或者

\[x^{\left( k+1 \right)}=x^{\left( k \right)}+p_k (9)\]

其中，

\[H_kp_k=-g_k (10)\]

用公式(8)作为迭代式的算法就是牛顿法。

拟牛顿法

牛顿法迭代中需要计算海赛矩阵的逆矩阵 $H^{-1}$，考虑到这一计算过程较为复杂，因此使用一个 $n$ 阶矩阵 $G_k=G\left( x^{\left( k \right)} \right)$ 来近似代替 $H_{k}^{-1}=H^{-1}\left( x^{\left( k \right)} \right)$。

牛顿法迭代中海赛矩阵 $H_k$ 满足的条件。首先，$H_k$ 满足以下关系。在式(6)中取 $x=x^{\left( k+1 \right)}$，得：

\[g_{k+1}-g_k=H_k\left( x^{\left( k+1 \right)}-x^{\left( k \right)} \right) (11)\]

记 $y_k=g_{k+1}-g_k$，$\delta _ k=x^{\left( k+1 \right)}-x^{\left( k \right)}$，则：

\[y_k=H_k\delta_ k (12)\]

或

\[H_{k}^{-1}y_ k=\delta_ k (13)\]

公式(12)或(13)称为拟牛顿条件。

如果 $H_k$ 是正定的（$H^{-1}$ 也是正定的），那么可以保证牛顿法搜索方向 $p_k$ 是下将降方向。这是由于搜索方向是 $p_k=-\lambda g_ k$，由式(8)有：

\[x=x^{\left( k \right)}+\lambda p_k=x^{\left( k \right)}-\lambda H_{k}^{-1}g_k (14)\]

所以 $f\left( x \right) $在$x^{\left( k \right)}$ 的泰勒展开式(2)可以近似写成：

\[f\left( x \right) =f\left( x^{\left( k \right)} \right) -\lambda g_{k}^{T}H_{k}^{-1}g_k (15)\]

因为 $H_{k}^{-1}$ 是正定的，故有 $g_{k}^{T}H_{k}^{-1}g_k>0$。当 $\lambda$ 为一个充分小的正数时，总有 $f\left( x \right) < f\left( x^{\left( k \right)} \right)$，也就是说 $p_ k$ 是下降方向。

拟牛顿法将 $G_ k$ 作为 $H_{k}^{-1}$ 的近似，要求矩阵 $G_k$ 满足同样的条件。首先，每次迭代矩阵 $G_k$ 是正定的。同时，$G_k$ 满足下面的拟牛顿条件： $G_{k+1}y_ k=\delta_ k (16)$

按照拟牛顿条件选择 $G_k$ 作为 $H_{k}^{-1}$ 或选择 $B_k$ 作为 $H_k$ 的近似的算法称为拟牛顿法。

按照拟牛顿条件，在每次迭代中可以选择更新矩阵$G_{k+1}$：

\[G_{k+1}=G_k+\varDelta G_k (17)\]

DFP(Davidon-Fletcher-Powell)

DFP 算法选择 $G_{k+1}$ 的方法是，假设每一步迭代中矩阵 $G_{k+1}$ 是由 $G_{k}$ 加上两个附加项构成，即：

\[G_{k+1}=G_k+P_k+Q_k (18)\]

其中，$P_k$ 和 $Q_k$ 是待定矩阵。这时：

\[G_{k+1}y_k=G_ky_k+P_ky_k+Q_ky_k (19)\]

为使 $G_{k+1}$ 满足拟牛顿条件，可使 $P_k$ 和 $Q_k$ 满足：

\[\begin{array}{c} P_ky_k=\delta_ k\\ Q_ky_k=-G_ky_ k\\ \end{array} (20)\]

其中，$P_ k$ 和 $Q_ k$ 可以有如下选择： $\begin{array}{c} P_k=\frac{\delta _k\delta _{k}^{T}}{\delta _{k}^{T}y_k}\\ Q_k=-\frac{G_ky_ky_{k}^{T}G_k}{y_{k}^{T}G_ky_k}\\ \end{array} (21)$

于是矩阵 $G_ {k+1}$ 的迭代公式：

\[G_{k+1}=G_k+\frac{\delta _k\delta _ {k}^{T}}{\delta _ {k}^{T}y_k}-\frac{G_ky_ky_{k}^{T}G_k}{y_{k}^{T}G_ky_k} (22)\]

称为 DFP 算法。

BFGS (Broyden-Fletcher-Goldfarb-Shanno)

可以考虑用 $G_ {k}$ 逼近海赛矩阵 $H^{-1}$ 的逆矩阵，也可以考虑用 $B_{k}$ 逼近海赛矩阵 $H$。

这时，相应的拟牛顿条件是： $B_{k+1}\delta_ k=y_ k (23)$

可以用同样的方法得到另一迭代公式。首先令：

\[B_{k+1}=B_k+P_k+Q_k (24) B_{k+1}\delta_ k=B_k\delta _k+P_k\delta_ k+Q_ k\delta _ k (25)\]

考虑使 $P_k$ 和 $Q_k$ 满足： $\begin{array}{c} P_k\delta _ k=y_k \\ Q_k\delta _ k=-B_k\delta_ k\\ \end{array} (26)$

找出适合条件的 $P_k$ 和 $Q_k$，得到 BFGS 算法矩阵 $B_{k+1}$ 的迭代公式：

\[B_{k+1}=B_k+\frac{y_ky_{k}^{T}}{y_{k}^{T}\delta _ k}-\frac{B_k\delta _ k\delta _{k}^{T}B_k}{\delta _ {k}^{T}B_ k\delta _ k}\]

莫小苝

优化算法之二阶优化

深度学习基础知识点优化算法之二阶优化

二阶优化

牛顿法

拟牛顿法

DFP(Davidon-Fletcher-Powell)

BFGS (Broyden-Fletcher-Goldfarb-Shanno)

Search

Categories Cloud

Table of Contents