深度学习基础知识点激活函数Swish
简介
受到 $LSTM$ 和 $highway \ network$ 中使用 $sigmoid$ 函数进行门控的启发,谷歌提出 $Swish$ 激活函数。
Swish 激活函数
$swish$ 激活函数的原始形式:
\[f\left( x \right) =x\cdot \sigma \left( x \right)\]其中,$\sigma$ 是 $sigmoid$ 函数。$swish$ 激活函数的图形如下:
swish 激活函数
$swish$ 激活函数的一阶导数如下:
\[\begin{array}{c} f^{'}\left( x \right) =\sigma \left( x \right) +x\cdot \sigma \left( x \right) \left( 1-\sigma \left( x \right) \right)\\ =\sigma \left( x \right) +x\cdot \sigma \left( x \right) -x\cdot \sigma \left( x \right) ^2\\ =x\cdot \sigma \left( x \right) +\sigma \left( x \right) \left( 1-x\cdot \sigma \left( x \right) \right)\\ =f\left( x \right) +\sigma \left( x \right) \left( 1-f\left( x \right) \right)\\ \end{array}\]$swish$ 激活函数的一阶和二阶导数的图像如下:
swish 导数
超参数版 $swish$ 激活函数:
\[f\left( x \right) =x\cdot \sigma \left( \beta x \right)\]其中,$\beta$ 是超参数。超参数版 $swish$ 激活函数的图形如下:
swish 超参数
优点
- 当 $x>0$ 时,不存在梯度消失的情况;当 $x<0$ 时,神经元也不会像 $ReLU$ 一样出现死亡的情况。
- $swish$ 处处可导,连续光滑。
- $swish$ 并非一个单调的函数。
- 提升了模型的性能。
缺点
- 计算量大