深度学习 Deep Learning

有关神经网络的部分可以查看这里的BP神经网络的部分：https://github.com/lawlite19/MachineLearning_Python

一、CNN卷积神经网络

参考文章：http://cs231n.github.io/convolutional-networks/#conv

1、概述

典型的深度学习模型就是很深层的神经网络，包含多个隐含层，多隐层的神经网络很难直接使用BP算法进行直接训练，因为反向传播误差时往往会发散，很难收敛
CNN节省训练开销的方式是权共享weight sharing，让一组神经元使用相同的权值
主要用于图像识别领域

2、卷积（Convolution）特征提取

卷积核（Convolution Kernel），也叫过滤器filter，由对应的权值W和偏置b体现
下图是3x3的卷积核在5x5的图像上做卷积的过程，就是矩阵做点乘之后的和
第i个隐含单元的输入就是： ${W_{\rm{i}}}{x_{small}} + {b_i}$ ，其中 ${x_{small}}$ 就时与过滤器filter过滤到的图片
另外上图的步长stride为1，就是每个filter每次移动的距离
卷积特征提取的原理
卷积特征提取利用了自然图像的统计平稳性，这一部分学习的特征也能用在另一部分上，所以对于这个图像上的所有位置，我们都能使用同样的学习特征。
当有多个filter时，我们就可以学到多个特征，例如：轮廓、颜色等
多个过滤器filter（卷积核）
例子如下
一张图片有RGB三个颜色通道，则对应的filter过滤器也是三维的，图像经过每个filter做卷积运算后都会得到对应提取特征的图像，途中两个filter:W0和W1,输出的就是两个图像
这里的步长stride为2（一般就取2,3）
在原图上添加zero-padding，它是超参数，主要用于控制输出的大小
同样也是做卷积操作，以下图的一步卷积操作为例：
与w0[:,:,0]卷积：0x(-1)+0x0+0x1+0x1+0x0+1x(-1)+1x0+1x(-1)+2x0=-2
与w0[:,:,1]卷积：2x1+1x(-1)+1x1=2
与w0[:,:,2]卷积：1x(-1)+1x(-1)=-2
最终结果：-2+2+(-2)+1=-1 (1为偏置)

3、池化（Pooling）

也叫做下采样
Pooling过程
把提取之后的特征看做一个矩阵，并在这个矩阵上划分出几个不重合的区域，
然后在每个区域上计算该区域内特征的均值或最大值，然后用这些均值或最大值参与后续的训练 -下图是使用最大Pooling的方法之后的结果
Pooling的好处
很明显就是减少参数
Pooling就有平移不变性（(translation invariant）如图feature map是12x12大小的图片，Pooling区域为6x6,所以池化后得到的feature map为2x2,假设白色像素值为1，灰色像素值为0，若采用max pooling之后，左上角窗口值为1
将图像右移一个像素，左上角窗口值仍然为1

将图像缩放之后，左上角窗口值仍然为1
Pooling的方法中average方法对背景保留更好，max对纹理提取更好
深度学习可以进行多次卷积、池化操作

4、激活层

在每次卷积操作之后一般都会经过一个非线性层，也是激活层
现在一般选择是ReLu,层次越深，相对于其他的函数效果较好，还有Sigmod,tanh函数等
sigmod和tanh都存在饱和的问题，如上图所示，当x轴上的值较大时，对应的梯度几乎为0，若是利用BP反向传播算法，可能造成梯度消失的情况，也就学不到东西了

5、全连接层 Fully connected layer

将多次卷积和池化后的图像展开进行全连接，如下图所示。
接下来就可以通过BP反向传播进行训练了
所以总结起来，结构可以是这样的

6、CNN是如何工作的

看到知乎上的一个回答还不错：https://www.zhihu.com/question/52668301
每个过滤器可以被看成是特征标识符（ feature identifiers）
如下图一个曲线检测器对应的值
我们有一张图片，当过滤器移动到左上角时，进行卷积运算
当与我们的过滤器的形状很相似时，得到的值会很大
若是滑动到其他的部分，可以看出很不一样，对应的值就会很小，然后进行激活层的映射。
过滤器filter的值怎么求到，就是我们通过BP训练得到的。

7、CNN的Tensorflow实现

代码和说明放到了另外一个Tensorflow学习的仓库里了
全部代码：https://github.com/lawlite19/MachineLearning_TensorFlow/blob/master/Mnist_03_CNN/mnist_cnn.py
说明部分（第七部分）：https://github.com/lawlite19/MachineLearning_TensorFlow

8、CNN公式推导

（1）说明

参考论文：http://cogprints.org/5869/1/cnn_tutorial.pdf
或者在这里查看：https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/cnn_tutorial.pdf
BP神经网络之前写过推导，可以查看这里的第三部分BP神经网络：https://github.com/lawlite19/MachineLearning_Python
我们假设CNN中每个卷积层下面都跟着一个Pooling池化层（下采样层）
文章的理解可能会有问题

（2）符号说明

l..................当前层
${{M_j}}$ ..................输入maps的集合
up()..................上采样函数
ㅇ....................表示对应每个元素相乘
β....................下采样对应的“权重”（定义为常量）
${p_i^{l - 1}}$ ................... ${{\rm{x}}_i^{l - 1}}$ 中在卷积运算中逐个与 ${k_{ij}^l}$ 相乘的patch
down()..................下采样函数

（3）卷积层

1）卷积层计算公式
${\rm{x}}j^l = f(\sum\limits{i \in {M_j}} {{\rm{x}}i^{l - 1}*k{ij}^l + b_j^l} )$
${\rm{x}}_j^l$ 表示第l层的第j个feature map（特征图）
可以对照到上面多个卷积核的例子看
j相当于是第几个卷积核
i相当于对应卷积核或是map的维度
2）卷积层梯度计算
paper中叫做使用BP计算当前层layer单元的灵敏度（sensitivity）
也就是误差的计算，之前我在BP神经网络中推导过，这里不再给出
当前层的第j个unit的灵敏度 $\delta _{\rm{j}}^l$ 结果就是：先对下一层的节点（连接到当前层l的感兴趣节点的第l+1层的节点）的灵敏度求和（得到 $\delta _{\rm{j}}^{l + 1}$ ），然后乘以这些连接对应的权值（连接第l层感兴趣节点和第l+1层节点的权值）W。再乘以当前层l的该神经元节点的输入u的激活函数f的导数值
$\delta _{\rm{j}}^l = \beta _j^{l + 1}({f^'}(u_j^l) \circ up(\delta _{\rm{j}}^{l + 1}))$
下采样的“weights”可以定义为常量β（可以查看下面Pooling层输出的表示）
up表示上采样操作，因为我们之前假设每个卷积层之后跟着一个Pooling层，所以反向传播需要进行上采样
up上采样可以使用克罗内克积（Kronecker）实现，如果A是一个 m x n 的矩阵，而B是一个 p x q 的矩阵，克罗内克积则是一个 mp x nq 的矩阵， $up({\rm{x}}) = {\rm{x}} \otimes {1_{n \times n}}$
所以偏置的梯度为： ${{\partial E} \over {\partial {b_j}}} = \sum\limits_{u,v} {{{(\delta {\rm{j}}^l)}{uv}}}$ （因为神经网络中对b的梯度为：( ${{\partial E} \over {\partial b}} = {{\partial E} \over {\partial u}}{{\partial u} \over {\partial b}} = \delta$ （δ就是误差，根据定义的代价函数E得来的），其中u为layer的输入： ${u^l} = {W^l}{{\rm{x}}^{l - 1}} + {b^l}$ ）
所以卷积核权值的梯度为： ${{\partial E} \over {\partial k_{ij}^l}} = \sum\limits_{u,v} {{{(\delta {\rm{j}}^l)}{uv}}(p_i^{l - 1})uv}$ （其中： ${p_i^{l - 1}}$ 为 ${{\rm{x}}_i^{l - 1}}$ 中在卷积运算中逐个与 ${k_{ij}^l}$ 相乘的patch，因为权重的系数就是对应的patch，对权重求导，就是这个系数）

（4）子采样层（Sub-sampling Layers）

1）子采样层计算公式
${\rm{x}}_j^l = f(\beta j^ldown({\rm{x}}{\rm{j}}^{l - 1}) + b_j^l)$
乘以一个常数权重β，再加上偏置，然后再调用激活函数（这里和上面的pooling的操作有所不同，但总的来数还是下采样的过程）
2）梯度计算
敏感度公式: $\delta _{\rm{j}}^l = {f^'}(u_j^l) \circ conv2(\delta _{\rm{j}}^{l + 1},rot180(k_j^{l + 1}),'full')$
和上面的其实类似，就是换成下一层对应的权重k，rot180()是旋转180度，因为卷积的时候是将卷积核旋转180度之后然后在点乘求和的
对偏置b的梯度与上面的一样
对于乘法偏置（文中叫 multiplicative bias）β的梯度为： ${{\partial E} \over {\partial {\beta j}}} = \sum\limits{u,v} {{{(\delta {\rm{j}}^l \circ d_j^l)}{uv}}}$ ，其中 $d_j^l = down({\rm{x}}_j^{l - 1})$

二、权重初始化问题1_Sigmoid\tanh\Softsign激励函数

1、说明

参考论文：http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf
或者查看这里，我放在github上了：https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/Understanding%20the%20difficulty%20of%20training%20deep%20feedforward%20neural%20networks.pdf
这是2010年的论文，当时只是讨论的Sigmoid，tanh和Softsign激活函数，解决深层神经网络梯度消失的问题，并提出了一种初始化权重weights的方法，但是对于ReLu激活函数还是失效的，下一篇再讲。

2、实验

论文先是指出了Sigmoid激励函数是不适合作为深度学习的激励函数的，因为它的均值总是大于0的，导致后面隐含层hidden layer的神经元趋于饱和
构建了含有4个隐层的神经网络，激活函数为Sigmoid,观察每一层的激活值的均值和标准差的岁训练次数的变化情况，layer1表示第一个隐含层，一次类推。
初始化权重 ${W_{ij}} \sim U[ - {1 \over {\sqrt n }},{1 \over {\sqrt n }}]$ ,即服从均匀分布
如下图所示，实线表示均值mean value，垂直的条表示标准差。
因为使用的均匀分布进行的初始化，所以前几层x的均值近似为0，所以对应Sigmoid函数的值就是0.5
但是最后一层layer4的输出很快就饱和了（激活值趋于0）,训练到大100的时候才慢慢恢复正常
作者给出当有5个隐含层的时候，最后一层始终处于饱和状态
标准差反应的是数值的波动，可以看出后面才有了标准差的值
直观解释
最后使用的是softmax(b+Wh)作为预测，刚开始训练的时候不能够很好的预测y的值，因此误差梯度会迫使Wh趋于0，所以会使h的值趋于0
h就是上一层的激活输出，所以对应的激活值很快降为0
tanh激活函数是关于原点对称的，趋于0是没有问题的，因为梯度能够反向传回去。

3、初试化方法公式推导

首先代价函数使用的是交叉熵代价函数，相比对于二次代价函数会更好，看下对比就知道了，二次代价函数较为平坦，所以使用梯度下降会比较慢。（图中W1表示第一层的权重，W2表示第二层的权重）
以tanh激活函数为例
符号说明
${z^i}$ ………………………………第i层的激活值向量
${{\rm{s}}^i}$ ………………………………第i+1层的输入
x…………………………………输入
${{\rm{n}}_i}$ ………………………………..第i层神经元个数
W………………………………权重
Cost………………………………代价函数
所以第i+1层的输入：
${{\rm{s}}^i} = {z^i}{W^i} + {b^i}$
激活之后的值表示：
${z^{i + 1}} = f({s^i})$ ，
❶根据BP反向传播可以得到：
${{\partial Cost} \over {\partial s_k^i}} = {f^'}(s_k^i)W_{k, \bullet }^{i + 1}{{\partial Cost} \over {\partial {s^{i + 1}}}}$
❷权重的偏导（梯度）就为：
${{\partial Cost} \over {\partial w_{l,k}^i}} = z_l^i{{\partial Cost} \over {\partial s_k^i}}$
还是BP反向传播的推导，可以查看我之前给的BP反向传播的推导。
它这里W是从0开始的，所以对应可能不太一致。
tanh的导数为：
${[\tanh (x)]^'} = 1 - {[\tanh (x)]^2}$
所以： ${f^'}(0) = 1$
当的很小时，可以得到： ${f^'}(s_k^i) \approx 1$
这里实际上他是假设激励函数是线性的，下一篇论文中也有提到。
根据方差公式：
$Var(x) = E({x^2}) - {E^2}(x)$ 可以得到❸：
$Var[{z^i}] = Var[x]\prod\limits_{j = 0}^{i - 1} {{n_j}Var[{W^j}]}$ ，
推导如下：
$Var(s) = Var(\sum\limits_i^n {{w_i}{x_i}} ) = \sum\limits_i^n {Var({w_i}{x_i})}$
（式子太长，直接截图的，没用LaTex解析）
因为输入的均值为0，可以得到：
所以：，代入上面即可。
因为之前 ${f^'}(s_k^i) \approx 1$ ，所以可以得到❹：
$V{\rm{ar}}[{{\partial Cost} \over {\partial {s^i}}}] = Var[{{\partial Cost} \over {\partial {s^n}}}]\prod\limits_{j = i}^n {{n_{j + 1}}Var[{W^j}]}$
将❸❹代入到对权重w偏导❷（即为梯度）的方差为: $Var[{{\partial Cost} \over {\partial {w^i}}}] = \prod\limits_{j = 0}^{i - 1} {{n_j}Var[{W^j}]} \prod\limits_{j = i}^{n - 1} {{n_{j + 1}}Var[{W^j}]} * Var[x]Var[{{\partial Cost} \over {\partial {s^n}}}]$
对于正向传播，我们希望： $\forall (i,j),Var[{z^i}] = Var[{z^j}]$
对于反向传播，同样希望： $\forall (i,j),Var[{{\partial Cost} \over {\partial {s^i}}}] = Var[{{\partial Cost} \over {\partial {s^j}}}]$
两种情况可以转化为：
❺ ${n_i}Var[{w^{\rm{i}}}] = 1$ 和❻ ${n_{i + 1}}Var[{w^{\rm{i}}}] = 1$
（比如第一种：
， $V{\rm{ar}}({z^i}) = Var(x)$ ，所以 ${n_i}Var[{w^{\rm{i}}}] = 1$ ，第二种情况同理）
❺❻两式相加得：
$Var[{W^i}] = {2 \over {{n_i} + {n_{i + 1}}}}$
最后提出了一个归一化的初始化方法,因为W服从均匀分布U[-c,c]，根据均匀分布的方差公式得：
${{{{[c - ( - c)]}^2}} \over {12}} = {{{c^2}} \over 3}$
所以： ${2 \over {{n_i} + {n_{i + 1}}}} = {{{c^2}} \over 3}$
求出， $c = {{\sqrt 6 } \over {\sqrt {{n_i} + {n_{i + 1}}} }}$
所以◆◆最终给出初始化权重的方法为：
$W \sim U[ - {{\sqrt 6 } \over {\sqrt {{n_i} + {n_{i + 1}}} }},{{\sqrt 6 } \over {\sqrt {{n_i} + {n_{i + 1}}} }}]$
这就是Xavier初始化方法

三、权重初始化问题2_`ReLu`激励函数

1、说明

参考论文：https://arxiv.org/pdf/1502.01852v1.pdf
或者查看这里，我放在github上了：https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/Delving%20Deep%20into%20Rectifiers%20Surpassing%20Human-Level%20Performance%20on%20ImageNet%20Classification%EF%BC%88S%E5%9E%8B%E5%87%BD%E6%95%B0%E6%9D%83%E9%87%8D%E5%88%9D%E5%A7%8B%E5%8C%96%EF%BC%89.pdf

2、`ReLu/PReLu`激励函数

目前ReLu激活函数使用比较多，而上面一篇论文没有讨论，如果还是使用同样初始化权重的方法（Xavier初始化）会有问题
PReLu函数定义如下：
等价于： $f({y_i}) = \max (0,{y_i}) + {a_i}\min (0,{y_i})$
ReLu（左）和PReLu（右）激活函数图像

3、前向传播推导

符号说明
ε……………………………………目标函数
μ……………………………………动量
α……………………………………学习率
f()………………………………激励函数
l……………………………………当前层
L……………………………………神经网络总层数
k……………………………………过滤器filter的大小
c……………………………………输入通道个数
x……………………………………k^2c*1的向量
d……………………………………过滤器filter的个数
b……………………………………偏置向量
${y_l} = {W_l}{{\rm{x}}_l} + {b_l}$ ..............................................................(1)
${{\rm{x}}l} = f({y{l - 1}})$
${{\rm{c}}l} = {d{l - 1}}$
根据式(1)得：
$Var[{y_l}] = {n_l}Var[{w_l}{x_l}]$ ..................................................(2)
因为初始化权重w均值为0，所以期望： $E({w_l}) = 0$ ，方差： $Var[{w_l}] = E(w_l^2) - {E^2}({w_l}) = E(w_l^2)$
根据式(2)继续推导：
............................................(3)
对于x来说： $Var[{x_l}] \ne E[x_l^2]$ ，除非x的均值也是0,
对于ReLu函数来说： ${x_l} = \max (0,{y_{l - 1}})$ ，所以不可能均值为0
w满足对称区间的分布，并且偏置 ${b_{l - 1}} = 0$ ，所以 ${y_{l - 1}}$ 也满足对称区间的分布，所以：
..........................................(4)
将上式(4)代入(3)中得：
$Var[{y_l}] = {1 \over 2}{n_l}Var[{w_l}]Var[{y_{l - 1}}]$ .......................................................(5)
所以对于L层:
$Var[{y_L}] = Var[{y_1}]\prod\limits_{l = 2}^L {{1 \over 2}{n_l}Var[{w_l}]}$ .....................................................................(6)
从上式可以看出，因为累乘的存在，若是 ${1 \over 2}{n_l}Var[{w_l}] < 1$ ，每次累乘都会使方差缩小，若是大于1，每次会使方差当大。
所以我们希望：
${1 \over 2}{n_l}Var[{w_l}] = 1$
所以初始化方法为：是w满足均值为0，标准差为 $\sqrt {{2 \over {{n_l}}}}$ 的高斯分布，同时偏置初始化为0

4、反向传播推导

$\Delta {{\rm{x}}_l} = \widehat {{W_l}}\Delta {y_l}$ ....................................................(7)
假设 $\widehat {{W_l}}$ 和 $\Delta {y_l}$ 相互独立的
当 $\widehat {{W_l}}$ 初始化Wie对称区间的分布时，可以得到： $\Delta {{\rm{x}}_l}$ 的均值为0
△x,△y都表示梯度，即：
$\Delta {\rm{x}} = {{\partial \varepsilon } \over {\partial {\rm{x}}}}$ ， $\Delta y = {{\partial \varepsilon } \over {\partial y}}$
根据反向传播：
$\Delta {y_l} = {f^'}({y_l})\Delta {x_{l + 1}}$
对于ReLu函数，f的导数为0或1，且概率是相等的，假设 ${f^'}({y_l})$ 和 $\Delta {x_{l + 1}}$ 是相互独立的，
所以： $E[\Delta {y_l}] = E[\Delta {x_{l + 1}}]/2 = 0$
所以： $E[{(\Delta {y_l})^2}] = Var[\Delta {y_l}] = {1 \over 2}Var[\Delta {x_{l + 1}}]$ ...................................................(8)
根据(7)可以得到：
将L层展开得：
$Var[\Delta {x_2}] = Var[\Delta {x_{L + 1}}]\prod\limits_{l = 2}^L {{1 \over 2}\widehat {{n_l}}Var[{w_l}]}$ ...........................................................(9)
同样令： ${1 \over 2}\widehat {{n_l}}Var[{w_l}] = 1$
注意这里： $\widehat {{n_l}} = k_l^2{d_l}$ ，而 ${n_l} = k_l^2{c_l} = k_l^2{d_{l - 1}}$
所以 ${{\rm{w}}_l}$ 应满足均值为0，标准差为： $\sqrt {{2 \over {\widehat {{n_l}}}}}$ 的分布

5、正向和反向传播讨论、实验和PReLu函数

对于正向和反向两种初始化权重的方式都是可以的，论文中的模型都能够收敛
比如利用反向传播得到的初始化得到： $\prod\limits_{l = 2}^L {{1 \over 2}\widehat {{n_l}}Var[{w_l}]} = 1$
对应到正向传播中得到：
所以也不是逐渐缩小的
实验给出了与第一篇论文的比较，如下图所示，当神经网络有30层时，Xavier初始化权重的方法（第一篇论文中的方法）已经不能收敛。
对于PReLu激励函数可以得到： ${1 \over 2}(1 + {a^2}){n_l}Var[{w_l}] = 1$
当a=0时就是对应的ReLu激励函数
当a=1是就是对应线性函数

四、Batch Normalization（BN）批标准化

1、说明

参考论文：http://jmlr.org/proceedings/papers/v37/ioffe15.pdf
或者查看这里，我放在github上了：https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/%EF%BC%88BN%EF%BC%89Batch%20Normalization%20Accelerating%20Deep%20Network%20Training%20by%20Reducing%20Internal%20Covariate%20Shift.pdf

2、论文概述

2015年Google提出的Batch Normalization
训练深层的神经网络很复杂，因为训练时每一层输入的分布在变化，导致训练过程中的饱和，称这种现象为：internal covariate shift
需要降低学习率Learning Rate和注意参数的初始化
论文中提出的方法是对于每一个小的训练batch都进行标准化（正态化）
允许使用较大的学习率
不必太关心初始化的问题
同时一些例子中不需要使用Dropout方法避免过拟合
此方法在ImageNet classification比赛中获得4.82% top-5的测试错误率

3、`BN`思路

如果输入数据是白化的（whitened），网络会更快的收敛
白化目的是降低数据的冗余性和特征的相关性，例如通过线性变换使数据为0均值和单位方差
并非直接标准化每一层那么简单，如果不考虑归一化的影响，可能会降低梯度下降的影响
标准化与某个样本和所有样本都有关系
解决上面的问题，我们希望对于任何参数值，都要满足想要的分布；
$\widehat x{\rm{ = }}N{\rm{orm}}({\rm{x}},\chi )$
对于反向传播，需要计算: ${{\partial N{\rm{orm}}({\rm{x}},\chi )} \over {\partial {\rm{x}}}}$ 和 ${{\partial N{\rm{orm}}({\rm{x}},\chi )} \over {\partial \chi }}$
这样做的计算代价是非常大的，因为需要计算x的协方差矩阵
然后白化操作： ${{{\rm{x}} - E[{\rm{x}}]} \over {\sqrt {Cov[{\rm{x}}]} }}$
上面两种都不行或是不好，进而得到了BN的方法
既然白化每一层的输入代价非常大，我们可以进行简化
简化1
标准化特征的每一个维度而不是去标准化所有的特征，这样就不用求协方差矩阵了
例如d维的输入： ${\rm{x}} = ({x^{(1)}},{x^{(2)}}, \cdots ,{x^{(d)}})$
标准化操作：
${\widehat x^{(k)}} = {{{x^{(k)}} - E[{x^{(k)}}]} \over {\sqrt {Var[{{\rm{x}}^{(k)}}]} }}$
需要注意的是标准化操作可能会降低数据的表达能力,例如我们之前提到的Sigmoid函数：
标准化之后均值为0，方差为1，数据就会落在近似线性的函数区域内，这样激活函数的意义就不明显
所以对于每个，对应一对参数： ${\gamma ^{(k)}},{\beta ^{(k)}}$ ，然后令： ${y^{(k)}} = {\gamma ^{(k)}}{\widehat x^{(k)}} + {\beta ^{(k)}}$
从式子来看就是对标准化的数据进行缩放和平移，不至于使数据落在线性区域内，增加数据的表达能力（式子中如果： ${\gamma ^{(k)}} = \sqrt {Var[{{\rm{x}}^{(k)}}]}$ ， ${\beta ^{(k)}} = E[{x^{(k)}}]$ ，就会使恢复到原来的值了）
但是这里还是使用的全部的数据集，但是如果使用随机梯度下降，可以选取一个batch进行训练
简化2
第二种简化就是使用mini-batch进行随机梯度下降
注意这里使用mini-batch也是标准化每一个维度上的特征，而不是所有的特征一起，因为若果mini-batch中的数据量小于特征的维度时，会产生奇异协方差矩阵，对应的行列式的值为0，非满秩
假设mini-batch 大小为m的B
$B = { {x_{1 \ldots m}}}$ ，对应的变换操作为： $B{N_{\gamma ,\beta }}:{x_{1 \ldots m}} \to {y_{1 \ldots m}}$
作者给出的批标准化的算法如下：
算法中的ε是一个常量，为了保证数值的稳定性
反向传播求梯度：
因为： ${y^{(k)}} = {\gamma ^{(k)}}{\widehat x^{(k)}} + {\beta ^{(k)}}$
所以： ${{\partial l} \over {\partial {{\widehat x}_i}}} = {{\partial l} \over {\partial {y_i}}}\gamma$
因为： ${\widehat x_i} = {{{x_i} - {\mu _B}} \over {\sqrt {\sigma _B^2 + \varepsilon } }}$
所以： ${{\partial l} \over {\partial \sigma B^2}} = {\sum\limits{i = 1}^m {{{\partial l} \over {\partial {{\widehat x}_i}}}({x_i} - {u_B}){{ - 1} \over 2}(\sigma _B^2 + \varepsilon )} ^{ - {3 \over 2}}}$
${{\partial l} \over {\partial {u_B}}} = \sum\limits_{{\rm{i = 1}}}^m {{{\partial l} \over {\partial {{\widehat x}_i}}}} {{ - 1} \over {\sqrt {\sigma _B^2 + \varepsilon } }}$
因为： ${\mu B} = {1 \over m}\sum\limits{i = 1}^m {{x_i}}$ 和 $\sigma B^2 = {1 \over m}\sum\limits{i = 1}^m {({x_i}} - {\mu _B}{)^2}$
所以： ${{\partial l} \over {\partial {x_i}}} = {{\partial l} \over {\partial {{\widehat x}_i}}}{1 \over {\sqrt {\sigma _B^2 + \varepsilon } }} + {{\partial l} \over {\partial \sigma _B^2}}{{2({x_i} - {\mu _B})} \over m} + {{\partial l} \over {\partial {u_B}}}{1 \over m}$
所以： ${{\partial l} \over {\partial \gamma }} = \sum\limits_{i = 1}^m {{{\partial l} \over {\partial {y_i}}}} {\widehat x_i}$
${{\partial l} \over {\partial \beta }} = \sum\limits_{i = 1}^m {{{\partial l} \over {\partial {y_i}}}}$
对于BN变换是可微分的，随着网络的训练，网络层可以持续学到输入的分布。

4、`BN`网络的训练和推断

按照BN方法，输入数据x会经过变化得到BN（x），然后可以通过随机梯度下降进行训练，标准化是在mini-batch上所以是非常高效的。
但是对于推断我们希望输出只取决于输入，而对于输入只有一个实例数据，无法得到mini-batch的其他实例，就无法求对应的均值和方差了。
可以通过从所有训练实例中获得的统计量来代替mini-batch中m个训练实例获得统计量均值和方差
我们对每个mini-batch做标准化，可以对记住每个mini-batch的B，然后得到全局统计量
$E[x] \leftarrow {E_B}[{\mu _B}]$
$Var[x] \leftarrow {m \over {m - 1}}{E_B}[\sigma _B^2]$ （这里方差采用的是无偏方差估计）
所以推断采用BN的方式为：
$\eqalign{ & y = \gamma {{x - E(x)} \over {\sqrt {Var[x] + \varepsilon } }} + \beta \cr & {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = {\gamma \over {\sqrt {Var[x] + \varepsilon } }}x + (\beta - {{\gamma E[x]} \over {\sqrt {Var[x] + \varepsilon } }}) \cr}$
作者给出的完整算法：

5、实验

最后给出的实验可以看出使用BN的方式训练精准度很高而且很稳定。

五、RNN和LSTM_01基础

由于 github 中不支持 Mathjax 公式，查看请移步我的博客
Tensorflow中实现一个Binary例子：查看这里
Tensorflow中的进阶实现：查看这里

lawlite19/DeepLearning_Python

lawlite19

Reviews

Repository Details

深度学习 Deep Learning

一、CNN卷积神经网络

1、概述

2、卷积（Convolution）特征提取

3、池化（Pooling）

4、激活层

5、全连接层 Fully connected layer

6、CNN是如何工作的

7、CNN的Tensorflow实现

8、CNN公式推导

（1）说明

（2）符号说明

（3）卷积层

（4）子采样层（Sub-sampling Layers）

二、权重初始化问题1_Sigmoid\tanh\Softsign激励函数

1、说明

2、实验

3、初试化方法公式推导

三、权重初始化问题2_`ReLu`激励函数

1、说明

2、`ReLu/PReLu`激励函数

3、前向传播推导

4、反向传播推导

5、正向和反向传播讨论、实验和PReLu函数

四、Batch Normalization（BN）批标准化

1、说明

2、论文概述

3、`BN`思路

4、`BN`网络的训练和推断

5、实验

五、RNN和LSTM_01基础

More Repositories

lawlite19/DeepLearning_Python

lawlite19

Reviews

Repository Details

深度学习 Deep Learning

一、CNN卷积神经网络

1、概述

2、卷积（Convolution）特征提取

3、池化（Pooling）

4、激活层

5、全连接层 Fully connected layer

6、CNN是如何工作的

7、CNN的Tensorflow实现

8、CNN公式推导

（1）说明

（2）符号说明

（3）卷积层

（4）子采样层（Sub-sampling Layers）

二、权重初始化问题1_Sigmoid\tanh\Softsign激励函数

1、说明

2、实验

3、初试化方法公式推导

三、权重初始化问题2_ReLu激励函数

1、说明

2、ReLu/PReLu激励函数

3、前向传播推导

4、反向传播推导

5、正向和反向传播讨论、实验和PReLu函数

四、Batch Normalization（BN）批标准化

1、说明

2、论文概述

3、BN思路

4、BN网络的训练和推断

5、实验

五、RNN和LSTM_01基础

More Repositories

三、权重初始化问题2_`ReLu`激励函数

2、`ReLu/PReLu`激励函数

3、`BN`思路

4、`BN`网络的训练和推断