首页网络设计正文

残差网络基础教程（残差网络为什么叫残差）

网络设计 11个月前 (02-01) 898

本篇文章给大家谈谈残差网络基础教程，以及残差网络为什么叫残差对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。本文目录一览： 1、一个残差网络的简介【MATLAB】

本篇文章给大家谈谈残差网络基础教程，以及残差网络为什么叫残差对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、一个残差网络的简介【MATLAB】
2、残差网络(ResNet)
3、十分钟一起学会ResNet残差网络

一个残差网络的简介【MATLAB】

对于许多应用来说，使用由一个简单的层序列组成的网络就已足够。但是，某些应用要求网络具有更复杂的层次图结构，其中的层可接收来自多个层的输入，也可以输出到多个层。这些类型的网络通常称为有向无环图 (DAG) 网络。残差网络就是一种 DAG 网络，其中的残差（或快捷）连接会绕过主网络层。残差连接让参数梯度可以更轻松地从输出层传播到较浅的网络层，从而能够训练更深的网络。增加网络深度可在执行更困难的任务时获得更高的准确度。

主分支 - 顺序连接的卷积层、批量归一化层和 ReLU 层。

残差连接 - 绕过主分支的卷积单元。残差连接和卷积单元的输出按元素相加。当激活区域的大小变化时，残差连接也必须包含 1×1 卷积层。残差连接让参数梯度可以更轻松地从输出层流到较浅的网络层，从而能够训练更深的网络。

首先创建网络的主分支。主分支包含五部分。

初始部分 - 包含图像输入层和带激活函数的初始卷积层。

三个卷积层阶段 - 分别具有不同的特征大小（32×32、16×16 和 8×8）。每个阶段包含 N 个卷积单元。在示例的这一部分中，N = 2。每个卷积单元包含两个带激活函数的 3×3 卷积层。netWidth 参数是网络宽度，定义为网络第一卷积层阶段中的过滤器数目。第二阶段和第三阶段中的前几个卷积单元会将空间维度下***样二分之一。为了使整个网络中每个卷积层所需的计算量大致相同，每次执行空间下***样时，都将过滤器的数量增加一倍。

最后部分 - 包含全局平均池化层、全连接层、softmax 层和分类层。

使用 convolutionalUnit(numF,stride,tag) 创建一个卷积单元。numF 是每一层中卷积过滤器的数量，stride 是该单元第一个卷积层的步幅，tag 是添加在层名称前面的字符数组。convolutionalUnit 函数在示例末尾定义。

为所有层指定唯一名称。卷积单元中的层的名称以 'SjUk' 开头，其中 j 是阶段索引，k 是该阶段内卷积单元的索引。例如，'S2U1' 表示第 2 阶段第 1 单元。

残差网络基础教程（残差网络为什么叫残差）

残差网络(ResNet)

残差操作这一思想起源于论文《Deep Residual Learning for Image Recognition》。如果存在某个K层的网络f是当前最优的网络，那么可以构造一个更深的网络，其最后几层仅是该网络f第K层输出的恒等映射（IdentityM***ing），就可以取得与f一致的结果；也许K还不是所谓“最佳层数”，那么更深的网络就可以取得更好的结果。总而言之，与浅层网络相比，更深的网络的表现不应该更差。但是如下图所示，56层的神经网络表现明显要比20层的差。证明更深的网络在训练过程中的难度更大，因此作者提出了残差网络的思想。+

ResNet 的作者将这些问题归结成了一个单一的***设：直接映射是难以学习的。而且他们提出了一种修正方法：不再学习从 x 到 H(x) 的基本映射关系，而是学习这两者之间的差异，也就是「残差（residual）」。然后，为了计算 H(x)，我们只需要将这个残差加到输入上即可。***设残差为 F(x)=H(x)-x，那么现在我们的网络不会直接学习 H(x) 了，而是学习 F(x)+x。

这就带来了你可能已经见过的著名 ResNet（残差网络）模块：

ResNet 的每一个「模块（block）」都由一系列层和一个「捷径（shortcut）」连接组成，这个「捷径」将该模块的输入和输出连接到了一起。然后在元素层面上执行「加法（add）」运算，如果输入和输出的大小不同，那就可以使用零填充或投射（通过 1×1 卷积）来得到匹配的大小。

回到我们的思想实验，这能大大简化我们对恒等层的构建。直觉上就能知道，比起从头开始学习一个恒等变换，学会使 F(x) 为 0 并使输出仍为 x 要容易得多。一般来说，ResNet 会给层一个「参考」点 x，以 x 为基础开始学习。

在此之前，深度神经网络常常会有梯度消失问题的困扰，因为 ResNet 的梯度信号可以直接通过捷径连接回到更早的层，而且它们的表现依然良好。

ResNet本质上就干了一件事：降低数据中信息的冗余度具体说来，就是对非冗余信息***用了线性激活（通过skip connection获得无冗余的identity部分），然后对冗余信息***用了非线性激活（通过ReLU对identity之外的其余部分进行信息提取/过滤，提取出的有用信息即是残差）。

其中，提取identity这一步，就是ResNet思想的核心。对ResNet本质的一些思考

一方面是残差网络更好的拟合分类函数以获得更高的分类精度，另一方面是残差网络如何解决网络在层数加深时优化训练上的难题。

首先从万能近似定理（Universal ***roximation Theorem）入手。这个定理表明，一个前馈神经网络（feedforward neural network）如果具有线性输出层，同时至少存在一层具有任何一种“挤压”性质的激活函数（例如logistic sigmoid激活函数）的隐藏层，那么只要给予这个网络足够数量的隐藏单元，它就可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的波莱尔可测函数(Borel Measurable Function)。

万能近似定理意味着我们在构建网络来学习什么函数的时候，我们知道一定存在一个多层感知机（Multilayer Perceptron Model，MLP）能够表示这个函数。然而，我们不能保证训练算法能够学得这个函数。因为即使多层感知机能够表示该函数，学习也可能会失败，可能的原因有两种。

第二种过拟合情况不在我们的讨论范围之内，因此我们聚焦在前一种情况，为何残差网络相比简单的多层网络能更好的拟合分类函数，即找到期望函数的参数值。

对于普通的不带短连接的神经网络来说，存在这样一个命题。

事实上对于高维函数，这一特点依然适用。因此，当函数的输入维度非常高时，这一做法就变的非常有意义。尽管在高维空间这一特点很难被可视化，但是这个理论给了一个很合理的启发，就是原则上，带短连接的网络的拟合高维函数的能力比普通连接的网络更强。这部分我们讨论了残差网络有能力拟合更高维的函数，但是在实际的训练过程中仍然可能存在各种各样的问题使得学习到最优的参数非常困难，因此下一小节讨论残差在训练过程中的优越性。

这个部分我们讨论为什么残差能够缓解深层网络的训练问题，以及探讨可能的短连接方式和我们最终选择的残差的理由。正如本章第三部分讨论的一样，整个残差卷积神经网络是由以上的残差卷积子模块堆积而成。如上一小节所定义的，***设第层的残差卷积字子模块的映射为

十分钟一起学会ResNet残差网络

深度卷积网络自然的整合了低中高不同层次的特征，特征的层次可以靠加深网络的层次来丰富。从而，在构建卷积网络时，网络的深度越高，可抽取的特征层次就越丰富。所以一般我们会倾向于使用更深层次的网络结构，以便取得更高层次的特征。但是在使用深层次的网络结构时我们会遇到两个问题，梯度消失，梯度爆炸问题和网络退化的问题。

但是当使用更深层的网络时，会发生梯度消失、爆炸问题，这个问题很大程度通过标准的初始化和正则化层来基本解决，这样可以确保几十层的网络能够收敛，但是随着网络层数的增加，梯度消失或者爆炸的问题仍然存在。

还有一个问题就是网络的退化，举个例子，***设已经有了一个最优化的网络结构，是18层。当我们设计网络结构的时候，我们并不知道具体多少层次的网络时最优化的网络结构，***设设计了34层网络结构。那么多出来的16层其实是冗余的，我们希望训练网络的过程中，模型能够自己训练这五层为恒等映射，也就是经过这层时的输入与输出完全一样。但是往往模型很难将这16层恒等映射的参数学习正确，那么就一定会不比最优化的18层网络结构性能好，这就是随着网络深度增加，模型会产生退化现象。它不是由过拟合产生的，而是由冗余的网络层学习了不是恒等映射的参数造成的。

ResNet是在2015年有何凯明，张翔宇，任少卿，孙剑共同提出的，ResNet使用了一个新的思想，ResNet的思想是***设我们涉及一个网络层，存在最优化的网络层次，那么往往我们设计的深层次网络是有很多网络层为冗余层的。那么我们希望这些冗余层能够完成恒等映射，保证经过该恒等层的输入和输出完全相同。具体哪些层是恒等层，这个会有网络训练的时候自己判断出来。将原网络的几层改成一个残差块，残差块的具体构造如下图所示：

可以看到X是这一层残差块的输入，也称作F(x)为残差，x为输入值，F（X）是经过第一层线性变化并激活后的输出，该图表示在残差网络中，第二层进行线性变化之后激活之前，F(x)加入了这一层输入值X，然后再进行激活后输出。在第二层输出值激活前加入X，这条路径称作shortcut连接。

我们发现，***设该层是冗余的，在引入ResNet之前，我们想让该层学习到的参数能够满足h(x)=x，即输入是x，经过该冗余层后，输出仍然为x。但是可以看见，要想学习h(x)=x恒等映射时的这层参数时比较困难的。ResNet想到避免去学习该层恒等映射的参数，使用了如上图的结构，让h(x)=F(x)+x;这里的F(x)我们称作残差项，我们发现，要想让该冗余层能够恒等映射，我们只需要学习F(x)=0。学习F(x)=0比学习h(x)=x要简单，因为一般每层网络中的参数初始化偏向于0，这样在相比于更新该网络层的参数来学习h(x)=x，该冗余层学习F(x)=0的更新参数能够更快收敛，如图所示：

***设该曾网络只经过线性变换，没有bias也没有激活函数。我们发现因为随机初始化权重一般偏向于0，那么经过该网络的输出值为[0.6 0.6]，很明显会更接近与[0 0]，而不是[2 1]，相比与学习h(x)=x，模型要更快到学习F(x)=0。

并且ReLU能够将负数激活为0，过滤了负数的线性变化，也能够更快的使得F(x)=0。这样当网络自己决定哪些网络层为冗余层时，使用ResNet的网络很大程度上解决了学习恒等映射的问题，用学习残差F(x)=0更新该冗余层的参数来代替学习h(x)=x更新冗余层的参数。

这样当网络自行决定了哪些层为冗余层后，通过学习残差F(x)=0来让该层网络恒等映射上一层的输入，使得有了这些冗余层的网络效果与没有这些冗余层的网络效果相同，这样很大程度上解决了网络的退化问题。

我们发现很深的网络层，由于参数初始化一般更靠近0，这样在训练的过程中更新浅层网络的参数时，很容易随着网络的深入而导致梯度消失，浅层的参数无法更新。

可以看到，***设现在需要更新参数因为随机初始化偏向于0，通过链式求导我们会发现，相乘会得到更加接近于0的数，那么所求的这个的梯度就接近于0，也就产生了梯度消失的现象。

ResNet最终更新某一个节点的参数时，由于，由于链式求导后的结果如图所示，不管括号内右边部分的求导参数有多小，因为左边的1的存在，并且将原来的链式求导中的连乘变成了连加状态（正是），都能保证该节点参数更新不会发生梯度消失或梯度爆炸现象。

这样ResNet在解决了阻碍更深层次网络优化问题的两个重要问题后，ResNet就能训练更深层次几百层乃至几千层的网络并取得更高的精确度了。

这里是应用了ResNet的网络图，这里如果遇到了h(x)=F(x)+x中x的维度与F(x)不同的维度时，我们需要对identity加入Ws来保持Ws*x的维度与F(x)的维度一致。

x与F(x)维度相同时：

x与F(x)维度不同时：

下边是ResNet的网络结构图：

使用1*1卷积减少参数和计算量：

如果用了更深层次的网络时，考虑到计算量，会先用1 * 1的卷积将输入的256维降到64维，然后通过1*1恢复。这样做的目的是减少参数量和计算量。

左图是ResNet34，右图是ResNet50/101/152。这一个模块称作building block，右图称之为bottleneck design。在面对50，101,152层的深层次网络，意味着有很大的计算量，因此这里使用1 * 1卷积先将输入进行降维，然后再经过3 * 3卷积后再用卷积进行升维。使用1*1卷积的好处是大大降低参数量计算量。

通过上述的学习，你应该知道了，现如今大家普遍认为更好的网络是建立在更宽更深的网络基础上，当你需要设计一个深度网络结构时，你永远不知道最优的网络层次结构是多少层，一旦你设计的很深入了，那势必会有很多冗余层，这些冗余层一旦没有成功学习恒等变换 ,那就会影响网络的预测性能，不会比浅层的网络学习效果好从而产生退化问题。

ResNet的过人之处，是他很大程度上解决了当今深度网络头疼的网络退化问题和梯度消失问题。使用残差网络结构代替原来的没有shortcut连接的 ,这样更新冗余层的参数时需要学习比学习要容易得多。而shortcut连接的结构也保证了反向传播更新参数时，很难有梯度为0的现象发生，不会导致梯度消失。

这样，ResNet的构建，使我们更朝着符合我们的直觉走下去，即越深的网络对于高级抽象特征的提取和网络性能更好，不用在担心随着网络的加深发生退化问题了。

近段时间，准备持续发表一些CNN常见的网络模型讲解。好了，今天的十分钟就带你一起学会ResNet，下次的十分钟我们再见。

关于残差网络基础教程和残差网络为什么叫残差的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

残差网络基础教程