首页网络设计正文

卷积神经网络基础网络（卷积神经网络理论基础）

网络设计 11个月前 (01-29) 909

今天给各位分享卷积神经网络基础网络的知识，其中也会对卷积神经网络理论基础进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！本文目录一览： 1、一文看懂卷积神经网络-CNN（基本原理+独特价值+实际应用）

今天给各位分享卷积神经网络基础网络的知识，其中也会对卷积神经网络理论基础进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、一文看懂卷积神经网络-CNN（基本原理+独特价值+实际应用）
2、（7）卷积神经网络的基本结构
3、卷积神经网络（CNN）基础
4、卷积神经网络
5、卷积神经网络原理

一文看懂卷积神经网络-CNN（基本原理+独特价值+实际应用）

在 CNN 出现之前，图像对于人工智能来说是一个难题，有2个原因：

图像需要处理的数据量太大，导致成本很高，效率很低

图像在数字化的过程中很难保留原有的特征，导致图像处理的准确率不高

下面就详细说明一下这2个问题：

图像是由像素构成的，每个像素又是由颜色构成的。

现在随随便便一张图片都是 1000×1000 像素以上的，每个像素都有RGB 3个参数来表示颜色信息。

***如我们处理一张 1000×1000 像素的图片，我们就需要处理3百万个参数！

1000×1000×3=3,000,000

这么大量的数据处理起来是非常消耗***的，而且这只是一张不算太大的图片！

卷积神经网络 – CNN 解决的第一个问题就是「将复杂问题简化」，把大量参数降维成少量参数，再做处理。

更重要的是：我们在大部分场景下，降维并不会影响结果。比如1000像素的图片缩小成200像素，并不影响肉眼认出来图片中是一只猫还是一只狗，机器也是如此。

图片数字化的传统方式我们简化一下，就类似下图的过程：

***如有圆形是1，没有圆形是0，那么圆形的位置不同就会产生完全不同的数据表达。但是从视觉的角度来看，图像的内容（本质）并没有发生变化，只是位置发生了变化。

所以当我们移动图像中的物体，用传统的方式的得出来的参数会差异很大！这是不符合图像处理的要求的。

而 CNN 解决了这个问题，他用类似视觉的方式保留了图像的特征，当图像做翻转，旋转或者变换位置时，它也能有效的识别出来是类似的图像。

那么卷积神经网络是如何实现的呢？在我们了解 CNN 原理之前，先来看看人类的视觉原理是什么？

深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究。

1981 年的诺贝尔医学奖，颁发给了 D***id Hubel（出生于加拿大的美国神经生物学家）和TorstenWiesel，以及 Roger Sperry。前两位的主要贡献，是“ 发现了视觉系统的信息处理 ”，可视皮层是分级的。

人类的视觉原理如下：从原始信号摄入开始（瞳孔摄入像素 Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。下面是人脑进行人脸识别的一个示例：

对于不同的物体，人类视觉也是通过这样逐层分级，来进行认知的：

我们可以看到，在最底层特征基本上是类似的，就是各种边缘，越往上，越能提取出此类物体的一些特征（轮子、眼睛、躯干等），到最上层，不同的高级特征最终组合成相应的图像，从而能够让人类准确的区分不同的物体。

那么我们可以很自然的想到：可以不可以模仿人类大脑的这个特点，构造多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类呢？

答案是肯定的，这也是许多深度学习算法（包括CNN）的灵感来源。

典型的 CNN 由3个部分构成：

卷积层

池化层

全连接层

如果简单来描述的话：

卷积层负责提取图像中的局部特征；池化层用来大幅降低参数量级(降维)；全连接层类似传统神经网络的部分，用来输出想要的结果。

下面的原理解释为了通俗易懂，忽略了很多技术细节，如果大家对详细的原理感兴趣，可以看这个***《卷积神经网络基础》。

卷积层的运算过程如下图，用一个卷积核扫完整张图片：

这个过程我们可以理解为我们使用一个过滤器（卷积核）来过滤图像的各个小区域，从而得到这些小区域的特征值。

在具体应用中，往往有多个卷积核，可以认为，每个卷积核代表了一种图像模式，如果某个图像块与此卷积核卷积出的值大，则认为此图像块十分接近于此卷积核。如果我们设计了6个卷积核，可以理解：我们认为这个图像上有6种底层纹理模式，也就是我们用6中基础模式就能描绘出一副图像。以下就是25种不同的卷积核的示例：

总结：卷积层的通过卷积核的过滤提取出图片中局部的特征，跟上面提到的人类视觉的特征提取类似。

池化层简单说就是下***样，他可以大大降低数据的维度。其过程如下：

上图中，我们可以看到，原始图片是20×20的，我们对其进行下***样，***样窗口为10×10，最终将其下***样成为一个2×2大小的特征图。

之所以这么做的原因，是因为即使做完了卷积，图像仍然很大（因为卷积核比较小），所以为了降低数据维度，就进行下***样。

总结：池化层相比卷积层可以更有效的降低数据维度，这么做不但可以大大减少运算量，还可以有效的避免过拟合。

这个部分就是最后一步了，经过卷积层和池化层处理过的数据输入到全连接层，得到最终想要的结果。

经过卷积层和池化层降维过的数据，全连接层才能”跑得动”，不然数据量太大，计算成本高，效率低下。

典型的 CNN 并非只是上面提到的3层结构，而是多层结构，例如 LeNet-5 的结构就如下图所示：

卷积层 – 池化层- 卷积层 – 池化层 – 卷积层 – 全连接层

在了解了 CNN 的基本原理后，我们重点说一下 CNN 的实际应用有哪些。

卷积神经网络 – CNN 很擅长处理图像。而***是图像的叠加，所以同样擅长处理***内容。下面给大家列一些比较成熟的应用�：

图像分类、检索

图像分类是比较基础的应用，他可以节省大量的人工成本，将图像进行有效的分类。对于一些特定领域的图片，分类的准确率可以达到 95%+，已经算是一个可用性很高的应用了。

典型场景：图像搜索…

目标定位检测

可以在图像中定位目标，并确定目标的位置及大小。

典型场景：自动驾驶、安防、医疗…

目标分割

简单理解就是一个像素级的分类。

他可以对前景和背景进行像素级的区分、再高级一点还可以识别出目标并且对目标进行分类。

典型场景：美图秀秀、***后期加工、图像生成…

人脸识别

人脸识别已经是一个非常普及的应用了，在很多领域都有广泛的应用。

典型场景：安防、金融、生活…

骨骼识别

骨骼识别是可以识别身体的关键骨骼，以及追踪骨骼的动作。

典型场景：安防、电影、图像***生成、游戏…

今天我们介绍了 CNN 的价值、基本原理和应用场景，简单总结如下：

CNN 的价值：

能够将大数据量的图片有效的降维成小数据量(并不影响结果)

能够保留图片的特征，类似人类的视觉原理

CNN 的基本原理：

卷积层 – 主要作用是保留图片的特征

池化层 – 主要作用是把数据降维，可以有效的避免过拟合

全连接层 – 根据不同任务输出我们想要的结果

CNN 的实际应用：

图片分类、检索

目标定位检测

目标分割

人脸识别

骨骼识别

本文首发在 easyAI - 人工智能知识库

《一文看懂卷积神经网络-CNN（基本原理+独特价值+实际应用）》

卷积神经网络基础网络（卷积神经网络理论基础）

（7）卷积神经网络的基本结构

卷积神经网络主要结构有：卷积层、池化层、和全连接层。通过堆叠这些层结构形成一个卷积神经网络。将原始图像转化为类别得分，其中卷积层和全连接层拥有参数，激活层和池化层没有参数。参数更新通过反向传播实现。

（1）卷积层

卷积核是一系列的滤波器，用来提取某一种特征

我们用它来处理一个图片，当图像特征与过滤器表示的特征相似时，卷积操作可以得到一个比较大的值。

当图像特征与过滤器不相似时，卷积操作可以得到一个比较小的值，实际上，卷积的结果特征映射图显示的是对应卷积核所代表的特征在原始特征图上的分布情况。

每个滤波器在空间上（宽度和高度）都比较小，但是深度和输入数据保持一致（特征图的通道数），当卷积核在原图像滑动时，会生成一个二维激活图，激活图上每个空间位置代表原图像对该卷积核的反应。每个卷积层，会有一整个集合的卷积核，有多少个卷积核，输出就有多少个通道。每个卷积核生成一个特征图，这些特征图堆叠起来组成整个输出结果。

卷积核体现了参数共享和局部连接的模式。每个卷积核的大小代表了一个感受野的大小。

卷积后的特征图大小为(W-F+2*P)/s+1 ；P 为填充 s 为步长

（2）池化层

池化层本质上是下***样，利用图像局部相关性的原理（认为最大值或者均值代表了这个局部的特征），对图像进行子抽样，可以减少数据处理量同时保留有用信息。这里池化有平均池化，L2范式池化，最大池化，经过实践，最大池化的效果要好于平均池化（平均池化一般放在卷积神经网络的最后一层），最大池化有利于保存纹理信息，平均池化有利于保存背景信息。实际上（因为信息损失的原因）我们可以看到，通过在卷积时使用更大的步长也可以缩小特征映射的尺寸，并不一定要用池化，有很多人不建议使用池化层。32*32在5*5卷积核步长为1下可得到28*28。

池化操作可以逐渐降低数据体的空间尺寸，这样的话就能减少网络中参数的数量，使得计算***耗费变少，也能有效控制过拟合。

（3）全连接层

通过全连接层将特征图转化为类别输出。全连接层不止一层，在这个过程中为了防止过拟合会引入DropOut。最新研究表明，在进入全连接层之前，使用全局平均池化可以有效降低过拟合。

（4）批归一化BN——Batch Normal

随着神经网络训练的进行，每个隐层的参数变化使得后一层的输入发生变化，从而每一批的训练数据的分布也随之改变，致使网络在每次迭代中都需要拟合不同的数据分布，增大训练复杂度和过拟合的风险，只能***用较小的学习率去解决。

通常卷积层后就是BN层加Relu。BN已经是卷积神经网络中的一个标准技术。标准化的过程是可微的，因此可以将BN应用到每一层中做前向和反向传播，同在接在卷积或者全连接层后，非线性层前。它对于不好的初始化有很强的鲁棒性，同时可以加快网络收敛速度。

（5）DropOut

Dropout对于某一层神经元，通过定义的概率来随机删除一些神经元，同时保持输入层与输出层神经元的个数不变，然后按照神经网络的学习方法进行参数更新，下一次迭代中，重新随机删除一些神经元，直至训练结束。

（6）softmax层

Softmax层也不属于CNN中单独的层，一般要用CNN做分类的话，我们习惯的方式是将神经元的输出变成概率的形式，Softmax就是做这个的：。显然Softmax层所有的输出相加为1，按照这个概率的大小确定到底属于哪一类。

卷积神经网络（CNN）基础

在七月初七情人节，牛郎织女相见的一天，我终于学习了CNN（来自CS231n），感觉感触良多，所以赶快记下来，别忘了，最后祝大家情人节快乐5555555.正题开始!

CNN一共有卷积层（CONV）、ReLU层（ReLU）、池化层（Pooling）、全连接层（FC（Full Connection））下面是各个层的详细解释。

卷积，尤其是图像的卷积，需要一个滤波器，用滤波器对整个图像进行遍历，我们***设有一个32*32*3的原始图像A，滤波器的尺寸为5*5*3，用w表示，滤波器中的数据就是CNN的参数的一部分，那么在使用滤波器w对A进行滤波的话，可以用下面的式子表示：

其中x为原始图像的5*5*3的一部分，b是偏置项置为1。在对A进行滤波之后，产生的是一个28*28*1的数据。那么***设我们存在6个滤波器，这六个滤波器之间彼此是独立的，也就是他们内部的数据是不同的且没有相关性的。可以理解为一个滤波器查找整幅图像的垂直边缘，一个查找水平边缘，一个查找红色，一个查找黑色这样。那么我就可以产生6个28*28*1的数据，将它们组合到一起就可以产生28*28*6的数据，这就是卷积层主要做的工作。

CNN可以看作一系列的卷积层和ReLU层对原始数据结构进行处理的神经网络，处理的过程可以用下面这幅图表示

特别要注意的是滤波器的深度一定要与上一层传来的数据的深度相同，就像上图的第二个卷积层在处理传来的28*28*6的数据时要使用5*5*6的滤波器.

滤波器在图像上不断移动对图像滤波，自然存在步长的问题，在上面我们举的例子都是步长为1的情况，如果步长为3的话，32*32*3的图像经过5*5*3的滤波器卷积得到的大小是（32-5）/3+1=10，注：步长不能为2因为（32-5）/2+1=14.5是小数。

所以当图像大小是N，滤波器尺寸为F时，步长S，那么卷积后大小为（N-F）/S+1

我们从上面的图中可以看到图像的长和宽在逐渐的减小，在经过超过5层之后极可能只剩下1*1的空间尺度，这样是十分不好的，而且也不利于我们接下来的计算，所以我们想让卷积层处理完之后图像在空间尺度上大小不变，所以我们引入了pad the border的操作。pad其实就是在图像周围补0，扩大图像的尺寸，使得卷积后图像大小不变。在CNN中，主要存在4个超参数，滤波器个数K，滤波器大小F，pad大小P和步长S，其中P是整数，当P=1时，对原始数据的操作如图所示：

那么在pad操作后卷积后的图像大小为：（N-F+2*P）/S+1

而要想让卷积层处理后图像空间尺度不变，P的值可以设为P=（F-1）/2

卷积层输入W 1 *H 1 *D 1 大小的数据，输出W 2 *H 2 *D 2 的数据，此时的卷积层共有4个超参数：

K：滤波器个数

P：pad属性值

S：滤波器每次移动的步长

F：滤波器尺寸

此时输出的大小可以用输入和超参计算得到：

W 2 =（W 1 -F+2P）/S+1

H 2 =（H 1 -F+2P）/S+1

D 2 =D 1

1*1的滤波器也是有意义的，它在深度方向做卷积，例如1*1*64的滤波器对56*56*64的数据卷积得到56*56的数据

F通常是奇数，这样可以综合考虑上下左右四个方向的数据。

卷积层从神经元的角度看待可以有两个性质：参数共享和局域连接。对待一个滤波器，例如5*5*3的一个滤波器，对32*32*3的数据卷积得到28*28的数据，可以看作存在28*28个神经元，每个对原图像5*5*3的区域进行计算，这28*28个神经元由于使用同一个滤波器，所以参数相同，我们称这一特性为参数共享。

针对不同的滤波器，我们可以看到他们会看到同一区域的图像，相当于在深度方向存在多个神经元，他们看着相同区域叫做局域连接

参数共享减少了参数的数量，防止了过拟合

局域连接为查找不同特征更丰富的表现图像提供了可能。

卷积就像是对原图像的另一种表达。

激活函数，对于每一个维度经过ReLU函数输出即可。不改变数据的空间尺度。

通过pad操作，输出图像在控件上并没有变化，但是深度发生了变化，越来越庞大的数据给计算带来了困难，也出现了冗余的特征，所以需要进行池化操作，池化不改变深度，只改变长宽，主要有最大值和均值两种方法，一般的池化滤波器大小F为2步长为2，对于最大值池化可以用下面的图像清晰的表示：

卷积层输入W 1 *H 1 *D 1 大小的数据，输出W 2 *H 2 *D 2 的数据，此时的卷积层共有2个超参数：

S：滤波器每次移动的步长

F：滤波器尺寸

此时输出的大小可以用输入和超参计算得到：

W 2 =（W 1 -F）/S+1

H 2 =（H 1 -F）/S+1

D 2 =D 1

将最后一层（CONV、ReLU或Pool）处理后的数据输入全连接层，对于W 2 *H 2 *D 2 数据，我们将其展成1*1*W 2 *H 2 *D 2 大小的数据，输入层共有W 2 *H 2 *D 2 个神经元，最后根据问题确定输出层的规模，输出层可以用softmax表示。也就是说，全连接层就是一个常见的BP神经网络。而这个网络也是参数最多的部分，是接下来想要去掉的部分。完整的神经网络可以用下面的图表示：

[(CONV-ReLU)*N-POOL?]*M-(FC-RELU)*K,SoftMax

1.更小的滤波器与更深的网络

2.只有CONV层而去掉池化与全链接

最早的CNN，用于识别邮编，结构为：

CONV-POOL-CONV-POOL-CONV-FC

滤波器大小5*5，步长为1，池化层2*2，步长为2

2012年由于GPU技术所限，原始AlexNet为两个GPU分开计算，这里介绍合起来的结构。

输入图像为227*227*3

1.首次使用ReLU

2.使用Norm layers，现在已经抛弃，因为效果不大

3.数据经过预处理（例如大小变化，颜色变化等）

4.失活比率0.5

5.batch size 128

6.SGD Momentum 参数0.9（SGD和Momentum见我的其他文章）

7.学习速率 0.01，准确率不在提升时减少10倍，1-2次后达到收敛

8.L2权重减少0.0005

9.错误率15.4%

改进自AlexNet，主要改变：

1.CONV1的滤波器从11*11步长S=4改为7*7步长为2.

2.CONV3,4,5滤波器数量有384，384，256改为512，***，512（滤波器数量为2的n次幂有利于计算机计算可以提高效率）

错误率：14.8%后继续改进至11.2%

当前最好的最易用的CNN网络，所有卷积层滤波器的大小均为3*3，步长为1，pad=1，池化层为2*2的最大值池化，S=2。

主要参数来自全连接层，这也是想要去掉FC的原因。

具有高度的统一性和线性的组合，易于理解，十分方便有VGG-16，VGG-19等多种结构。

错误率7.3%

完全移除FC层，参数只有500万，使用Inception模块（不太理解，有时间继续看）

准确率6.67%

准确率3.6%

拥有极深的网络结构，且越深准确率越高。是传统CNN不具备的特点，传统CNN并非越深越准确。需要训练时间较长但是快于VGG

1.每个卷积层使用Batch Normalization

2.X***ier/2初始化

3.SGD+Momentum（0.9）

4.Learning rate:0.1,准确率不变减小10倍（因为Batch Normalization所以比AlexNet大）

5.mini-batch size 256

6.Weight decay of 0.00001

7.不适用失活（因为Batch Normalization）

具体的梯度过程学完ResNet再说吧。

卷积神经网络

关于花书中卷积网络的笔记记录于。

卷积神经网络（Convolutional Neural Network，CNN或ConvNet）是一种具有局部连接、权重共享等特性的深层前馈神经网络。卷积神经网络是受生物学上感受野的机制而提出。感受野（Receptive Field）主要是指听觉、视觉等神经系统中一些神经元的特性，即神经元只接受其所支配的***区域内的信号。

卷积神经网络最早是主要用来处理图像信息。如果用全连接前馈网络来处理图像时，会存在以下两个问题：

目前的卷积神经网络一般是由卷积层、汇聚层和全连接层交叉堆叠而成的前馈神经网络，使用反向传播算法进行训练。卷积神经网络有三个结构上的特性：局部连接，权重共享以及汇聚。这些特性使卷积神经网络具有一定程度上的平移、缩放和旋转不变性。

卷积（Convolution）是分析数学中一种重要的运算。在信号处理或图像处理中，经常使用一维或二维卷积。

一维卷积经常用在信号处理中，用于计算信号的延迟累积。***设一个信号发生器每个时刻t 产生一个信号，其信息的衰减率为，即在个时间步长后，信息为原来的倍。***设，那么在时刻t收到的信号为当前时刻产生的信息和以前时刻延迟信息的叠加：

我们把称为滤波器（Filter）或卷积核（Convolution Kernel）。***设滤波器长度为，它和一个信号序列的卷积为：

信号序列和滤波器的卷积定义为：

一般情况下滤波器的长度远小于信号序列长度，下图给出一个一维卷积示例，滤波器为：

二维卷积经常用在图像处理中。因为图像为一个两维结构，所以需要将一维卷积进行扩展。给定一个图像和滤波器，其卷积为：

下图给出一个二维卷积示例：

注意这里的卷积运算并不是在图像中框定卷积核大小的方框并将各像素值与卷积核各个元素相乘并加和，而是先把卷积核旋转180度，再做上述运算。

在图像处理中，卷积经常作为特征提取的有效方法。一幅图像在经过卷积操作后得到结果称为特征映射（Feature Map）。

最上面的滤波器是常用的高斯滤波器，可以用来对图像进行平滑去噪；中间和最下面的过滤器可以用来提取边缘特征。

在机器学习和图像处理领域，卷积的主要功能是在一个图像（或某种特征）上滑动一个卷积核（即滤波器），通过卷积操作得到一组新的特征。在计算卷积的过程中，需要进行卷积核翻转（即上文提到的旋转180度）。在具体实现上，一般会以互相关操作来代替卷积，从而会减少一些不必要的操作或开销。

互相关（Cross-Correlation）是一个衡量两个序列相关性的函数，通常是用滑动窗口的点积计算来实现。给定一个图像和卷积核，它们的互相关为：

互相关和卷积的区别仅在于卷积核是否进行翻转。因此互相关也可以称为不翻转卷积。当卷积核是可学习的参数时，卷积和互相关是等价的。因此，为了实现上（或描述上）的方便起见，我们用互相关来代替卷积。事实上，很多深度学习工具中卷积操作其实都是互相关操作。

在卷积的标准定义基础上，还可以引入滤波器的滑动步长和零填充来增加卷积多样性，更灵活地进行特征抽取。

滤波器的步长（Stride）是指滤波器在滑动时的时间间隔。

零填充（Zero Padding）是在输入向量两端进行补零。

***设卷积层的输入神经元个数为，卷积大小为，步长为，神经元两端各填补个零，那么该卷积层的神经元数量为。

一般常用的卷积有以下三类：

因为卷积网络的训练也是基于反向传播算法，因此我们重点关注卷积的导数性质：

***设。

，，。函数为一个标量函数。

则由有：

可以看出，关于的偏导数为和的卷积：

同理得到：

当或时，，即相当于对进行的零填充。从而关于的偏导数为和的宽卷积。

用互相关的“卷积”表示，即为（注意宽卷积运算具有交换性性质）：

在全连接前馈神经网络中，如果第层有个神经元，第层有个神经元，连接边有个，也就是权重矩阵有个参数。当和都很大时，权重矩阵的参数非常多，训练的效率会非常低。

如果***用卷积来代替全连接，第层的净输入为第层活性值和滤波器的卷积，即：

根据卷积的定义，卷积层有两个很重要的性质：

由于局部连接和权重共享，卷积层的参数只有一个m维的权重和1维的偏置，共个参数。参数个数和神经元的数量无关。此外，第层的神经元个数不是任意选择的，而是满足。

卷积层的作用是提取一个局部区域的特征，不同的卷积核相当于不同的特征提取器。

特征映射（Feature Map）为一幅图像（或其它特征映射）在经过卷积提取到的特征，每个特征映射可以作为一类抽取的图像特征。为了提高卷积网络的表示能力，可以在每一层使用多个不同的特征映射，以更好地表示图像的特征。

在输入层，特征映射就是图像本身。如果是灰度图像，就是有一个特征映射，深度；如果是彩色图像，分别有RGB三个颜色通道的特征映射，深度。

不失一般性，***设一个卷积层的结构如下：

为了计算输出特征映射，用卷积核分别对输入特征映射进行卷积，然后将卷积结果相加，并加上一个标量偏置得到卷积层的净输入再经过非线性激活函数后得到输出特征映射。

在输入为，输出为的卷积层中，每个输出特征映射都需要个滤波器以及一个偏置。***设每个滤波器的大小为，那么共需要个参数。

汇聚层（Pooling Layer）也叫子***样层（Subsampling Layer），其作用是进行特征选择，降低特征数量，并从而减少参数数量。

常用的汇聚函数有两种：

其中为区域内每个神经元的激活值。

可以看出，汇聚层不但可以有效地减少神经元的数量，还可以使得网络对一些小的局部形态改变保持不变性，并拥有更大的感受野。

典型的汇聚层是将每个特征映射划分为大小的不重叠区域，然后使用最大汇聚的方式进行下***样。汇聚层也可以看做是一个特殊的卷积层，卷积核大小为，步长为，卷积核为函数或函数。过大的***样区域会急剧减少神经元的数量，会造成过多的信息损失。

一个典型的卷积网络是由卷积层、汇聚层、全连接层交叉堆叠而成。

目前常用卷积网络结构如图所示，一个卷积块为连续个卷积层和个汇聚层（通常设置为，为或）。一个卷积网络中可以堆叠个连续的卷积块，然后在后面接着个全连接层（的取值区间比较大，比如或者更大；一般为）。

目前，整个网络结构趋向于使用更小的卷积核（比如和）以及更深的结构（比如层数大于50）。此外，由于卷积的操作性越来越灵活（比如不同的步长），汇聚层的作用变得也越来越小，因此目前比较流行的卷积网络中，汇聚层的比例也逐渐降低，趋向于全卷积网络。

在全连接前馈神经网络中，梯度主要通过每一层的误差项进行反向传播，并进一步计算每层参数的梯度。在卷积神经网络中，主要有两种不同功能的神经层：卷积层和汇聚层。而参数为卷积核以及偏置，因此只需要计算卷积层中参数的梯度。

不失一般性，第层为卷积层，第层的输入特征映射为，通过卷积计算得到第层的特征映射净输入，第层的第个特征映射净输入

由得：

同理可得，损失函数关于第层的第个偏置的偏导数为：

在卷积网络中，每层参数的梯度依赖其所在层的误差项。

卷积层和汇聚层中，误差项的计算有所不同，因此我们分别计算其误差项。

第层的第个特征映射的误差项的具体推导过程如下：

其中为第层使用的激活函数导数，为上***样函数（upsampling），与汇聚层中使用的下***样操作刚好相反。如果下***样是最大汇聚（max pooling），误差项中每个值会直接传递到上一层对应区域中的最大值所对应的神经元，该区域中其它神经元的误差项的都设为0。如果下***样是平均汇聚（meanpooling），误差项中每个值会被平均分配到上一层对应区域中的所有神经元上。

第层的第个特征映射的误差项的具体推导过程如下：

其中为宽卷积。

LeNet-5虽然提出的时间比较早，但是是一个非常成功的神经网络模型。基于LeNet-5 的手写数字识别系统在90年代被美国很多银行使用，用来识别支票上面的手写数字。LeNet-5 的网络结构如图：

不计输入层，LeNet-5共有7层，每一层的结构为：

AlexNet是第一个现代深度卷积网络模型，其首次使用了很多现代深度卷积网络的一些技术方法，比如***用了ReLU作为非线性激活函数，使用Dropout防止过拟合，使用数据增强来提高模型准确率等。AlexNet 赢得了2012 年ImageNet 图像分类竞赛的冠军。

AlexNet的结构如图，包括5个卷积层、3个全连接层和1个softmax层。因为网络规模超出了当时的单个GPU的内存限制，AlexNet 将网络拆为两半，分别放在两个GPU上，GPU间只在某些层（比如第3层）进行通讯。

AlexNet的具体结构如下：

在卷积网络中，如何设置卷积层的卷积核大小是一个十分关键的问题。在Inception网络中，一个卷积层包含多个不同大小的卷积操作，称为Inception模块。Inception网络是由有多个inception模块和少量的汇聚层堆叠而成。

v1版本的Inception模块，***用了4组平行的特征抽取方式，分别为1×1、3× 3、5×5的卷积和3×3的最大汇聚。同时，为了提高计算效率，减少参数数量，Inception模块在进行3×3、5×5的卷积之前、3×3的最大汇聚之后，进行一次1×1的卷积来减少特征映射的深度。如果输入特征映射之间存在冗余信息， 1×1的卷积相当于先进行一次特征抽取。

卷积神经网络原理

卷积神经网络是一种前馈型神经网络, 受生物自然视觉认知机制启发而来的. 现在, CNN 已经成为众多科学领域的研究热点之一, 特别是在模式分类领域, 由于该网络避免了对图像的复杂前期预处理, 可以直接输入原始图像, 因而得到了更为广泛的应用. 可应用于图像分类, 目标识别, 目标检测, 语义分割等等.可用于图像分类的卷积神经网络的基本结构.

1. 定义

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。卷积神经网络具有表征学习（representation learning）能力，能够按其阶层结构对输入信息进行平移不变分类（shift-invariant classification），因此也被称为“平移不变人工神经网络（Shift-Invariant Artificial Neural Networks, SIANN）” 。

2. 特点

与之前介绍的神经网络相比，传统神经网络只有线性连接，而CNN包括**卷积（convolution）**操作、**汇合（pooling）操作和非线性激活函数映射（即线性连接）**等等。

3. 应用与典型网络

经典的CNN网络：

Alex-Net

VGG-Nets

Resnet

常用应用：

深度学习在计算机图像识别上的应用非常成功。利用深度学习，我们能够对图片进行高精度识别，实现这一功能的，主要依靠神经网络中的一种分支，名为卷积网络

关于卷积神经网络基础网络和卷积神经网络理论基础的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

卷积神经网络基础网络