首页网络设计正文

卷积神经网络基础知识（卷积神经网络通俗易懂的理解）

网络设计 11个月前 (02-03) 931

本篇文章给大家谈谈卷积神经网络基础知识，以及卷积神经网络通俗易懂的理解对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。本文目录一览： 1、卷积神经网络 2、

本篇文章给大家谈谈卷积神经网络基础知识，以及卷积神经网络通俗易懂的理解对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、卷积神经网络
2、卷积神经网络（CNN）基础
3、卷积神经网络通俗理解
4、初识卷积神经网络

卷积神经网络

卷积神经网络（Convolutional Neural Networks，CNN）是一种前馈神经网络。卷积神经网络是受生物学上感受野（Receptive Field）的机制而提出的。感受野主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。比如在视觉神经系统中，一个神经元的感受野是指视网膜上的特定区域，只有这个区域内的***才能够激活该神经元。

卷积神经网络又是怎样解决这个问题的呢？主要有三个思路：

在使用CNN提取特征时，到底使用哪一层的输出作为最后的特征呢？

答：倒数第二个全连接层的输出才是最后我们要提取的特征，也就是最后一个全连接层的输入才是我们需要的特征。

全连接层会忽视形状。卷积层可以保持形状不变。当输入数据是图像时，卷积层会以3维数据的形式接收输入数据，并同样以3维数据的形式输出至下一层。因此，在CNN中，可以（有可能）正确理解图像等具有形状的数据。

CNN中，有时将卷积层的输入输出数据称为特征图（feature map）。其中，卷积层的输入数据称为输入特征图（input feature map），输出数据称为输出特征图（output feature map）。

卷积层进行的处理就是卷积运算。卷积运算相当于图像处理中的“滤波器运算”。

滤波器相当于权重或者参数，滤波器数值都是学习出来的。卷积层实现的是垂直边缘检测。

边缘检测实际就是将图像由亮到暗进行区分，即边缘的过渡(edge transitions)。

卷积层对应到全连接层，左上角经过滤波器，得到的3，相当于一个神经元输出为3.然后相当于，我们把输入矩阵拉直为36个数据，但是我们只对其中的9个数据赋予了权重。

步幅为1 ，移动一个，得到一个1，相当于另一个神经单元的输出是1.

并且使用的是同一个滤波器，对应到全连接层，就是权值共享。

在这个例子中，输入数据是有高长方向的形状的数据，滤波器也一样，有高长方向上的维度。***设用（height, width）表示数据和滤波器的形状，则在本例中，输入大小是(4, 4)，滤波器大小是(3, 3)，输出大小是(2, 2)。另外，有的文献中也会用“核”这个词来表示这里所说的“滤波器”。

对于输入数据，卷积运算以一定间隔滑动滤波器的窗口并应用。这里所说的窗口是指图7-4中灰色的3 × 3的部分。如图7-4所示，将各个位置上滤

波器的元素和输入的对应元素相乘，然后再求和（有时将这个计算称为乘积累加运算）。然后，将这个结果保存到输出的对应位置。将这个过程在所有位置都进行一遍，就可以得到卷积运算的输出。

CNN中，滤波器的参数就对应之前的权重。并且，CNN中也存在偏置。

在进行卷积层的处理之前，有时要向输入数据的周围填入固定的数据（比如0等），这称为填充（padding），是卷积运算中经常会用到的处理。比如，在图7-6的例子中，对大小为(4, 4)的输入数据应用了幅度为1的填充。“幅度为1的填充”是指用幅度为1像素的0填充周围。

应用滤波器的位置间隔称为步幅（stride）。

***设输入大小为(H, W)，滤波器大小为(FH, FW)，输出大小为(OH, OW)，填充为P，步幅为S。

但是所设定的值必须使式（7.1）中的和分别可以除尽。当输出大小无法除尽时（结果是小数时），需要***取报错等对策。顺便说一下，根据深度学习的框架的不同，当值无法除尽时，有时会向最接近的整数四舍五入，不进行报错而继续运行。

之前的卷积运算的例子都是以有高、长方向的2维形状为对象的。但是，图像是3维数据，除了高、长方向之外，还需要处理通道方向。

在3维数据的卷积运算中，输入数据和滤波器的通道数要设为相同的值。

因此，作为4维数据，滤波器的权重数据要按(output_channel, input_channel, height, width)的顺序书写。比如，通道数为3、大小为5 × 5的滤

波器有20个时，可以写成(20, 3, 5, 5)。

对于每个通道，均使用自己的权值矩阵进行处理，输出时将多个通道所输出的值进行加和即可。

卷积运算的批处理，需要将在各层间传递的数据保存为4维数据。具体地讲，就是按(batch_num, channel, height, width)的顺序保存数据。

这里需要注意的是，网络间传递的是4维数据，对这N个数据进行了卷积运算。也就是说，批处理将N次的处理汇总成了1次进行。

池化是缩小高、长方向上的空间的运算。比如，如图7-14所示，进行将2 × 2的区域集约成1个元素的处理，缩小空间大小。

图7-14的例子是按步幅2进行2 × 2的Max池化时的处理顺序。“Max池化”是获取最大值的运算，“2 × 2”表示目标区域的大小。如图所示，从

2 × 2的区域中取出最大的元素。此外，这个例子中将步幅设为了2，所以2 × 2的窗口的移动间隔为2个元素。另外，一般来说，池化的窗口大小会和步幅设定成相同的值。比如，3 × 3的窗口的步幅会设为3，4 × 4的窗口的步幅会设为4等。

除了Max池化之外，还有***erage池化等。相对于Max池化是从目标区域中取出最大值，***erage池化则是计算目标区域的平均值。在图像识别领域，主要使用Max池化。因此，本书中说到“池化层”时，指的是Max池化。

池化层的特征

池化层有以下特征。

没有要学习的参数

池化层和卷积层不同，没有要学习的参数。池化只是从目标区域中取最大值（或者平均值），所以不存在要学习的参数。

通道数不发生变化

经过池化运算，输入数据和输出数据的通道数不会发生变化。如图7-15所示，计算是按通道独立进行的。

对微小的位置变化具有鲁棒性（健壮）

输入数据发生微小偏差时，池化仍会返回相同的结果。因此，池化对输入数据的微小偏差具有鲁棒性。比如，3 × 3的池化的情况下，如图

7-16所示，池化会吸收输入数据的偏差（根据数据的不同，结果有可能不一致）。

经过卷积层和池化层之后，进行Flatten，然后丢到全连接前向传播神经网络。

（找到一张图片使得某个filter响应最大。相当于filter固定，未知的是输入的图片。）未知的是输入的图片？？？

k是第k个filter，x是我们要找的参数。?这里我不是很明白。我得理解应该是去寻找最具有代表性的特征。

使用im2col来实现卷积层

卷积层的参数是需要学习的，但是池化层没有参数需要学习。全连接层的参数需要训练得到。

池化层不需要训练参数。全连接层的参数最多。卷积核的个数逐渐增多。激活层的size，逐渐减少。

最大池化只是计算神经网络某一层的静态属性，没有什么需要学习的，它只是一个静态属性。

像这样展开之后，只需对展开的矩阵求各行的最大值，并转换为合适的形状即可（图7-22）。

参数

• input_dim ― 输入数据的维度：（通道，高，长）

• conv_param ― 卷积层的超参数（字典）。字典的关键字如下：

filter_num ― 滤波器的数量

filter_size ― 滤波器的大小

stride ― 步幅

pad ― 填充

• hidden_size ― 隐藏层（全连接）的神经元数量

• output_size ― 输出层（全连接）的神经元数量

• weitght_int_std ― 初始化时权重的标准差

LeNet

LeNet在1998年被提出，是进行手写数字识别的网络。如图7-27所示，它有连续的卷积层和池化层（正确地讲，是只“抽选元素”的子***样层），最后经全连接层输出结果。

和“现在的CNN”相比，LeNet有几个不同点。第一个不同点在于激活函数。LeNet中使用sigmoid函数，而现在的CNN中主要使用ReLU函数。

此外，原始的LeNet中使用子***样（subsampling）缩小中间数据的大小，而现在的CNN中Max池化是主流。

AlexNet

在LeNet问世20多年后，AlexNet被发布出来。AlexNet是引发深度学习热潮的导火线，不过它的网络结构和LeNet基本上没有什么不同，如图7-28所示。

AlexNet叠有多个卷积层和池化层，最后经由全连接层输出结果。虽然结构上AlexNet和LeNet没有大的不同，但有以下几点差异。

• 激活函数使用ReLU。

• 使用进行局部正规化的LRN（Local Response Normalization）层。

• 使用Dropout

TF2.0实现卷积神经网络

valid意味着不填充，same是填充

or the SAME padding, the output height and width are computed as:

out_height = ceil(float(in_height) / float(strides[1]))

out_width = ceil(float(in_width) / float(strides[2]))

And

For the VALID padding, the output height and width are computed as:

out_height = ceil(float(in_height - filter_height + 1) / float(strides[1]))

out_width = ceil(float(in_width - filter_width + 1) / float(strides[2]))

因此，我们可以设定 padding 策略。在 tf.keras.layers.Conv2D 中，当我们将 padding 参数设为 same 时，会将周围缺少的部分使用 0 补齐，使得输出的矩阵大小和输入一致。

卷积神经网络（CNN）基础

在七月初七情人节，牛郎织女相见的一天，我终于学习了CNN（来自CS231n），感觉感触良多，所以赶快记下来，别忘了，最后祝大家情人节快乐5555555.正题开始!

CNN一共有卷积层（CONV）、ReLU层（ReLU）、池化层（Pooling）、全连接层（FC（Full Connection））下面是各个层的详细解释。

卷积，尤其是图像的卷积，需要一个滤波器，用滤波器对整个图像进行遍历，我们***设有一个32*32*3的原始图像A，滤波器的尺寸为5*5*3，用w表示，滤波器中的数据就是CNN的参数的一部分，那么在使用滤波器w对A进行滤波的话，可以用下面的式子表示：

其中x为原始图像的5*5*3的一部分，b是偏置项置为1。在对A进行滤波之后，产生的是一个28*28*1的数据。那么***设我们存在6个滤波器，这六个滤波器之间彼此是独立的，也就是他们内部的数据是不同的且没有相关性的。可以理解为一个滤波器查找整幅图像的垂直边缘，一个查找水平边缘，一个查找红色，一个查找黑色这样。那么我就可以产生6个28*28*1的数据，将它们组合到一起就可以产生28*28*6的数据，这就是卷积层主要做的工作。

CNN可以看作一系列的卷积层和ReLU层对原始数据结构进行处理的神经网络，处理的过程可以用下面这幅图表示

特别要注意的是滤波器的深度一定要与上一层传来的数据的深度相同，就像上图的第二个卷积层在处理传来的28*28*6的数据时要使用5*5*6的滤波器.

滤波器在图像上不断移动对图像滤波，自然存在步长的问题，在上面我们举的例子都是步长为1的情况，如果步长为3的话，32*32*3的图像经过5*5*3的滤波器卷积得到的大小是（32-5）/3+1=10，注：步长不能为2因为（32-5）/2+1=14.5是小数。

所以当图像大小是N，滤波器尺寸为F时，步长S，那么卷积后大小为（N-F）/S+1

我们从上面的图中可以看到图像的长和宽在逐渐的减小，在经过超过5层之后极可能只剩下1*1的空间尺度，这样是十分不好的，而且也不利于我们接下来的计算，所以我们想让卷积层处理完之后图像在空间尺度上大小不变，所以我们引入了pad the border的操作。pad其实就是在图像周围补0，扩大图像的尺寸，使得卷积后图像大小不变。在CNN中，主要存在4个超参数，滤波器个数K，滤波器大小F，pad大小P和步长S，其中P是整数，当P=1时，对原始数据的操作如图所示：

那么在pad操作后卷积后的图像大小为：（N-F+2*P）/S+1

而要想让卷积层处理后图像空间尺度不变，P的值可以设为P=（F-1）/2

卷积层输入W 1 *H 1 *D 1 大小的数据，输出W 2 *H 2 *D 2 的数据，此时的卷积层共有4个超参数：

K：滤波器个数

P：pad属性值

S：滤波器每次移动的步长

F：滤波器尺寸

此时输出的大小可以用输入和超参计算得到：

W 2 =（W 1 -F+2P）/S+1

H 2 =（H 1 -F+2P）/S+1

D 2 =D 1

1*1的滤波器也是有意义的，它在深度方向做卷积，例如1*1*64的滤波器对56*56*64的数据卷积得到56*56的数据

F通常是奇数，这样可以综合考虑上下左右四个方向的数据。

卷积层从神经元的角度看待可以有两个性质：参数共享和局域连接。对待一个滤波器，例如5*5*3的一个滤波器，对32*32*3的数据卷积得到28*28的数据，可以看作存在28*28个神经元，每个对原图像5*5*3的区域进行计算，这28*28个神经元由于使用同一个滤波器，所以参数相同，我们称这一特性为参数共享。

针对不同的滤波器，我们可以看到他们会看到同一区域的图像，相当于在深度方向存在多个神经元，他们看着相同区域叫做局域连接

参数共享减少了参数的数量，防止了过拟合

局域连接为查找不同特征更丰富的表现图像提供了可能。

卷积就像是对原图像的另一种表达。

激活函数，对于每一个维度经过ReLU函数输出即可。不改变数据的空间尺度。

通过pad操作，输出图像在控件上并没有变化，但是深度发生了变化，越来越庞大的数据给计算带来了困难，也出现了冗余的特征，所以需要进行池化操作，池化不改变深度，只改变长宽，主要有最大值和均值两种方法，一般的池化滤波器大小F为2步长为2，对于最大值池化可以用下面的图像清晰的表示：

卷积层输入W 1 *H 1 *D 1 大小的数据，输出W 2 *H 2 *D 2 的数据，此时的卷积层共有2个超参数：

S：滤波器每次移动的步长

F：滤波器尺寸

此时输出的大小可以用输入和超参计算得到：

W 2 =（W 1 -F）/S+1

H 2 =（H 1 -F）/S+1

D 2 =D 1

将最后一层（CONV、ReLU或Pool）处理后的数据输入全连接层，对于W 2 *H 2 *D 2 数据，我们将其展成1*1*W 2 *H 2 *D 2 大小的数据，输入层共有W 2 *H 2 *D 2 个神经元，最后根据问题确定输出层的规模，输出层可以用softmax表示。也就是说，全连接层就是一个常见的BP神经网络。而这个网络也是参数最多的部分，是接下来想要去掉的部分。完整的神经网络可以用下面的图表示：

[(CONV-ReLU)*N-POOL?]*M-(FC-RELU)*K,SoftMax

1.更小的滤波器与更深的网络

2.只有CONV层而去掉池化与全链接

最早的CNN，用于识别邮编，结构为：

CONV-POOL-CONV-POOL-CONV-FC

滤波器大小5*5，步长为1，池化层2*2，步长为2

2012年由于GPU技术所限，原始AlexNet为两个GPU分开计算，这里介绍合起来的结构。

输入图像为227*227*3

1.首次使用ReLU

2.使用Norm layers，现在已经抛弃，因为效果不大

3.数据经过预处理（例如大小变化，颜色变化等）

4.失活比率0.5

5.batch size 128

6.SGD Momentum 参数0.9（SGD和Momentum见我的其他文章）

7.学习速率 0.01，准确率不在提升时减少10倍，1-2次后达到收敛

8.L2权重减少0.0005

9.错误率15.4%

改进自AlexNet，主要改变：

1.CONV1的滤波器从11*11步长S=4改为7*7步长为2.

2.CONV3,4,5滤波器数量有384，384，256改为512，***，512（滤波器数量为2的n次幂有利于计算机计算可以提高效率）

错误率：14.8%后继续改进至11.2%

当前最好的最易用的CNN网络，所有卷积层滤波器的大小均为3*3，步长为1，pad=1，池化层为2*2的最大值池化，S=2。

主要参数来自全连接层，这也是想要去掉FC的原因。

具有高度的统一性和线性的组合，易于理解，十分方便有VGG-16，VGG-19等多种结构。

错误率7.3%

完全移除FC层，参数只有500万，使用Inception模块（不太理解，有时间继续看）

准确率6.67%

准确率3.6%

拥有极深的网络结构，且越深准确率越高。是传统CNN不具备的特点，传统CNN并非越深越准确。需要训练时间较长但是快于VGG

1.每个卷积层使用Batch Normalization

2.X***ier/2初始化

3.SGD+Momentum（0.9）

4.Learning rate:0.1,准确率不变减小10倍（因为Batch Normalization所以比AlexNet大）

5.mini-batch size 256

6.Weight decay of 0.00001

7.不适用失活（因为Batch Normalization）

具体的梯度过程学完ResNet再说吧。

卷积神经网络通俗理解

卷积神经网络通俗理解如下：

卷积神经网络(CNN)-结构

① CNN结构一般包含这几个层：

输入层：用于数据的输入

卷积层：使用卷积核进行特征提取和特征映射

激励层：由于卷积也是一种线性运算，因此需要增加非线性映射

池化层：进行下***样，对特征图稀疏处理，减少数据运算量。

全连接层：通常在CNN的尾部进行重新拟合，减少特征信息的损失

输出层：用于输出结果

② 中间还可以使用一些其他的功能层：

归一化层（Batch Normalization）：在CNN中对特征的归一化

切分层：对某些（图片）数据的进行分区域的单独学习

融合层：对独立进行特征学习的分支进行融合

请点击输入图片描述

卷积神经网络(CNN)-输入层

① CNN的输入层的输入格式保留了图片本身的结构。

② 对于黑白的 28×28的图片，CNN 的输入是一个 28×28 的二维神经元。

③ 对于 RGB 格式的 28×28 图片，CNN 的输入则是一个3×28×28 的三维神经元（RGB中的每一个颜色通道都有一个 28×28 的矩阵）

2）卷积神经网络(CNN)-卷积层

感受视野

① 在卷积层中有几个重要的概念：

local receptive fields（感受视野）

shared weights（共享权值）

② ***设输入的是一个 28×28 的的二维神经元，我们定义 5×5 的一个 local receptive fields（感受视野），即隐藏层的神经元与输入层的 5×5 个神经元相连，这个 5*5 的区域就称之为 Local Receptive Fields，

初识卷积神经网络

按照上文中介绍的神经网络，如果处理一张图片的话，参数有多大呢？***设图像的大小为1200 * 1200，下一层的神经元个数为10^5，不难得出参数量为 1200 * 1200 * 10^5 = 1.44 * 10^12。可以看出一层的参数量就是很大了，如果再多加几层，那参数量大的应该是超出了内存的承受范围，这从研究和工程的角度都是不允许的。而且参数太多，很容易造成过拟合。

怎么解决这个问题呢？经过研究，从稀疏连接、参数共享和平移不变性三个方面来进行改进。

可能有些人不懂这种稀疏连接是怎么实现的？先来说说卷积操作，以一个二维矩阵为输入（可以看作是一个单通道图片的像素值），卷积产生的稀疏连接根本原因就是这块的核函数，一般的核函数的大小远小于输入的大小。

以下图例：卷积操作可以看做是一种滑窗法，首先，输入维度是4×4，输入中红色部分，先和核函数中的元素对应相乘，就是输出中左上角的元素值s1,即 s1 = a×k1+b×k2+e×k3+f×k4。

参数共享是指在一个模型的多个函数中使用相同的参数，它是卷积运算带来的固有属性。

在全连接中，计算每层的输出时，权重矩阵中的元素只作用于某一个输入元素一次；

而在卷积神经网络中，卷积核中的每一个元素将作用于每一个局部输入的特定位置上。根据参数共享的思想，我们只需要学习一组参数集合，而不需要针对每一个位置的每一个参数来进行优化学习，从而大大降低了模型的存储需求。

如果一个函数的输入做了一些改变，那么输出也跟着做出同样的改变，这就时平移不变性。

平移不变性是由参数共享的物理意义所得。在计算机视觉中，***如要识别一个图片中是否有一只猫，那么无论这只猫在图片的什么位置，我们都应该识别出来，即就是神经网络的输出对于平移不变性来说是等变的。

根据稀疏连接、参数共享和平移不变性三个思想，卷积核就应运而生了。看下图，有个直观的感受。

上图就是在一个通道上做的卷积，但现实中，图片一般是由3个通道构成（R\G\B）,卷积核也由二维的平面生成了三维立体。具体的样子如下图：

如上图所示，Filter W0 即为卷积核，其大小为(3 * 3 * 3)，每个3*3的二维平面会和图片的相应的通道进行卷积，3个通道的结果相加后加上统一的偏置b0，结果即为Output Volume 第一个通道的第一个位置的数。

从上图还可以看出 Input Volume 四周加了0，这个0叫做padding，一般是为了卷积划动的过程中包含原有的所有数；而多通道卷积核计算过程和卷积核计算过程，不太一样的是多通道卷积核计算过程每次滑2下，这个滑动的距离叫做步长-stride。

所以通过输入大小和卷积核大小，我们可以推断出最终的结果的大小。比如上图卷积核计算过程，输入大小为5 * 5，卷积核为3 * 3，那么卷积核在原图上每次滑动一格，横向滑3次，纵向也是3次，最终结果为 3 * 3。在多通道卷积核计算过程中，每次滑动为2格，横向滑3次，纵向也是3次，最终结果也为 3*3。可以推断出，最终大小的公式为：（输入大小 - 卷积核大小）/ 滑动步长。

在卷积核计算过程，可以看出经过卷积后的大小变小了，那能不能经过卷积计算且大小不变呢？这里，引出了 padding 的另一个作用，保证输入和输出的大小一致。比方输出的 5*5 加 padding，那么四周就被0围绕了，这时的输入大小就变为7 * 7, 再经过 3 * 3的卷积后，按照上边推断出的公式，可以得出最终的大小为 5 * 5，这时与输入大小保持了一致。

池化层夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合。

简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。

池化层用的方法有Max pooling 和 ***erage pooling，而实际用的较多的是Max pooling。下图演示一下Max pooling。

对于每个2 * 2的窗口选出最大的数作为输出矩阵的相应元素的值，比如输入矩阵第一个2 * 2窗口中最大的数是1，那么输出矩阵的第一个元素就是1，如此类推。

全连接层的部分就是将之前的结果展平之后接到最基本的神经网络了。

根据上边的介绍，可以得出，卷积核的通道数目和输入的图像的通道数目是保持一致的，而输出的通道数目是和卷积核数目是一致的。这样参数量可以得出，***设输入的通道为5，卷积核大小为 3 * 3 ，输出的通道数目为10，那么参数量为：3 * 3 * 5 * 10，其中3 * 3 * 5是1个卷积核的参数个数，3 * 3 * 5 * 10 是 10个卷积核的参数个数，也就总共的参数个数。

在卷积中，滑动一次会经过多次的点乘，只经过一次的加法，所以加法的计算量可以忽略不计。其中，滑动一次会的点乘次数和卷积核的大小有关系，比方 3 * 3的卷积，则是经过了 3 * 3 = 9次点积。一共滑动多少次和输出大小有关系，比方输出的结果也为 3 * 3，那么就是滑动了9次。这样就可以得出输入和输出单通道时计算量 3 * 3 * 3 * 3 = 81。那么对于输入多通道时，卷积核也需要增加相应的通道数目，此时应该在刚才的计算量上乘以通道的数目，得出输入多通道的一个卷积核的计算量。这样，对于输出多通道，总的计算量则是乘以多个卷积核即可。

卷积神经网络基础知识（卷积神经网络通俗易懂的理解）