首页网络设计正文

神经网络基础（神经网络基础知识PDF）

网络设计 2年前(02-05) 311

本篇文章给大家谈谈神经网络基础，以及神经网络基础知识PDF对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。本文目录一览： 1、卷积神经网络（CNN）基础

本篇文章给大家谈谈神经网络基础，以及神经网络基础知识PDF对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、卷积神经网络（CNN）基础
2、神经网络原理及应用
3、一文看懂四种基本的神经网络架构

卷积神经网络（CNN）基础

在七月初七情人节，牛郎织女相见的一天，我终于学习了CNN（来自CS231n），感觉感触良多，所以赶快记下来，别忘了，最后祝大家情人节快乐5555555.正题开始!

CNN一共有卷积层（CONV）、ReLU层（ReLU）、池化层（Pooling）、全连接层（FC（Full Connection））下面是各个层的详细解释。

卷积，尤其是图像的卷积，需要一个滤波器，用滤波器对整个图像进行遍历，我们***设有一个32*32*3的原始图像A，滤波器的尺寸为5*5*3，用w表示，滤波器中的数据就是CNN的参数的一部分，那么在使用滤波器w对A进行滤波的话，可以用下面的式子表示：

其中x为原始图像的5*5*3的一部分，b是偏置项置为1。在对A进行滤波之后，产生的是一个28*28*1的数据。那么***设我们存在6个滤波器，这六个滤波器之间彼此是独立的，也就是他们内部的数据是不同的且没有相关性的。可以理解为一个滤波器查找整幅图像的垂直边缘，一个查找水平边缘，一个查找红色，一个查找黑色这样。那么我就可以产生6个28*28*1的数据，将它们组合到一起就可以产生28*28*6的数据，这就是卷积层主要做的工作。

CNN可以看作一系列的卷积层和ReLU层对原始数据结构进行处理的神经网络，处理的过程可以用下面这幅图表示

特别要注意的是滤波器的深度一定要与上一层传来的数据的深度相同，就像上图的第二个卷积层在处理传来的28*28*6的数据时要使用5*5*6的滤波器.

滤波器在图像上不断移动对图像滤波，自然存在步长的问题，在上面我们举的例子都是步长为1的情况，如果步长为3的话，32*32*3的图像经过5*5*3的滤波器卷积得到的大小是（32-5）/3+1=10，注：步长不能为2因为（32-5）/2+1=14.5是小数。

所以当图像大小是N，滤波器尺寸为F时，步长S，那么卷积后大小为（N-F）/S+1

我们从上面的图中可以看到图像的长和宽在逐渐的减小，在经过超过5层之后极可能只剩下1*1的空间尺度，这样是十分不好的，而且也不利于我们接下来的计算，所以我们想让卷积层处理完之后图像在空间尺度上大小不变，所以我们引入了pad the border的操作。pad其实就是在图像周围补0，扩大图像的尺寸，使得卷积后图像大小不变。在CNN中，主要存在4个超参数，滤波器个数K，滤波器大小F，pad大小P和步长S，其中P是整数，当P=1时，对原始数据的操作如图所示：

那么在pad操作后卷积后的图像大小为：（N-F+2*P）/S+1

而要想让卷积层处理后图像空间尺度不变，P的值可以设为P=（F-1）/2

卷积层输入W 1 *H 1 *D 1 大小的数据，输出W 2 *H 2 *D 2 的数据，此时的卷积层共有4个超参数：

K：滤波器个数

P：pad属性值

S：滤波器每次移动的步长

F：滤波器尺寸

此时输出的大小可以用输入和超参计算得到：

W 2 =（W 1 -F+2P）/S+1

H 2 =（H 1 -F+2P）/S+1

D 2 =D 1

1*1的滤波器也是有意义的，它在深度方向做卷积，例如1*1*64的滤波器对56*56*64的数据卷积得到56*56的数据

F通常是奇数，这样可以综合考虑上下左右四个方向的数据。

卷积层从神经元的角度看待可以有两个性质：参数共享和局域连接。对待一个滤波器，例如5*5*3的一个滤波器，对32*32*3的数据卷积得到28*28的数据，可以看作存在28*28个神经元，每个对原图像5*5*3的区域进行计算，这28*28个神经元由于使用同一个滤波器，所以参数相同，我们称这一特性为参数共享。

针对不同的滤波器，我们可以看到他们会看到同一区域的图像，相当于在深度方向存在多个神经元，他们看着相同区域叫做局域连接

参数共享减少了参数的数量，防止了过拟合

局域连接为查找不同特征更丰富的表现图像提供了可能。

卷积就像是对原图像的另一种表达。

激活函数，对于每一个维度经过ReLU函数输出即可。不改变数据的空间尺度。

通过pad操作，输出图像在控件上并没有变化，但是深度发生了变化，越来越庞大的数据给计算带来了困难，也出现了冗余的特征，所以需要进行池化操作，池化不改变深度，只改变长宽，主要有最大值和均值两种方法，一般的池化滤波器大小F为2步长为2，对于最大值池化可以用下面的图像清晰的表示：

卷积层输入W 1 *H 1 *D 1 大小的数据，输出W 2 *H 2 *D 2 的数据，此时的卷积层共有2个超参数：

S：滤波器每次移动的步长

F：滤波器尺寸

此时输出的大小可以用输入和超参计算得到：

W 2 =（W 1 -F）/S+1

H 2 =（H 1 -F）/S+1

D 2 =D 1

将最后一层（CONV、ReLU或Pool）处理后的数据输入全连接层，对于W 2 *H 2 *D 2 数据，我们将其展成1*1*W 2 *H 2 *D 2 大小的数据，输入层共有W 2 *H 2 *D 2 个神经元，最后根据问题确定输出层的规模，输出层可以用softmax表示。也就是说，全连接层就是一个常见的BP神经网络。而这个网络也是参数最多的部分，是接下来想要去掉的部分。完整的神经网络可以用下面的图表示：

[(CONV-ReLU)*N-POOL?]*M-(FC-RELU)*K,SoftMax

1.更小的滤波器与更深的网络

2.只有CONV层而去掉池化与全链接

最早的CNN，用于识别邮编，结构为：

CONV-POOL-CONV-POOL-CONV-FC

滤波器大小5*5，步长为1，池化层2*2，步长为2

2012年由于GPU技术所限，原始AlexNet为两个GPU分开计算，这里介绍合起来的结构。

输入图像为227*227*3

1.首次使用ReLU

2.使用Norm layers，现在已经抛弃，因为效果不大

3.数据经过预处理（例如大小变化，颜色变化等）

4.失活比率0.5

5.batch size 128

6.SGD Momentum 参数0.9（SGD和Momentum见我的其他文章）

7.学习速率 0.01，准确率不在提升时减少10倍，1-2次后达到收敛

8.L2权重减少0.0005

9.错误率15.4%

改进自AlexNet，主要改变：

1.CONV1的滤波器从11*11步长S=4改为7*7步长为2.

2.CONV3,4,5滤波器数量有384，384，256改为512，***，512（滤波器数量为2的n次幂有利于计算机计算可以提高效率）

错误率：14.8%后继续改进至11.2%

当前最好的最易用的CNN网络，所有卷积层滤波器的大小均为3*3，步长为1，pad=1，池化层为2*2的最大值池化，S=2。

主要参数来自全连接层，这也是想要去掉FC的原因。

具有高度的统一性和线性的组合，易于理解，十分方便有VGG-16，VGG-19等多种结构。

错误率7.3%

完全移除FC层，参数只有500万，使用Inception模块（不太理解，有时间继续看）

准确率6.67%

准确率3.6%

拥有极深的网络结构，且越深准确率越高。是传统CNN不具备的特点，传统CNN并非越深越准确。需要训练时间较长但是快于VGG

1.每个卷积层使用Batch Normalization

2.X***ier/2初始化

3.SGD+Momentum（0.9）

4.Learning rate:0.1,准确率不变减小10倍（因为Batch Normalization所以比AlexNet大）

5.mini-batch size 256

6.Weight decay of 0.00001

7.不适用失活（因为Batch Normalization）

具体的梯度过程学完ResNet再说吧。

神经网络原理及应用

1. 什么是神经网络？

神经网络是一种模拟动物神经网络行为特征，进行分布式并行信息处理的算法。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

人类的神经网络

2. 神经网络基础知识

构成：大量简单的基础元件——神经元相互连接

工作原理：模拟生物的神经处理信息的方式

功能：进行信息的并行处理和非线性转化

特点：比较轻松地实现非线性映射过程，具有大规模的计算能力

神经网络的本质：

神经网络的本质就是利用计算机语言模拟人类大脑做决定的过程。

3. 生物神经元结构

4. 神经元结构模型

xj为输入信号，θi为阈值，wij表示与神经元连接的权值，yi表示输出值

判断xjwij是否大于阈值θi

5. 什么是阈值？

临界值。

神经网络是模仿大脑的神经元，当外界***达到一定的阈值时，神经元才会受***，影响下一个神经元。

6. 几种代表性的网络模型

单层前向神经网络——线性网络

阶跃网络

多层前向神经网络（反推学习规则即BP神经网络）

Elm*** 络、Hopfield网络、双向联想记忆网络、自组织竞争网络等等

7. 神经网络能干什么？

运用这些网络模型可实现函数逼近、数据聚类、模式分类、优化计算等功能。因此，神经网络广泛应用于人工智能、自动控制、机器人、统计学等领域的信息处理中。虽然神经网络的应用很广，但是在具体的使用过程中到底应当选择哪种网络结构比较合适是值得考虑的。这就需要我们对各种神经网络结构有一个较全面的认识。

8. 神经网络应用

一文看懂四种基本的神经网络架构

原文链接：

更多干货就在我的个人博客欢迎关注

刚刚入门神经网络，往往会对众多的神经网络架构感到困惑，神经网络看起来复杂多样，但是这么多架构无非也就是三类，前馈神经网络，循环网络，对称连接网络，本文将介绍四种常见的神经网络，分别是CNN，RNN，DBN，GAN。通过这四种基本的神经网络架构，我们来对神经网络进行一定的了解。

神经网络是机器学习中的一种模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

一般来说，神经网络的架构可以分为三类：

前馈神经网络：

这是实际应用中最常见的神经网络类型。第一层是输入，最后一层是输出。如果有多个隐藏层，我们称之为“深度”神经网络。他们计算出一系列改变样本相似性的变换。各层神经元的活动是前一层活动的非线性函数。

循环网络：

循环网络在他们的连接图中定向了循环，这意味着你可以按照箭头回到你开始的地方。他们可以有复杂的动态，使其很难训练。他们更具有生物真实性。

循环网络的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。

循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

对称连接网络：

对称连接网络有点像循环网络，但是单元之间的连接是对称的（它们在两个方向上权重相同）。比起循环网络，对称连接网络更容易分析。这个网络中有更多的限制，因为它们遵守能量函数定律。没有隐藏单元的对称连接网络被称为“Hopfield 网络”。有隐藏单元的对称连接的网络被称为玻尔兹曼机。

其实之前的帖子讲过一些关于感知机的内容，这里再复述一下。

首先还是这张图

这是一个M-P神经元

一个神经元有n个输入，每一个输入对应一个权值w，神经元内会对输入与权重做乘法后求和，求和的结果与偏置做差，最终将结果放入激活函数中，由激活函数给出最后的输出，输出往往是二进制的，0 状态代表抑制，1 状态代表激活。

可以把感知机看作是 n 维实例空间中的超平面决策面，对于超平面一侧的样本，感知器输出 1，对于另一侧的实例输出 0，这个决策超平面方程是 w⋅x=0。那些可以被某一个超平面分割的正反样例集合称为线性可分(linearly separable)样例集合，它们就可以使用图中的感知机表示。

与、或、非问题都是线性可分的问题，使用一个有两输入的感知机能容易地表示，而异或并不是一个线性可分的问题，所以使用单层感知机是不行的，这时候就要使用多层感知机来解决疑惑问题了。

如果我们要训练一个感知机，应该怎么办呢？

我们会从随机的权值开始，反复地应用这个感知机到每个训练样例，只要它误分类样例就修改感知机的权值。重复这个过程，直到感知机正确分类所有的样例。每一步根据感知机训练法则来修改权值，也就是修改与输入 xi 对应的权 wi，法则如下：

这里 t 是当前训练样例的目标输出，o 是感知机的输出，η 是一个正的常数称为学习速率。学习速率的作用是缓和每一步调整权的程度，它通常被设为一个小的数值（例如 0.1），而且有时会使其随着权调整次数的增加而衰减。

多层感知机，或者说是多层神经网络无非就是在输入层与输出层之间加了多个隐藏层而已，后续的CNN，DBN等神经网络只不过是将重新设计了每一层的类型。感知机可以说是神经网络的基础，后续更为复杂的神经网络都离不开最简单的感知机的模型，

谈到机器学习，我们往往还会跟上一个词语，叫做模式识别，但是真实环境中的模式识别往往会出现各种问题。比如：

图像分割：真实场景中总是掺杂着其它物体。很难判断哪些部分属于同一个对象。对象的某些部分可以隐藏在其他对象的后面。

物体光照：像素的强度被光照强烈影响。

图像变形：物体可以以各种非仿射方式变形。例如，手写也可以有一个大的圆圈或只是一个尖头。

情景支持：物体所属类别通常由它们的使用方式来定义。例如，椅子是为了让人们坐在上面而设计的，因此它们具有各种各样的物理形状。

卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子***样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子***样也叫做池化（pooling），通常有均值子***样（mean pooling）和最大值子***样（max pooling）两种形式。子***样可以看作一种特殊的卷积过程。卷积和子***样大大简化了模型复杂度，减少了模型的参数。

卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。

这里举AlexNet为例：

·输入：224×224大小的图片，3通道

·第一层卷积：11×11大小的卷积核96个，每个GPU上48个。

·第一层max-pooling：2×2的核。

·第二层卷积：5×5卷积核256个，每个GPU上128个。

·第二层max-pooling：2×2的核。

·第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。

·第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。

·第五层卷积：3×3的卷积核256个，两个GPU上个128个。

·第五层max-pooling：2×2的核。

·第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。

·第二层全连接：4096维

·Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

卷积神经网络在模式识别领域有着重要应用，当然这里只是对卷积神经网络做了最简单的讲解，卷积神经网络中仍然有很多知识，比如局部感受野，权值共享，多卷积核等内容，后续有机会再进行讲解。

传统的神经网络对于很多问题难以处理，比如你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。

这是一个简单的RNN的结构，可以看到隐藏层自己是可以跟自己进行连接的。

那么RNN为什么隐藏层能够看到上一刻的隐藏层的输出呢，其实我们把这个网络展开来开就很清晰了。

从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。

如果反复把式2带入到式1，我们将得到：

在讲DBN之前，我们需要对DBN的基本组成单位有一定的了解，那就是RBM，受限玻尔兹曼机。

首先什么是玻尔兹曼机？

[图片上传失败...(image-d36b31-1519636788074)]

如图所示为一个玻尔兹曼机，其蓝色节点为隐层，白色节点为输入层。

玻尔兹曼机和递归神经网络相比，区别体现在以下几点：

1、递归神经网络本质是学习一个函数，因此有输入和输出层的概念，而玻尔兹曼机的用处在于学习一组数据的“内在表示”，因此其没有输出层的概念。

2、递归神经网络各节点链接为有向环，而玻尔兹曼机各节点连接成无向完全图。

而受限玻尔兹曼机是什么呢？

最简单的来说就是加入了限制，这个限制就是将完全图变成了二分图。即由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接。

h表示隐藏层，v表示显层

在RBM中，任意两个相连的神经元之间有一个权值w表示其连接强度，每个神经元自身有一个偏置系数b（对显层神经元）和c（对隐层神经元）来表示其自身权重。

具体的公式推导在这里就不展示了

DBN是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。

DBN由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

生成对抗网络其实在之前的帖子中做过讲解，这里在说明一下。

生成对抗网络的目标在于生成，我们传统的网络结构往往都是判别模型，即判断一个样本的真实性。而生成模型能够根据所提供的样本生成类似的新样本，注意这些样本是由计算机学习而来的。

GAN一般由两个网络组成，生成模型网络，判别模型网络。

生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。

举个例子：生成网络 G 好比*** 制造团伙，专门制造*** ，判别网络 D 好比警察，专门检测使用的货币是真币还是*** ，G 的目标是想方设法生成和真币一样的货币，使得 D 判别不出来，D 的目标是想方设法检测出来 G 生成的*** 。

传统的判别网络：

生成对抗网络：

下面展示一个cDCGAN的例子（前面帖子中写过的）

生成网络

判别网络

最终结果，使用MNIST作为初始样本，通过学习后生成的数字，可以看到学习的效果还是不错的。

本文非常简单的介绍了四种神经网络的架构，CNN，RNN，DBN，GAN。当然也仅仅是简单的介绍，并没有深层次讲解其内涵。这四种神经网络的架构十分常见，应用也十分广泛。当然关于神经网络的知识，不可能几篇帖子就讲解完，这里知识讲解一些基础知识，帮助大家快速入（zhuang）门（bi）。后面的帖子将对深度自动编码器，Hopfield 网络长短期记忆网络（LSTM）进行讲解。

神经网络基础（神经网络基础知识PDF）