卷积符号手写怎么写,z变换符号手写怎么写
在信号处理、图像处理和其它工程/科学领域,卷积都是一种使用广泛的技术。在深度学习领域,(CNN)这种模型架构就得名于这种技术。但是,深度学习领域的卷积本质上是信号/图像处理领域内的互相关(cross-correlation)。这两种操作之间存在细微的差别。
无需太过深入细节,我们就能看到这个差别。在信号/图像处理领域,卷积的定义是:
其定义是两个函数中一个函数经过反转和位移后再相乘得到的积的积分。下面的可视化展示了这一思想:
信号处理中的卷积。过滤器 g 经过反转,然后再沿水平轴滑动。在每一个位置,我们都计算 f 和反转后的 g 之间相交区域的面积。这个相交区域的面积就是特定位置出的卷积值。
这里,函数 g 是过滤器。它被反转后再沿水平轴滑动。在每一个位置,我们都计算 f 和反转后的 g 之间相交区域的面积。这个相交区域的面积就是特定位置出的卷积值。
另一方面,互相关是两个函数之间的滑动点积或滑动内积。互相关中的过滤器不经过反转,而是直接滑过函数 f。f 与 g 之间的交叉区域即是互相关。下图展示了卷积与互相关之间的差异。
在深度学习中,卷积中的过滤器不经过反转。严格来说,这是互相关。我们本质上是执行逐元素乘法和加法。但在深度学习中,直接将其称之为卷积更加方便。这没什么问题,因为过滤器的权重是在训练阶段学习到的。如果上面例子中的反转函数 g 是正确的函数,那么经过训练后,学习得到的过滤器看起来就会像是反转后的函数 g。因此,在训练之前,没必要像在真正的卷积中那样首先反转过滤器。
卷积神经网络解决的问题
我们构造了?个含单隐藏层的多层感知机模型来对Fashion-MNIST数据集中的图像进?分类。每张图像?和宽均是28像素。我们将图像中的像素逐?展开,得到?度为784的向量,并输?进全连接层中。然而,这种分类?法有?定的局限性。
- 图像在同?列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。
- 对于大尺寸的输?图像,使?全连接层容易造成模型过大。假设输?是?和宽均为1000像素的彩?照?(含3个通 道)。即使全连接层输出个数仍是256,该层权重参数的形状是3, 000, 000 × 256:它占?了?约3 GB的内存或显存。这带来过复杂的模型和过?的存储开销。
卷积层尝试解决这两个问题。一方面,卷积层保留输?形状,使图像的像素在?和宽两个方向上的相关性均可能被有效识别;另一方面,卷积层通过滑动窗口将同?卷积核与不同位置的输?重复计算,从而避免参数尺?过大。
几种经典的卷积网络的模型
1 LeNet-5
1.1 出现
最开始的是LeNet网络,LeNet包含两个卷积层,2个全连接层,共计6万个学习参数。且在结构上与现代的卷积神经网络十分接近。
在LeNet的基础上,构建了更加完备的卷积神经网络LeNet-5并在手写数字的识别问题中取得成功 。LeNet-5沿用了LeCun (1989) 的学习策略并在原有设计中加入了池化层对输入特征进行筛选 。LeNet-5及其后产生的变体定义了现代卷积神经网络的基本结构,其构筑中交替出现的卷积层-池化层被认为有效提取了输入图像的平移不变特征 。
至此,LeNet-5可谓经典的CNN入门级神经网络模型,不过它流传这么久的原因并不是因为该模型的训练效果有多好,而是在于这个模型的结构几乎是最简单的深度学习神经网络了,学了这个网络模型,就相当于入门了轻量级的神经网络了。
LeNet-5 模型总计 7 层,每层包含众多参数。虽然层数只有 7 层,但是也包含了卷积层,池化层,全连接层。
1.2 模型描述
image-20210621134936126
LeNet-5 模型总计 7 层,每层包含众多参数。虽然层数只有 7 层,但是也包含了卷积层,池化层,全连接层。
首先,输入层输入原始图像,原始图像被处理成 32 × 32 个像素点的值。
C1 层是卷积层,包含了 6 个特征图。特征图中的每个映射,即 28 x 28 个神经元,它们共享卷积核权值参数。通过卷积运算,原始信号特征增强并降低噪声,若卷积核不同,从图像中提取到的特征也不同;
S2 层是一个池化层,它将局部像素值平均化来实现子抽样,可以在某种程度上保证网络的特征被提取,同时大大降低运算量,减少了网络结构过拟合的风险。该池化层包含了 6 个特征映射,每个映射的像素值为 14 x 14。
C3 卷积层由 16 个特征映射构成,每个特征映射用于加权和计算的卷积核为 10 x 10
的。
S4 池化层同样包含 16 个特征映射,每个特征映射中所用的是 5 x 5 的卷积核。
C5 是用 5×5 的卷积核进行运算,包含 120 个神经元。 F6 是全连接层,包含了 84 个特征图。全连接层中对输入进行点积之后加入偏置,然后经过一个激活函数传输给输出层的神经元。最后一层为输出层,设置了 10 个神经元来进行分类,得到输出设置。
2 Alexnet网络
2.1 出现
Alexnet 将卷积神经网络应用于更多更深更宽的网络中,对于图像分类任务来说,Alexnet 因为层数的增加,数据处理的能力也随之提高,从而其效果分类的精度高于以前的Lenet-5 网络模型。
首次成功使用ReLU作为CNN的激活函数,并验证其效果在较深的网络超过了Sigmoid,解决了sigmoid函数容易出现的梯度消失问题(这点很重要)。
img
首次使用Dropout层,随即忽略了一部分神经元,避免过拟合问题。
2.2 描述
image-20210621140418411
Alexnet 结构包含输入层、5 个卷积层,3 个全连接层,输出层,其中有 3 个卷积层后紧跟池化层,分别进行了最大池化。输入层输入大小为 224 x 224 的 3 通道图像。
第一层卷积层有 96 个大小为 11 x 11x 3 的卷积核,将其分两组(每组 48 个),首先按步长 4 个像素对输入层进行卷积运算,接着进行 ReLu 激活,使用窗口为 3 x 3、步长为 2 个像素的重叠进行最大池化,最后进行局部响应归一化操作,得到 27 x 27 x 48 的归一化结果。
第二层卷积层有 256 个大小为 27 x 27 x 48 的卷积核,将其分两组(每组 128 个)进行卷积运算,其中步长为 1 个像素,接着进行 ReLu 激活,再使用窗口为 3 x 3、步长为 2 个像素的重叠进行最大池化,最后对池化结果使用局部响应归一化操作,得到两组 13 x 13 x128 的归一化结果。
第三层卷积层首先使用卷积核进行卷积运算,总计 384 个,大小为 13 x 13 x 256,分为两组,按步长为 1 个像素对上一层归一化结果卷积运算,接着进行 ReLu 激活,得到激活结果。
第四层卷积层首先使用卷积核,总计 384 个,大小为 13 x 13 x 192,分为两组,按步长为 1 个像素对上一层的激活结果进行卷积运算,接着进行 ReLu 激活,得到激活结果。
第五层卷积层首先使用卷积核进行卷积运算,总计 256 个,大小为 13 x 13 x 192,分为两组,按步长为 1 个像素,对上一层的激活结果卷积运算,接着进行 ReLu 激活,再进行重叠最大池化,其中,窗口为 3 x 3,步长为 2 个像素。
第六层全连接层使用 4096 个神经元,分为两组,对上一层的池化结果全连接处理。然后对全连接结果行 ReLu 激活,再使用概率为 0.5 的 dropout 操作,得到 dropout 结果。
第七层全连接层使用 4096 个神经元,分为两组,对上一层的池化结果全连接处理。然后进行 ReLu 激活,再使用概率为 0.5 的 dropout 操作,得到 dropout 结果。
第八层全连接层为输出层,用来覆盖 1000 类的标签分布。
2.3 LRN局部响应归一化
Alexnet 采用了局部响应归一化的方式,对其中响应较大的值进行增强,对响应较小的值进行抑制。
本来我以为ReLU函数是不需要归一化的,但在论文作者发现使用归一化后的数据对于网络的性能有所提高,
b x , y i = a x , y i / ( k + α ∑ j = m a x ( 0 , i ? n / 2 ) m i n ( N ? 1 , i + n / 2 ) ( a x , y j ) 2 ) β b^i_{x,y} = a_{x,y}^i / \big( k + \alpha \sum _{j = max(0, i-n / 2)} ^{min(N-1, i+n / 2)} (a_{x,y}^j)^2 \big)^\beta bx,yi=ax,yi/(k+αj=max(0,i?n/2)∑min(N?1,i+n/2)?(ax,yj?)2)β
其中a代表在feature map中第i个卷积核(x,y)坐标经过了ReLU激活函数的输出,n表示相邻的几个卷积核。N表示这一层总的卷积核数量。k, n, α和β是hyper-parameters,他们的值是在验证集上实验得到的,其中k = 2,n = 5,α = 0.0001,β = 0.75。
2.4 重叠最大池化
重叠池化正如其名字所说的,相邻池化窗口之间会有重叠区域,步长s=2,窗口z=3,论文中,作者使用了重叠池化,其他的设置都不变的情况下, top-1和top-5 的错误率分别减少了0.4%和0.3%。
3 VGGnet网络
3.1 出现
在网络深度方面,由于原图的尺寸较大可能产生冗余,因而用大卷积能捕捉到最初纹理细节的特征变化,这时 Alexnet 网络使用步长为 4 的 11 x 11 的大卷积核,由于后面更深的层数可能会失较大局部范围内的特征相关性,因此 Alexnet 网络转用更多 3 x 3 的小卷积核(和一个 5 x 5 卷积核)去捕捉细节变化;而 VGGnet 则全部使用 3 x 3 卷积核。
相比于 Alexnet 使用大小为 3 x 3 的池化核,VGGnet 网络全部采用大小为 2 x 2 的池化核,从而原始图像中更细节的信息将被 VGGnet 获取,且采用的是最大池化的方式,更容易捕捉图像和梯度的变化,带来更大局部图像特征信息的变化差,更能描绘纹理等细节信息。
3.2 描述
image-20210621143725792
该网络结构有 13 个卷积层、3 个全连接层。网络一开始输入 224 x 224 的 RGB 图像并去均值化。接着,大小为 3 x 3 的卷积核与图像进行卷积操作,步长为 1 像素,空间填充 padding 为 1 像素。池化层进行最大池化,设置窗口大小为 2 x 2,步长为 2 个像素。网络最后为 3 个全连接层,前 2 个全连接层通道数为 4096 个,第 3 个全连接层包含 1000 个通道可实现 1000 类图像分类。
在卷积层中,当输入原始图像后,多个卷积核在其不同位置重复作用,进行特征提取。若输入图像通过个卷积核卷积,得到个特征图
image-20210621143939555
x表示在第层卷积层的第个特征图,为该层的激活函数,表示输入图像的集合,是对应的偏置。
由于上一层卷积层得到原始图像的特征图,池化层主要对其进行数据压缩,提取主要特征。采用最大池化的方式
image-20210621144155785
down()表示进行的是最大池化操作,即对于某个滤波器抽取到若干特征值,只选择其中保留特征中最强的,而抛弃其它弱的此类特征。
3.3 可视化网址
https://dgschwend.github.io/netscope/#/preset/vgg-16
————————————————
文章来源:CSDN博主「勿讼」的原创文章
原文链接:https://blog.csdn.net/qq_44389898/article/details/118658763
如发现本站有涉嫌抄袭侵权/违法违规等内容,请<举报!一经查实,本站将立刻删除。